En la entrada anterior contábamos que todo empezó con los Transformers de Google. Vamos a dar un salto de 5 años, e irnos a donde la revolución empezó para nosotros los usuarios. Y vamos a hablar de las dos tecnologías que saltaron a la luz en el otoño pasado: ChatGPT y Dall-E.
Empecemos por el primero. Hasta la aparición de ChatGPT, los analizadores de lenguaje funcionaban en secuencia: la IA iba leyendo la frase y analizando las palabras en función de su significado y las palabras que estaban cerca, y así, introduciendo frases una tras otra, analizaba o creaba los textos. ChatGPT modificó eso a base de leer todo un texto junto. Todo, no frase a frase o párrafo a párrafo. No sabemos cuantos tokens (palabras) analizaba en su versión 3.5, pero en su versión actual, la 4, analiza 8000 para el público general y en la versión demostrativa que han usado en OpenIA llegaba a los 32.000. Es decir, con 32.000 tokens simultáneos, la IA es capaz de analizar un texto completo de más de 50 páginas.
La evolución que este tamaño marca se refleja en los resultados. ChatGPT 3.5, cuando le pasabas un examen de comprensión lectora de acceso a la universidad hecho para humanos, se quedaba entre el 10% de las peores notas, comparado con los estudiantes bípedos. ChatGPT 4 está ya en notas del 10% con mejores resultados.
Dicho eso, conviene también explicar qué hace ChatGPT, porque la gente lo está usando para lo que no es. ChatGPT es un sistema que analiza un texto y genera un texto en respuesta, es un sistema para conversar con humanos y ayudar en determinadas tareas. No es una megaenciclopedia que lo sepa todo (aunque sabe mucho, porque ha sido entrenado con infinitdad de textos de internet, Wikipedia incluida). Su labor cuando genera un texto es adivinar cual es la palabra más probable en función del texto de entrada y lo que ya ha generado de salida.
Por eso tiene tendencia a inventarse respuestas, lo que puede dar información falsa. Él no sabe que es falsa, solo «sabe» que lo que está respondiendo es una respuesta adecuada a la pregunta que le hemos hecho, sea correcta o no. Como anécdota, cuando salió alguien le preguntó sobre la Canción del Pirata de Espronceda, y respondió con total seguridad con un poema que, sacando los primeros cuatro versos, era totalmente inventado.
Con todo, incluso con estas limitaciones, sus capacidades impresionan, especialmente en la generación de textos, corrección, y generación de código de programación.
Y Dall-E. Y nombramos Dall-E porque fue la primera en salir, pero inmediatamente salieron Stable Diffusion y Midjourney, que cada una tiene sus admiradores y detractores, pero para lo que nos interesa son muy parecidas.
Dall-E es una red neuronal que toma imágenes de entrada, las convierte en conceptos, y luego puede generar imágenes a partir de esos conceptos.
Para ello, ha sido entrenada con miles de millones de imágenes de Internet, cada imagen asociada a una serie de etiquetas, por ejemplo la imagen de un gato con la palabra «gato», y con millones de gatos la IA es capaz de aprender que imagen representa un gato: formas, colores, poses, caras… Y quien dice un gato dice cualquier cosa. Todas esas imágenes se transforman a través de un «encoder» a algo interno de la IA, un lugar donde las cosas son reducidos a una matriz de conceptos que representa un gato. Ese espacio donde los conceptos son almacenados se llama «espacio latente». Cuando nosotros posteriormente le pedimos que nos genere algo como «un gato en un traje de astronauta flotando en el espacio», la IA recurre a su espacio latente para extraer «gato» «traje de astronauta» «flotar» y «espacio» y los envía a un «decoder» donde, en base a lo que ella entiende por cada uno de esos conceptos, nos fabrica una imagen con lo que le hemos pedido. A veces mejor, a veces peor.
Como curiosidad, si introduces ruido blanco en el espacio latente, puntos al azar, la IA todavía intentará generar imágenes con sentido con ese ruido. Serán abstractas, no representarán nada reconocible, pero se ven formas y colores vagamente relacionadas.
Dell-E es lo que se llama una IA generativa, tanto ella como sus primas con tecnología similar. Y lo mismo se puede decir de ChatGPT o su prima Bard (que aún no ha salido, pero es la versión equivalente de Google, basada en LaMDA) acaban de nacer, están empezando. Apenas si hace seis meses que hemos visto esas dos tecnologías y en este tiempo su evolución ha sido totalmente asombrosa. No es difícil de imaginar que todos los errores que vemos ahora estarán corregidos en unos meses, o un par de años. Y seguramente en 3-4 años cualquier trabajo, cualquier email, cualquier diseño, pasará por alguna de estas IA, bien para que lo generen ellas mismas, o bien para corregir lo que alguna persona haya creado. Si recién salidas ya superan a muchísimos humanos, cuando hayan sido reentrenadas con cientos de millones de peticiones y recibido el feedback correspondiente, corregirán todos sus errores, no nos cabe la más mínima duda en eso.
Una última cosa en esta entrega de hoy los textos no han podido ser revisados por ChatGPT porque tiene prohibido hablar de sí misma. Pero las dos imágenes han sido generadas desde Bing Image Creator, la versión a prueba de DALL-E que podemos usar en el navegador Bing. En la primera le pedimos una imagen abstracta de un espacio latente. En la segunda, un robot revisando lo que un humano escribe en un cuaderno.
Si aún no lo has hecho, puedes probar chatGPT en https://chat.openai.com/auth/login (la versión 3.5 del modelo, necesitas registrarte) y Dall-E en https://openai.com/product/dall-e-2
También puedes usar el navegador de Microsoft, el Edge, y dentro de este abrir el navegador Bing, para ponerte en una lista de espera para probar el Chat Bing (es un ChatGPT modificado para funcionar en parte como una enciclopedia / navegador) o para probar el generador de imágenes Dall-E integrado en el propio navegador Bing: https://www.bing.com/images/create/ A nosotros nos dieron el alta bastante rápido.
Tweet Comparte