17 07 2024
Después de años de dominio de la forma de IA conocida como transformador, comienza la búsqueda de nuevas arquitecturas.
Los transformadores sustentan el modelo de generación de video de OpenAI, Sora, y están en el corazón de modelos de generación de texto como Claude de Anthropic, Gemini de Google y GPT-4o. Pero están empezando a toparse con obstáculos técnicos, en particular obstáculos relacionados con la computación.
Los transformadores no son especialmente eficientes a la hora de procesar y analizar grandes cantidades de datos, al menos ejecutándose en hardware disponible en el mercado. Y eso está provocando aumentos pronunciados y quizás insostenibles en la demanda de energía a medida que las empresas construyen y amplían la infraestructura para adaptarse a los requisitos de los transformadores.
Una arquitectura prometedora propuesta este mes es la capacitación en tiempo de prueba (TTT), que fue desarrollada a lo largo de un año y medio por investigadores de Stanford, UC San Diego, UC Berkeley y Meta. El equipo de investigación afirma que los modelos TTT no sólo pueden procesar muchos más datos que los transformadores, sino que también pueden hacerlo sin consumir tanta potencia informática.
El estado oculto en los transformadores.
Un componente fundamental de los transformadores es el "estado oculto", que es esencialmente una larga lista de datos. Cuando un transformador procesa algo, agrega entradas al estado oculto para "recordar" lo que acaba de procesar. Por ejemplo, si el modelo avanza a través de un libro, los valores del estado oculto serán cosas como representaciones de palabras (o partes de palabras).
"Si piensas en un transformador como una entidad inteligente, entonces la tabla de búsqueda, su estado oculto, es el cerebro del transformador", dijo a TechCrunch Yu Sun, postdoctorado en Stanford y coautor de la investigación TTT. "Este cerebro especializado permite las capacidades bien conocidas de los transformadores, como el aprendizaje en contexto".
El estado oculto es parte de lo que hace que los transformadores sean tan poderosos. Pero también los obstaculiza. Para "decir" incluso una sola palabra sobre un libro que acaba de leer un transformador, el modelo tendría que escanear toda su tabla de búsqueda, una tarea tan exigente desde el punto de vista computacional como releer el libro completo.
Entonces, Sun y su equipo tuvieron la idea de reemplazar el estado oculto con un modelo de aprendizaje automático, como muñecos anidados de IA, por así decirlo, un modelo dentro de otro modelo.
Es un poco técnico, pero lo esencial es que el modelo interno de aprendizaje automático del modelo TTT, a diferencia de la tabla de búsqueda de un transformador, no crece ni crece a medida que procesa datos adicionales. En cambio, codifica los datos que procesa en variables representativas llamadas ponderaciones, que es lo que hace que los modelos TTT tengan un alto rendimiento. No importa cuántos datos procese un modelo TTT, el tamaño de su modelo interno no cambiará.
Sun cree que los futuros modelos TTT podrían procesar de manera eficiente miles de millones de datos, desde palabras hasta imágenes, grabaciones de audio y videos. Esto va mucho más allá de las capacidades de los modelos actuales.
"Nuestro sistema puede decir X palabras sobre un libro sin la complejidad computacional de releer el libro X veces", dijo Sun. “Los grandes modelos de vídeo basados en transformadores, como Sora, sólo pueden procesar 10 segundos de vídeo, porque sólo tienen un 'cerebro' de tabla de búsqueda. Nuestro objetivo final es desarrollar un sistema que pueda procesar un vídeo largo que se asemeje a la experiencia visual de una vida humana”.
Entonces, ¿los modelos TTT eventualmente reemplazarán a los transformadores? Ellos podrían. Pero es demasiado pronto para decirlo con certeza.
Los modelos TTT no son un reemplazo directo para los transformadores. Y los investigadores solo desarrollaron dos pequeños modelos para estudio, lo que hace que el TTT como método sea difícil de comparar en este momento con algunas de las implementaciones de transformadores más grandes que existen.
"Creo que es una innovación perfectamente interesante, y si los datos respaldan las afirmaciones de que proporciona ganancias de eficiencia, entonces es una gran noticia, pero no podría decir si es mejor que las arquitecturas existentes o no", dijo Mike Cook, un senior profesor del departamento de informática del King's College de Londres que no participó en la investigación del TTT. “Un antiguo profesor mío solía contar un chiste cuando yo era estudiante: ¿Cómo se resuelve cualquier problema en informática? Agrega otra capa de abstracción. Agregar una red neuronal dentro de una red neuronal definitivamente me recuerda eso”.
En cualquier caso, el ritmo acelerado de la investigación sobre alternativas a los transformadores apunta a un reconocimiento cada vez mayor de la necesidad de un gran avance.
Esta semana, la startup de inteligencia artificial Mistral lanzó un modelo, Codestral Mamba, que se basa en otra alternativa al transformador llamada modelos de espacio de estados (SSM). Los SSM, al igual que los modelos TTT, parecen ser más eficientes computacionalmente que los transformadores y pueden ampliarse a mayores cantidades de datos.
AI21 Labs también está explorando los SSM. También lo es Cartesia, que fue pionera en algunos de los primeros SSM y los homónimos de Codestral Mamba, Mamba y Mamba-2.
Si estos esfuerzos tienen éxito, la IA generativa podría ser aún más accesible y extendida de lo que es ahora, para bien o para mal.