26 04 2024
Cada nueva generación de modelos de lenguaje grandes consume una cantidad asombrosa de recursos.
Meta, por ejemplo, entrenó sus nuevos modelos Llama 3 con aproximadamente 10 veces más datos y 100 veces más computación que Llama 2. En medio de una escasez de chips, utilizó dos grupos de 24.000 GPU , y cada chip rondaba el precio de un automóvil de lujo. Empleó tantos datos en su trabajo de IA que consideró comprar la editorial Simon & Schuster para encontrar más.
Después, incluso sus ejecutivos se preguntaron en voz alta si el ritmo era sostenible.
"No está claro si necesitamos seguir escalando o si necesitamos más innovación en la post-formación", me dijo Ahmad Al-Dahle, vicepresidente de GenAI de Meta, en una entrevista la semana pasada . “¿Es la inversión en infraestructura insostenible a largo plazo? No creo que lo sepamos”.
Actualizar a pago
Para Meta, y sus contrapartes que ejecutan grandes modelos de lenguaje, la cuestión de si arrojar más datos, computación y energía al problema conducirá a una mayor escala es muy importante. Desde que los LLM entraron en la imaginación popular, el mejor camino hacia una mejora exponencial parecía ser combinar estos ingredientes y permitir que sucediera la magia. Pero con el límite superior de los tres potencialmente a la vista, la industria necesitará técnicas más nuevas, capacitación más eficiente y hardware personalizado para progresar. Sin avances en estas áreas, los LLM pueden chocar contra un muro.
El camino hacia una escala continua probablemente comience con mejores métodos para capacitar y ejecutar LLM, algunos de los cuales ya están en marcha. "Estamos empezando a ver nuevos tipos de arquitecturas que van a cambiar la forma en que estos modelos escalan en el futuro", me dijo Swami Sivasubramanian , vicepresidente de IA y datos de Amazon Web Services, en una entrevista el jueves por la noche. Sivasubramanian dijo que los investigadores de Stanford y de otros lugares están obteniendo modelos para aprender más rápido, con la misma cantidad de datos y con inferencias diez veces más baratas. "De hecho, soy muy optimista sobre el futuro en lo que respecta a arquitecturas modelo novedosas, que tienen el potencial de alterar el espacio", dijo.
Los nuevos métodos de entrenamiento de estos modelos ya parecen estar dando frutos. "La Llama 3 más pequeña es básicamente tan poderosa como la Llama 2 más grande", dijo Mark Zuckerberg en el podcast de Dwarkesh Patel la semana pasada.
Para impulsar estos modelos y sortear posibles obstáculos al agotar los datos del mundo real, los datos sintéticos creados por la IA están desempeñando un papel clave. Aunque aún no se han demostrado completamente, estos datos ya han llegado al entrenamiento de modelos. "Nuestras capacidades de codificación en Llama 3 son excepcionalmente altas", dijo Al-Dahle de Meta. "Parte de eso fue realmente ser innovadores e impulsar nuestra capacidad de aprovechar modelos para generar datos sintéticos".
Además de encontrar mejores modelos, el progreso del LLM probablemente dependa de la construcción de mejores chips que puedan entrenar y ejecutar estos modelos de manera más rápida y eficiente que los chips tradicionales. Si bien las GPU NVIDIA son excepcionalmente útiles para modelos de lenguajes grandes, no están diseñadas específicamente para ellos. Ahora, algunos chips creados específicamente para la IA generativa se muestran prometedores. Investigadores como Andrew Ng han elogiado a Groq, un nombre de moda, como el tipo de chip que funciona lo suficientemente rápido como para llevar la IA generativa al siguiente nivel, especialmente a medida que el campo avanza hacia los agentes.
Mientras tanto, empresas como Amazon, Intel, Google y otras están construyendo “aceleradores” o chips personalizados que pueden ejecutar procesos de IA rápidamente. En Amazon, dijo Sivasubramanian, los chips Trainium especialmente diseñados por la compañía están "diseñados con el único propósito de poder entrenar estos grandes modelos de lenguaje" y ya son cuatro veces más rápidos que la primera generación.
Dada la necesidad y la oportunidad que se avecina, no es de extrañar que el CEO de OpenAI, Sam Altman, esté recaudando una gran cantidad de dinero para construir chips lo suficientemente potentes como para lograr sus objetivos.
La única limitación del LLM que se ha discutido poco es la energía, y puede que sea la más importante. “Hay una pregunta capital: ¿en qué momento deja de valer la pena invertir capital? "Pero en realidad creo que antes de llegar a eso, te encontrarás con limitaciones de energía", le dijo Zuckerberg a Patel. Planteó la idea de construir un centro de datos de 1 gigavatio para avanzar en la IA, o algo parecido a una planta de energía nuclear significativa. Pero dadas las aprobaciones regulatorias y la complejidad de la construcción, su producción podría llevar años. “Creo que sucederá”, dijo. "Esto es sólo cuestión de tiempo".
Hasta que lleguemos a una asignación de energía tan masiva, puede ser difícil decir cuánto espacio les queda a los LLM para mejorar. Pero parece que tarde o temprano lo descubriremos. "No estoy pensando en eso", dijo Sivasubramanian entre risas, sobre una planta de nivel nuclear para ejecutar modelos de IA, "pero no puedo hablar con mi equipo de infraestructura".