Las razones por las que DeepSeek cambia la IA
China lo hizo de nuevo: el nuevo modelo de IA mucho más barato y eficiente
En 2022, la creación de un modelo de lenguaje de gran tamaño ( LLM ) era una hazaña en la vanguardia de la ingeniería de inteligencia artificial ( IA ). Tres años después, es más difícil impresionar a los expertos. Para destacarse realmente en un mercado abarrotado, un laboratorio de IA no solo necesita crear un modelo de alta calidad, sino también hacerlo a bajo costo.
En diciembre, una empresa china, DeepSeek, se ganó los titulares por reducir el costo en dólares de entrenar un modelo de frontera de 61,6 millones de dólares (el costo de Llama 3.1, un LLM producido por Meta, una empresa de tecnología) a solo 6 millones de dólares. En una publicación preliminar publicada en línea en febrero, investigadores de la Universidad de Stanford y la Universidad de Washington afirman haber mejorado en varios órdenes de magnitud, entrenando su LLM s1 por solo 6 dólares. Dicho de otra manera, DeepSeek necesitó 2,7 millones de horas de tiempo de computadora para entrenarse; s1 tomó poco menos de siete horas.
Las cifras son asombrosas, pero la comparación no es exactamente igual a igual. Mientras que el chatbot v3 de DeepSeek fue entrenado desde cero (a pesar de las acusaciones de robo de datos de Open AI , un competidor estadounidense, y de sus pares), s1 está en cambio "afinado" sobre el LLM Qwen2.5 preexistente, producido por Alibaba, el otro laboratorio de inteligencia artificial de primer nivel de China . En otras palabras, antes de que comenzara el entrenamiento de s1, el modelo ya podía escribir, hacer preguntas y producir código.
Este tipo de combinación puede generar ahorros, pero no puede reducir los costos a un solo dígito por sí sola. Para lograrlo, el equipo estadounidense tuvo que romper con el paradigma dominante en la investigación de IA , según el cual se cree que la cantidad de datos y la potencia de procesamiento disponibles para entrenar un modelo de lenguaje mejoran su rendimiento.
En su lugar, plantearon la hipótesis de que una cantidad menor de datos, de suficiente calidad, podría hacer el trabajo igual de bien. Para probar esa propuesta, reunieron una selección de 59.000 preguntas que abarcaban desde pruebas de inglés estandarizadas hasta problemas de probabilidad de nivel universitario, con la intención de reducirlas al conjunto de entrenamiento más eficaz posible.
Para averiguar cómo hacerlo, las preguntas por sí solas no son suficientes. También se necesitan respuestas. Por eso, el equipo pidió a otro modelo de IA , Gemini de Google, que abordara las preguntas utilizando lo que se conoce como un enfoque de razonamiento, en el que el "proceso de pensamiento" del modelo se comparte junto con la respuesta. Eso les dio tres conjuntos de datos para usar para entrenar a s1: 59.000 preguntas; las respuestas que las acompañan; y las "cadenas de pensamiento" utilizadas para conectar las dos.
Luego, descartaron casi todo. Como s1 se basaba en Qwen AI de Alibaba , todo lo que ese modelo ya podía resolver era innecesario. Todo lo que estuviera mal formateado también se descartó, al igual que todo lo que el modelo de Google había resuelto sin necesidad de pensar demasiado. Si un problema determinado no contribuía a la diversidad general del conjunto de entrenamiento, también se descartaba. El resultado final fue un conjunto simplificado de 1000 preguntas que, según demostraron los investigadores, podía entrenar un modelo con el mismo rendimiento que uno entrenado con las 59 000 preguntas, y por una fracción del costo.
Este tipo de trucos abunda. Como todos los modelos de razonamiento, s1 “piensa” antes de responder, analiza el problema antes de anunciar que ha terminado y presenta una respuesta final. Pero muchos modelos de razonamiento dan mejores respuestas si se les permite pensar durante más tiempo, un enfoque llamado “computación en tiempo de prueba”. Y así, los investigadores dieron con el enfoque más simple posible para lograr que el modelo continúe razonando: cuando anuncie que ha terminado de pensar, simplemente elimine ese mensaje y agregue la palabra “Espere” en su lugar.
Los trucos también funcionan. Pensar cuatro veces más tiempo permite al modelo obtener una puntuación 20 puntos porcentuales más alta en las pruebas de matemáticas y en las científicas. Si se le obliga a pensar durante 16 veces más tiempo, el modelo pasa de no poder sacar ni una sola nota en un examen de matemáticas difícil a obtener una puntuación del 60%. Pensar más es más caro, por supuesto, y los costes de inferencia aumentan con cada “espera” adicional. Pero, como el entrenamiento está disponible a un precio tan bajo, el gasto adicional puede merecer la pena.
Los investigadores afirman que su nuevo modelo ya supera el primer esfuerzo de Open AI en este campo, el o1-preview de septiembre, en cuanto a las medidas de la capacidad matemática. La búsqueda de la eficiencia es la nueva frontera. ■