China gana un round de la pelea por la IA
¿Cómo logró DeepSeek construir su IA con menos dinero? La start-up china utilizó varios trucos tecnológicos, incluido un método llamado “mezcla de expertos”, para reducir significativamente el coste de construcción de la tecnología.
El mes pasado, los mercados financieros estadounidenses se desplomaron después de que una start-up china llamada DeepSeek dijera que había construido uno de los sistemas de inteligencia artificial más potentes del mundo utilizando muchos menos chips de computadora de lo que muchos expertos creían posible .
Las empresas de inteligencia artificial suelen entrenar a sus chatbots utilizando supercomputadoras con 16.000 chips especializados o más, pero DeepSeek afirmó que sólo necesitaba unos 2.000.
Como detallaron los ingenieros de DeepSeek en un artículo de investigación publicado justo después de Navidad, la start-up utilizó varios trucos tecnológicos para reducir significativamente el coste de construcción de su sistema. Sus ingenieros necesitaron solo unos 6 millones de dólares en potencia informática bruta, aproximadamente una décima parte de lo que Meta gastó en construir su última tecnología de inteligencia artificial.
¿Qué hizo exactamente DeepSeek? Aquí tienes una guía.
¿Cómo se construyen las tecnologías de IA?
Las principales tecnologías de IA se basan en lo que los científicos llaman redes neuronales , sistemas matemáticos que aprenden sus habilidades analizando enormes cantidades de datos.
Los sistemas más potentes pasan meses analizando prácticamente todo el texto en inglés que hay en Internet, así como muchas imágenes, sonidos y otros elementos multimedia, lo que requiere una enorme capacidad de procesamiento.
Hace unos 15 años, los investigadores de IA se dieron cuenta de que los chips informáticos especializados, llamados unidades de procesamiento gráfico o GPU, eran una forma eficaz de realizar este tipo de análisis de datos. Empresas como Nvidia, fabricante de chips de Silicon Valley, diseñaron originalmente estos chips para reproducir gráficos para videojuegos de ordenador, pero las GPU también tenían un don para ejecutar los cálculos matemáticos que alimentaban las redes neuronales.
A medida que las empresas incorporaron más GPU a sus centros de datos informáticos, sus sistemas de IA pudieron analizar más datos.
Pero las mejores GPU cuestan alrededor de 40.000 dólares y necesitan enormes cantidades de electricidad. Enviar datos entre chips puede consumir más energía eléctrica que hacer funcionar los propios chips.
¿Cómo logró DeepSeek reducir costos?
Hizo muchas cosas. La más notable fue que adoptó un método llamado “mezcla de expertos”.
Las empresas solían crear una única red neuronal que aprendía todos los patrones de todos los datos de Internet. Esto era costoso, porque requería que enormes cantidades de datos viajaran entre chips GPU.
Si un chip estaba aprendiendo a escribir un poema y otro estaba aprendiendo a escribir un programa de computadora, todavía necesitaban comunicarse entre sí, en caso de que hubiera alguna superposición entre la poesía y la programación.
Con el método de mezcla de expertos, los investigadores intentaron resolver este problema dividiendo el sistema en muchas redes neuronales: una para poesía, otra para programación informática, otra para biología, otra para física, etc. Podría haber 100 de estos sistemas “expertos” más pequeños. Cada experto podría concentrarse en su campo particular.
Muchas empresas han tenido dificultades con este método, pero DeepSeek lo logró. Su truco fue combinar esos sistemas “expertos” más pequeños con un sistema “generalista”.
Los expertos todavía necesitaban intercambiar cierta información entre ellos, y el generalista —que tenía un conocimiento decente pero no detallado de cada tema— podía ayudar a coordinar las interacciones entre los expertos.
Es un poco como si un editor supervisara una sala de redacción llena de periodistas especializados.
¿Y eso es más eficiente?
Mucho más. Pero eso no es lo único que hizo DeepSeek. También dominó un truco simple con decimales que cualquiera que recuerde su clase de matemáticas de la escuela primaria puede entender.
¿Hay matemáticas involucradas en esto?
Recuerda cuando tu profesor de matemáticas te explicaba el concepto de pi. Pi, también denotado como π, es un número que nunca termina: 3,14159265358979…
Puedes usar π para hacer cálculos útiles, como determinar la circunferencia de un círculo. Al hacer esos cálculos, acortas π a solo unos pocos decimales: 3,14. Si usas este número más simple, obtienes una estimación bastante buena de la circunferencia de un círculo.
DeepSeek hizo algo similar, pero a una escala mucho mayor, al entrenar su tecnología de IA.
Las matemáticas que permiten que una red neuronal identifique patrones en un texto son, en realidad, simplemente multiplicación: mucha, mucha, mucha multiplicación. Estamos hablando de meses de multiplicación en miles de chips de computadora.
Normalmente, los chips multiplican números que caben en 16 bits de memoria, pero DeepSeek metió cada número en solo 8 bits de memoria, la mitad del espacio. En esencia, eliminó varios decimales de cada número.
Esto significaba que cada cálculo era menos preciso, pero eso no importaba. Los cálculos eran lo suficientemente precisos como para producir una red neuronal realmente potente.
¿Eso es todo?
Bueno, agregaron otro truco.
Después de comprimir cada número en 8 bits de memoria, DeepSeek tomó una ruta diferente al multiplicar esos números. Al determinar la respuesta a cada problema de multiplicación (realizando un cálculo clave que ayudaría a decidir cómo funcionaría la red neuronal), extendió la respuesta a lo largo de 32 bits de memoria. En otras palabras, mantuvo muchos más decimales. Hizo que la respuesta fuera más precisa.
¿Entonces cualquier estudiante de secundaria podría haber hecho esto?
Bueno, no. Los ingenieros de DeepSeek demostraron en su artículo que también eran muy buenos escribiendo el complicado código informático que le dice a las GPU qué hacer. Sabían cómo exprimir aún más la eficiencia de estos chips.
Pocas personas tienen ese tipo de habilidad, pero los laboratorios de inteligencia artificial serios cuentan con los ingenieros talentosos necesarios para igualar lo que ha hecho DeepSeek.
Entonces ¿por qué no lo hicieron ya?
Es posible que algunos laboratorios de inteligencia artificial ya estén utilizando al menos algunos de los mismos trucos. Empresas como OpenAI no siempre revelan lo que están haciendo a puertas cerradas.
Pero otros se sorprendieron claramente con el trabajo de DeepSeek. Hacer lo que hizo la start-up no es fácil. La experimentación necesaria para lograr un avance como este implica millones de dólares, si no miles de millones, en energía eléctrica.
En otras palabras, requiere enormes cantidades de riesgo.
“Hay que arriesgar mucho dinero para probar cosas nuevas, y a menudo fracasan”, dijo Tim Dettmers, investigador del Instituto Allen de Inteligencia Artificial en Seattle, que se especializa en construir sistemas de IA eficientes y que anteriormente trabajó como investigador de IA en Meta.
“Por eso no vemos mucha innovación: la gente tiene miedo de perder muchos millones sólo por probar algo que no funciona”, añadió.
Muchos expertos señalaron que los 6 millones de dólares de DeepSeek solo cubrían lo que la empresa emergente gastó en entrenar la versión final del sistema. En su artículo, los ingenieros de DeepSeek dijeron que habían gastado fondos adicionales en investigación y experimentación antes de la prueba de entrenamiento final. Pero lo mismo sucede con cualquier proyecto de inteligencia artificial de vanguardia.
DeepSeek experimentó y dio resultado. Ahora, debido a que la start-up china ha compartido sus métodos con otros investigadores de IA, sus trucos tecnológicos están a punto de reducir significativamente el costo de desarrollar IA.