11/09/2024
MiniMax es el último generador de vídeo con inteligencia artificial lanzado en China. Ya está causando sensación por su capacidad de generar imágenes hiperrealistas de humanos, incluidos movimientos precisos de las manos. Esto es algo con lo que otras herramientas han tenido problemas.
Esta es solo la última incursión en la IA generativa para la startup unicornio respaldada por Alibaba y Tencent. Su aplicación complementaria de inteligencia artificial, Talkie, se ha descargado más de 15 millones de veces y, al igual que Character.ai, te permite conversar con una creación virtual.
La demostración oficial de la aplicación compartida en X parece mostrar el avance de una aventura mágica donde un niño toca una moneda y es transportado a través de la historia. Cuenta con efectos especiales, un personaje consistente y realismo, todo hecho con solo indicaciones de texto, inteligencia artificial y una edición inteligente.
Para saber si la herramienta real está a la altura de las expectativas, me registré para obtener una cuenta, se me ocurrieron algunas indicaciones y comencé a ponerla a prueba. Si bien es impresionante y está a la altura de Runway Gen-3, Dream Machine y Kling, no es un salto tan grande como sugiere el video.
MiniMax video-01 es el último de una línea de modelos de la startup que incluye generación de habla, lenguaje y música generativos. Lanzó el nuevo modelo de vídeo sin fanfarrias a principios de septiembre y rápidamente explotó en las redes sociales en China y Occidente.
El fundador Yan Junjie dijo a los periodistas: "De hecho, hemos logrado avances significativos en la generación de modelos de video y, según las evaluaciones y puntajes internos, nuestro desempeño es mejor que el de Runway en la generación de videos".
La compañía ya está trabajando en la versión 02 de su modelo de video y planea continuar actualizándolo para incluir imagen a video, texto e imagen a video y una generación de clips inicial más larga.
El modelo admite vídeos con resolución de 1280x720 a 25 fotogramas por segundo. Al igual que Kling y Runway, puedes describir los movimientos de la cámara cinematográfica y, aunque por ahora solo son clips de seis segundos, el plan es igualar los 10 segundos de los líderes actuales de la industria con la próxima actualización.
¿Poner MiniMax video-01 al texto?
Reuní una variedad de indicaciones que cubrían diferentes tipos de movimiento, representación de texto y una combinación de escenas, primeros planos y tipos de movimiento de la cámara. He incluido todas las indicaciones a continuación si quieres probarlo tú mismo en la página del video-01.
El mensaje: "Una escena nocturna de un horizonte urbano imponente y futurista con edificios elegantes y brillantes. Repentinos y brillantes destellos de relámpagos atraviesan el cielo, iluminando los edificios y proyectando sombras dramáticas. La lluvia comienza a llover a cántaros y la escena termina con un primer plano de las gotas de lluvia cayendo sobre una calle iluminada con luces de neón."
Resultado https://substack.com/@estebanconcia/note/c-68631170
Pensamientos finales
MiniMax video-01 es un buen modelo, aproximadamente equivalente a Luma Labs Dream Machine pero no tan bueno como Runway Gen-3, a pesar de lo que afirma el CEO.
El otro gran modelo de video chino, también disponible en Occidente es Kling y está a pasos agigantados por delante de los clips que generé con MiniMax. También tiene un conjunto de funciones más amplio que incluye clips de 10 segundos, modo profesional de generación más larga y conversión de imagen a video.
Sin embargo, MiniMax parece haber capturado bien la generación de movimiento humano y promete que esta es solo la primera versión, con un seguimiento en semanas, no meses, por lo que definitivamente es un generador de video de IA a tener en cuenta.