Los avatares como humanos digitales

La historia de Rhiannon Williams en el resumen semanal del MIT.

4 09 2025

A principios de este verano, atravesé el vestíbulo acristalado de una elegante oficina en Londres, entré en un ascensor y luego, por un pasillo, llegué a una habitación limpia y alfombrada. La luz natural entraba a raudales por las ventanas, y un par de grandes luces tipo paraguas iluminaban aún más la habitación. Intenté no entrecerrar los ojos mientras me colocaba frente a un trípode equipado con una cámara grande y un portátil con un autocue. Respiré hondo y comencé a leer el guion.

No soy presentador de noticias ni actor audicionando para una película; estaba visitando la empresa de inteligencia artificial Synthesia para darles lo necesario para crear un avatar hiperrealista de mí, generado por IA. Los avatares de la empresa son un buen indicador del vertiginoso progreso de la IA en los últimos años, así que tenía curiosidad por saber con qué precisión su último modelo de IA, presentado el mes pasado, podría replicarme.

Cuando Synthesia se lanzó en 2017, su objetivo principal era combinar versiones de IA de rostros humanos reales —por ejemplo, el exfutbolista David Beckham— con voces dobladas que hablaban en diferentes idiomas. Unos años más tarde, en 2020, empezó a ofrecer a las empresas que contrataron sus servicios la oportunidad de crear vídeos de presentación de nivel profesional protagonizados por versiones de IA de miembros del personal o actores que consintieran en hacerlo.

Pero la tecnología no era perfecta.

Los movimientos corporales de los avatares podían ser bruscos y poco naturales, a veces sus acentos fallaban y las emociones que reflejaban sus voces no siempre coincidían con sus expresiones faciales.

Los avatares de Synthesia se han actualizado con gestos y movimientos más naturales, así como voces expresivas que conservan mejor el acento del hablante, dándoles una apariencia más humana que nunca. Para los clientes corporativos de Synthesia, estos avatares resultarán en presentaciones más elegantes de resultados financieros, comunicaciones internas o videos de capacitación del personal.

El video que muestra mi avatar me pareció tan desconcertante como técnicamente impresionante. Es tan elegante que parece una grabación en alta definición de un animado discurso corporativo, y si no me conocieras, probablemente pensarías que es exactamente eso. Esta demostración demuestra lo difícil que es distinguir lo artificial de lo real. Y dentro de poco, estos avatares incluso podrán respondernos. Pero ¿cuánto pueden mejorar? ¿Y qué efectos podría tener en nosotros interactuar con clones de IA?

El proceso de creación

Cuando mi ex colega Melissa visitó el estudio de Synthesia en Londres para crear un avatar de sí misma el año pasado , tuvo que pasar por un largo proceso de calibración del sistema, leyendo un guion en diferentes estados emocionales y articulando los sonidos necesarios para ayudar a su avatar a formar vocales y consonantes.

Mientras estoy en la habitación bien iluminada 15 meses después, me siento aliviada al saber que el proceso de creación se ha simplificado significativamente. Josh Baker-Mendoza, supervisor técnico de Synthesia, me anima a gesticular y mover las manos como lo haría durante una conversación natural, al mismo tiempo que me advierte que no me mueva demasiado. Repito debidamente un guion excesivamente brillante que está diseñado para animarme a hablar con emoción y entusiasmo. El resultado es un poco como si Steve Jobs hubiera resucitado como una mujer británica rubia con una voz baja y monótona.

También tiene el desafortunado efecto de hacerme parecer un empleado de Synthesia. "Estoy encantado de estar con ustedes hoy para mostrarles en qué hemos estado trabajando. Estamos a la vanguardia de la innovación y las posibilidades son infinitas", repito con entusiasmo, intentando sonar vivaz en lugar de frenético. "Así que prepárense para formar parte de algo que los dejará boquiabiertos". Esta oportunidad no solo es grande, sino monumental".

Tan solo una hora después, el equipo tiene todo el material necesario. Un par de semanas después, recibo dos avatares míos: uno con el modelo anterior de Express-1 y el otro con la última tecnología de Express-2. Este último, según Synthesia, hace que sus humanos sintéticos sean más realistas y fieles a las personas en las que se basan, con gestos, movimientos faciales y habla más expresivos.

El año pasado, Melissa descubrió que su avatar con Express-1 no se correspondía con su acento transatlántico. Su gama de emociones también era limitada: cuando le pidió a su avatar que leyera un guion con enojo, sonaba más quejoso que furioso. Desde entonces, Synthesia ha mejorado Express-1, pero la versión de mi avatar, creada con la misma tecnología, parpadea con furia y aún le cuesta sincronizar los movimientos corporales con el habla.

En contraste, me sorprende lo mucho que se parece mi nuevo avatar Express-2 a mí: sus rasgos faciales reflejan los míos a la perfección. Su voz también es inquietantemente precisa, y aunque gesticula más que yo, los movimientos de sus manos generalmente coinciden con lo que digo.

Pero las pequeñas señales reveladoras de la generación de IA siguen ahí si sabes dónde buscar. Las palmas de mis manos son de un rosa brillante y lisas como la masilla. Mechones de pelo cuelgan rígidos sobre mis hombros en lugar de moverse conmigo. Sus ojos miran vidriosos al frente, sin parpadear casi nunca. Y aunque la voz es inconfundiblemente mía, hay algo ligeramente extraño en la entonación y los patrones de habla de mi clon digital. "¡Esto es genial!", declara mi avatar al azar, antes de volver a un registro más sensato.

Anna Eiserbeck, investigadora postdoctoral en psicología de la Universidad Humboldt de Berlín que ha estudiado cómo reaccionan los humanos a las caras percibidas como deepfake, dice que no está segura de si hubiera podido identificar mi avatar como un deepfake a primera vista.

Pero con el tiempo se habría dado cuenta de que algo andaba mal. No son solo los pequeños detalles los que lo delatan: mi pendiente, extrañamente estático, la forma en que mi cuerpo a veces se mueve con pequeñas y bruscas sacudidas. Es algo mucho más profundo, explica.

“Algo parecía un poco vacío. Sé que no hay ninguna emoción real detrás de ello; no es un ser consciente. No siente nada”, dice. Ver el video le produjo una sensación extraña.

Mi clon digital y la reacción de Eiserbeck al respecto me hacen preguntarme qué tan realistas deben ser realmente estos avatares.

Me doy cuenta de que parte de la razón por la que me desconcierta mi avatar es que se comporta de una manera que yo rara vez necesito. Su registro extrañamente optimista contrasta completamente con mi forma de hablar habitual; soy un británico cínico empedernido al que le cuesta inyectar entusiasmo en mi voz incluso cuando estoy genuinamente emocionado o entusiasmado. Simplemente soy así. Además, ver los videos en bucle me hace cuestionar si realmente muevo las manos de esa manera o la boca de una manera tan extraña. Si pensabas que verte cara a cara en una llamada de Zoom era humillante, espera a ver un avatar completo de ti mismo.

Cuando Facebook empezó a despegar en el Reino Unido hace casi 20 años, mis amigos y yo pensábamos que iniciar sesión ilegalmente en las cuentas de los demás y publicar las actualizaciones de estado más escandalosas o indignantes imaginables era el colmo de la comedia. Me pregunto si pronto el equivalente será conseguir que el avatar de otra persona diga algo verdaderamente vergonzoso: expresar apoyo a un político caído en desgracia o (en mi caso) admitir que me gusta la música de Ed Sheeran.

Express-2 transforma a cada persona que se le presenta en un orador profesional refinado con el lenguaje corporal de un animador hiperactivo. Y aunque esto tiene todo el sentido para una empresa dedicada a hacer videos empresariales brillantes, ver mi avatar no me hace sentir como si me estuviera viendo a mí en absoluto. Es algo completamente distinto.

Cómo funciona

El verdadero desafío técnico hoy en día tiene menos que ver con crear avatares que se ajusten a nuestra apariencia que con lograr que repliquen nuestro comportamiento, afirma Björn Schuller, profesor de inteligencia artificial en el Imperial College de Londres. "Hay muchos aspectos a considerar para lograrlo; hay que tener el microgesto, la entonación, el sonido de voz y la palabra adecuados", explica. "No quiero que un avatar de IA frunza el ceño en el momento menos indicado; eso podría transmitir un mensaje completamente diferente".

Para lograr un mayor nivel de realismo, Synthesia desarrolló varios modelos nuevos de IA de audio y video. El equipo creó un modelo de clonación de voz para preservar el acento, la entonación y la expresividad del hablante humano, a diferencia de otros modelos de voz, que pueden aplanar los acentos distintivos de los hablantes y convertirlos en voces genéricas con un sonido estadounidense.
Cuando un usuario sube un guion a Express-1, su sistema analiza las palabras para inferir el tono correcto. Esta información se incorpora a un modelo de difusión, que reproduce las expresiones faciales y los movimientos del avatar para que coincidan con el habla.

Además del modelo de voz, Express-2 utiliza otros tres modelos para crear y animar los avatares. El primero genera los gestos del avatar para acompañar el habla que le proporciona el modelo Express-Voice. El segundo evalúa la precisión con la que el audio de entrada se alinea con las diferentes versiones del movimiento generado antes de seleccionar la mejor. Finalmente, un modelo final renderiza el avatar con el movimiento seleccionado.

Este tercer modelo de renderizado es significativamente más potente que su predecesor, Express-1. Mientras que el modelo anterior tenía unos pocos cientos de millones de parámetros, los del modelo de renderizado Express-2 se cuentan por miles de millones. Esto significa que se tarda menos en crear el avatar, afirma Youssef Alami Mejjati, director de investigación y desarrollo de Synthesia:

Con Express-1, primero necesitaba ver a alguien expresando emociones para poder representarlas. Ahora, como lo hemos entrenado con datos mucho más diversos y conjuntos de datos mucho más grandes, con mucha más capacidad de procesamiento, aprende estas asociaciones automáticamente sin necesidad de verlas.

Estrechando el valle inquietante
Aunque los avatares generados por IA con apariencia humana han existido durante años, el reciente auge de la IA generativa está haciendo que sea cada vez más fácil y asequible crear humanos sintéticos realistas, y ya se están poniendo en práctica.

Synthesia no está sola: las empresas de avatares de IA como Yuzu Labs , Creatify, Arcdads y Vidyard brindan a las empresas las herramientas para generar y editar rápidamente videos protagonizados por actores de IA o versiones artificiales de miembros del personal, prometiendo formas rentables de hacer anuncios atractivos con los que las audiencias se conecten.

Del mismo modo, los clones de transmisores en vivo generados por IA han explotado en popularidad en China en los últimos años, en parte porque pueden vender productos las 24 horas del día, los 7 días de la semana sin cansarse ni necesitar que se les pague.

Al menos por ahora, Synthesia está totalmente enfocada en el ámbito corporativo. Sin embargo, no descarta expandirse a nuevos sectores como el entretenimiento o la educación, según Peter Hill, director técnico de la compañía.

En un aparente paso hacia este objetivo, Synthesia se asoció recientemente con Google para integrar Veo 3, el nuevo y potente modelo de video generativo de Google , en su plataforma, lo que permite a los usuarios generar e incrustar clips directamente en los videos de Synthesia. Esto sugiere que, en el futuro, estos humanos artificiales hiperrealistas podrían asumir roles protagónicos en universos detallados con fondos en constante evolución.

Actualmente, esto podría implicar, por ejemplo, usar Veo 3 para generar un video de maquinaria de procesamiento de carne, con un avatar de Synthesia junto a las máquinas explicando cómo usarlas de forma segura. Pero futuras versiones de la tecnología de Synthesia podrían resultar en videos educativos personalizables según el nivel de conocimiento de cada persona, afirma Alex Voica, director de asuntos corporativos y políticas de Synthesia.

Por ejemplo, un video sobre la evolución de la vida en la Tierra podría ajustarse para alguien con un título en biología o con conocimientos de secundaria. "Va a ser una forma mucho más atractiva y personalizada de presentar contenido, lo cual me entusiasma mucho", afirma.

La próxima frontera, según Synthesia, serán avatares que puedan hablar, “entender” las conversaciones con los usuarios y responder en tiempo real (piense en ChatGPT, pero con un humano digital realista adjunto).

Synthesia ya ha añadido un elemento interactivo que permite a los usuarios hacer clic en las preguntas en pantalla durante los cuestionarios presentados por sus avatares. Pero también está explorando la posibilidad de hacerlos verdaderamente interactivos: los futuros usuarios podrían pedirle a su avatar que haga una pausa y amplíe un punto, o que le haga una pregunta. "Queremos crear la mejor experiencia de aprendizaje, y eso significa a través de videos entretenidos, pero también personalizados e interactivos", dice Alami Mejjati. "Para mí, esto es lo que falta en las experiencias de aprendizaje en línea actuales. Y sé que estamos muy cerca de resolverlo".

Ya sabemos que los humanos pueden, y de hecho lo hacen , establecer vínculos emocionales profundos con los sistemas de IA, incluso con chatbots básicos basados en texto. Combinar la tecnología agéntica —que ya es capaz de navegar por internet, programar y jugar videojuegos sin supervisión— con un rostro humano realista podría dar paso a un nuevo tipo de adicción a la IA, afirma Pat Pataranutaporn, profesor adjunto del Media Lab del MIT.

“Si el sistema se vuelve demasiado realista, la gente podría empezar a forjar ciertos tipos de relaciones con estos personajes”, afirma. “Hemos visto muchos casos en los que compañeros de IA han influido en comportamientos peligrosos incluso cuando simplemente están enviando mensajes de texto. Si un avatar tuviera una cabeza parlante, sería aún más adictivo”.

Schuller coincide en que los avatares del futuro cercano estarán perfectamente optimizados para ajustar sus niveles proyectados de emoción y carisma, de modo que su público humano se mantenga enganchado el mayor tiempo posible. «Será muy difícil [para los humanos] competir con la carismática IA del futuro; siempre está presente, siempre te escucha y siempre es comprensiva», afirma. «La IA transformará esa conexión entre humanos».

Mientras hago una pausa y vuelvo a ver mi avatar de Express-2, me imagino conversando con él: este producto misterioso, siempre optimista y siempre disponible de píxeles y algoritmos que se parece a mí y suena como yo, pero que, en el fondo, no es yo. La Rhiannon virtual nunca ha reído hasta que ha llorado, ni se ha enamorado, ni ha corrido una maratón, ni ha visto la puesta de sol en otro país.

Pero, admito, podría hacer una presentación excelente sobre por qué Ed Sheeran es el mejor músico del Reino Unido. Y solo mis amigos y familiares más cercanos sabrían que no soy yo.