La IA está usando demasiado ciertos términos: más fácil de detectar lo artificial en un texto.

Las últimas investigaciones muestran que muestran que al menos en textos periodísticos y académicos ciertos términos vienen creciendo. Lo llamativo, esas palabras comenzaron a aparecer de manera más frecuente en Podcast y episodios de YouTube, lo que sugiere un escenario en el que las máquinas, originalmente entrenadas con datos humanos y que posteriormente exhibieron sus propios rasgos culturales, pueden, a su vez, remodelar de manera medible la cultura humana.

13/12/2025

Profundizar, intrincar, subrayar, loable. Estas palabras en inglés están experimentando un aumento en su uso. Quizás también las reconozcas como características distintivas de la prosa de ChatGPT.

En los últimos dos años, numerosos observadores han señalado lo que consideran indicios de escritura generada por IA. Podría tratarse de palabras que antes eran poco comunes y que rápidamente se han convertido en clichés, o  de una estructura oracional repetida en el mismo texto. 

En redes sociales, algunos usuarios consideran que detectar la escritura con IA es un juego.

En el Reino Unido, parlamentarios y periodistas políticos observaron un aumento reciente en los discursos parlamentarios que comienzan con la frase "Me levanto para hablar", lo cual  algunos atribuyen al uso de ChatGPT en la redacción de discursos. Los usuarios de citas en línea se  preguntan sobre la escritura con IA en los perfiles de aplicaciones de citas . Los comentaristas señalan sutiles diferencias en la puntuación como indicios de IA, lo que enfurece a los defensores del guión largo (—) y a los fans de la poeta del siglo XIX y prolífica usuaria del guión largo, Emily Dickinson. 

Gran parte del texto en línea que cuestionamos podría estar generado por IA. ChatGPT ha  alcanzado recientemente los 800 millones de usuarios semanales, y el 22 % de los encuestados en  nuestra reciente encuesta sobre IA generativa y noticias en seis países afirman usarlo semanalmente.  Según datos de Common Crawl , una estrecha mayoría de los artículos nuevos en la web son creados por IA generativa. 

Pero más allá de consejos, trucos e intuición, ¿hay alguna manera de saber si lo que lees ha sido generado por IA? ¿Y cómo afecta la IA al uso del lenguaje humano? Hablé con dos lingüistas y un periodista especializados en IA y alfabetización mediática para descubrir qué dicen las investigaciones, cómo la IA podría estar influyendo en el desarrollo del inglés y cómo esto podría impactar al periodismo.

Este debate se centra en el inglés como lengua pionera en el desarrollo de los programas de maestría en lenguas (LLM) y principal objeto de investigación lingüística sobre su impacto hasta la fecha. En el caso de otros idiomas, los LLM suelen ser más eficaces cuando se dispone de grandes bases de datos textuales de las que aprender,  lo que perjudica a algunos idiomas más pequeños , aquellos que suelen hablarse con mayor frecuencia que escribirse, y aquellos cuya forma escrita difiere significativamente de la oral. 

1. ¿GenAI está cambiando el lenguaje?


“Especialmente en el discurso popular, hay muchas conclusiones apresuradas, pero la causalidad es realmente difícil de demostrar”, dijo  el Dr. Tom S. Juzek , profesor adjunto de lingüística computacional en la Universidad Estatal de Florida.

Lingüistas como Juzek trabajan para encontrar evidencia del impacto de los LLM en el lenguaje.  Su trabajo hasta la fecha sugiere que ChatGPT abusa de ciertas palabras en inglés. Estas suelen ser semiformales y con un tono corporativo o académico, como "delve", "resonate", "navigate" y "commendable". Estas palabras aparecen cada vez más en textos, desde artículos científicos hasta reportajes periodísticos.

En un artículo de enero, Juzek y  la Dra. Zina B. Ward , también de la Universidad Estatal de Florida, compararon palabras cuyo uso se disparó recientemente (sin motivo aparente) en la escritura científica con palabras más utilizadas en resúmenes científicos generados por ChatGPT que en resúmenes de autores humanos. Esto identificó un conjunto de "palabras clave", cuya creciente prevalencia en el inglés científico probablemente se deba al uso de ChatGPT. 

Es importante destacar que esto no significa necesariamente que los autores de resúmenes que incluyen "delve" hayan utilizado ChatGPT para redactarlos. Investigaciones independientes muestran que estas mismas palabras han aumentado en contextos donde podemos estar relativamente seguros de que no ha habido lenguaje generado por LLM, como los podcasts conversacionales.

Una investigación dirigida por  el Dr. Hiromu Yakura en el Instituto Max-Planck para el Desarrollo Humano en Berlín descubrió que las palabras sobreutilizadas por ChatGPT (el famoso "delve", así como "comprehend", "boast", "swift" y "meticulous") experimentaron un aumento en su uso en podcasts conversacionales y charlas académicas en YouTube después del lanzamiento de ChatGPT, lo que sugiere que estas palabras ahora son utilizadas con más frecuencia por los humanos como resultado de estar expuestos a contenido generado por IA en el que están sobrerrepresentadas. 

“Estos hallazgos sugieren un escenario en el que las máquinas, originalmente entrenadas con datos humanos y que posteriormente exhibieron sus propios rasgos culturales, pueden, a su vez, remodelar de manera medible la cultura humana”, escriben los autores.

Un  proyecto estudiantil en la FSU, supervisado por Juzek, también examinó la prevalencia de palabras de moda en IA en podcasts conversacionales y llegó a conclusiones similares. Sin embargo, Juzek enfatizó que es muy difícil demostrar que las palabras de moda similares a las de un LLM estén ganando popularidad debido a la IA generativa. Esta es una explicación plausible, afirmó, pero también existen otras posibilidades, como el cambio en el lenguaje natural. 

En un  artículo reciente , también en coautoría con Ward, Juzek emplea un método diferente para acercarse al vínculo causal faltante. Tomaron una muestra de resúmenes científicos, los dividieron por la mitad y encargaron a los LLM Llama 3.2-3B Base y Llama 3.2-3B Instruct que generaran la segunda mitad. Al comparar esto con las segundas mitades originales de los resúmenes, identificaron un conjunto de palabras que probablemente eran las preferidas por los LLM y cuyo uso también ha aumentado recientemente. 

Sin embargo, para demostrar la causalidad se requeriría un detector de IA eficaz o preguntar a los autores si usaron IA, afirmó Juzek. Ambos métodos también presentan problemas: los detectores de IA son  notoriamente infalibles , y no hay garantía de que las personas respondan con sinceridad al preguntarles si han usado maestrías en derecho para escribir, sobre todo si trabajan en campos donde esto está mal visto.

Los LLM no solo están aumentando la popularidad de algunas palabras, sino que también evitan o corrigen otras palabras o construcciones, según  la Dra. Karolina Rudnicka , profesora adjunta de la facultad de idiomas de la Universidad de Gdansk (Polonia). Al solicitar la revisión de borradores, ChatGPT y la herramienta de escritura con inteligencia artificial Grammarly eliminan la frase «in order to» , que es correcta, pero se puede reformular con menos palabras, explicó, lo que favorece la concisión. También evitan la jerga, las contracciones (como «gonna» y «wanna»), el lenguaje coloquial y la voz pasiva. 

El trabajo de Rudnicka también muestra que los diferentes LLM tienen  diferentes estilos de escritura . Comparó textos sobre el mismo tema (diabetes) escritos por ChatGPT y Gemini, y descubrió que ambos conjuntos de textos mostraban una autoría distintiva similar a la de diferentes autores humanos. ChatGPT tendía a ser más formal, mientras que Gemini prefería un lenguaje más accesible. Por ejemplo, en el contexto de la diabetes, ChatGPT utilizó el término más académico «glucosa», mientras que Gemini prefirió «azúcar en sangre». 

2. ¿Por qué la IA utiliza en exceso ciertas palabras?
Esta línea de investigación plantea una pregunta importante: si los LLM se entrenan con textos escritos por humanos y están destinados a imitar el comportamiento humano, ¿por qué sus resultados utilizan desproporcionadamente algunas palabras?

En su último artículo , Juzek y Ward sugieren que esta discrepancia podría tener su origen en una de las etapas del desarrollo de LLM: el aprendizaje por refuerzo a partir de la retroalimentación humana. En esta etapa, un modelo base, ya entrenado con una gran cantidad de datos, es refinado por anotadores humanos que clasifican sus resultados para predecir la calidad de una respuesta dada.

El clasificador humano recibe dos resultados potenciales y debe elegir el mejor una y otra vez. Este trabajo repetitivo y mal pagado, como la moderación de contenido para empresas de redes sociales, suele subcontratarse en países del Sur Global y,  a veces, se conoce  como «datos de explotación laboral».

Esta capa del entrenamiento de IA ha sido responsable de que LLM como ChatGPT sean seguros de usar, libres de malas palabras y material ofensivo. Sin embargo,  los informes han demostrado que los responsables de este trabajo recibían salarios muy bajos y estaban expuestos a material violento y sexualmente explícito, lo que los exponía a sufrir daños morales y traumas secundarios. 

Con respecto a la elección del idioma, Juzek y Ward plantearon la hipótesis de que los propios evaluadores tienen preferencias sutiles por lo que se han convertido en palabras de moda en IA, preferencias que luego se amplifican durante el proceso de entrenamiento y terminan convirtiéndose en sesgos reconocibles.

Los investigadores intentaron replicar el aprendizaje por refuerzo a partir de la retroalimentación humana para crear un modelo base. Para ello, reclutaron a evaluadores angloparlantes del Sur Global para intentar imitar fielmente lo que hacen las grandes tecnológicas, pero pagándoles 15 dólares por hora en lugar de  menos de 2. Su investigación reveló que sus evaluadores preferían resultados que contenían palabras clave de IA.

3. ¿Importa si GenAI cambia de idioma?
El hecho de que la IA generativa tenga un estilo de escritura distintivo preocupa a algunos observadores. Una de las preocupaciones es  el ciclo de retroalimentación : la idea de que cantidades crecientes de texto generado por IA, reintroducido en nuevos sistemas, reforzarán los sesgos existentes y provocarán una erosión de la calidad. 

Incluso sin tener en cuenta los nuevos sistemas de IA, algunos temen que el crecimiento del contenido generado por IA en Internet, que repite las mismas peculiaridades lingüísticas, conducirá a una homogeneización del lenguaje. 

Hasta el momento no hay mucha evidencia de que se esté produciendo una homogeneización, pero Juzek está entre los preocupados. 

Comparto la preocupación, y debemos estar muy atentos a si esto sucede o no. En cuanto a la evidencia de si el lenguaje se volverá más homogéneo, aún tenemos que esperar, dijo.

Sin embargo, es probable que la IA no esté cambiando por sí sola el inglés. Según Rudnicka y Juzek, es mucho más probable que los LLM estén acelerando los cambios lingüísticos que ya están en marcha. En opinión de Rudnicka, estos cambios pueden compararse con transformaciones trascendentales en el lenguaje, como la llegada de la alfabetización masiva en el siglo XIX.

Mientras tanto, la IA generativa ya ha cuestionado las suposiciones subyacentes a muchos análisis lingüísticos. Si bien antes los lingüistas podían asumir con seguridad que el texto escrito reflejaba las elecciones lingüísticas humanas, esto ya no es así. Por eso, los investigadores que estudian los impactos en el lenguaje humano utilizan podcasts conversacionales, que pueden asumir con mayor seguridad que no tienen guion. Ya no podemos dar por sentado que ningún texto escrito haya sido escrito, ni siquiera parcialmente, por un LLM. 

Alex Mahadevan es periodista y director de  MediaWise , el  programa de alfabetización mediática digital del Instituto Poynter . También dirige el nuevo  Laboratorio de Innovación en IA de Poynter . Le pregunté, como educador con experiencia en alfabetización mediática, qué opinaba sobre las supuestas señales reveladoras de la IA.

Mahadevan se identifica como un defensor del guión largo y siempre ha usado el signo de puntuación que muchos asocian ahora con el uso de ChatGPT: "En realidad, ha sido muy frustrante para mí, porque ahora tengo que pensar cada vez que uso uno de ellos, especialmente como el chico de IA en Poynter, si alguien va a pensar que estoy usando IA para escribir esto".

Esto refleja una preocupación más amplia que afecta a muchos periodistas, especialmente a aquellos cuyas salas de redacción son más estrictas sobre el uso de IA generativa: ¿su uso de una palabra específica, un signo de puntuación o una estructura de oración generará preocupaciones de que no están escribiendo ellos mismos?

Nuestro reciente informe basado en una encuesta sobre las actitudes de la audiencia hacia la IA generativa y las noticias encontró que solo un tercio de los encuestados dijo que se sentiría cómodo con el uso de IA para escribir el texto de un artículo, una proporción mucho menor que aquellos que se sienten cómodos con que la IA ayude con la ortografía (55%) o escribir titulares (41%). 

Tanto los hallazgos de la investigación lingüística como las mejores prácticas existentes para la verificación de datos sugerirían que puede ser contraproducente centrarse excesivamente en características específicas de un texto como evidencia definitiva de que fue generado por IA. 

Cuando se sospecha que un fragmento de texto o una imagen ha sido generado por IA, "hay que recurrir a los principios básicos de la alfabetización mediática digital", dijo Mahadevan, como verificar la fuente y ver si se hace referencia al mismo material en otro lugar. 

"Me preocupa que nos obsesionemos con estas heurísticas rápidas para identificar la IA", dijo, ya que la mayoría de ellas, al igual que las palabras específicas, no constituyen una prueba definitiva. La rápida evolución de la tecnología también significa que muchos de los pequeños defectos que distinguían a las imágenes de IA en el pasado, por ejemplo, ya no son relevantes. 

4. ¿Por qué deberían preocuparse estos cambios los periodistas? 
Es posible que algunas de las palabras de moda más identificables en IA ya estén en vías de declive. En los experimentos de Juzek y Ward, en los que reclutaron humanos para imitar el aprendizaje por refuerzo a partir de la retroalimentación humana, observaron que sus participantes, si bien en general preferían las palabras de moda en IA, tendían a no preferir textos que contuvieran "profundizar" y "matizado", posiblemente porque se mencionan con frecuencia como características distintivas de ChatGPT. 

En lo que respecta al periodismo, una de las características de la escritura con IA que Mahadevan encuentra más chocante no es la puntuación ni el vocabulario, sino especialmente la tendencia de ChatGPT a "hacer declaraciones amplias, radicales y emotivas. Por ejemplo, 'La IA en el periodismo no es solo una herramienta, es una revolución'".

Si les presentas texto generado por IA a la mayoría de los editores, negarán con la cabeza, porque está vacío. Para mí, la clave está en que son muchas palabras que no dicen nada. En periodismo, siempre decimos: "Muestra, no cuentes". 

A Mahadevan le preocupa que una dependencia excesiva de la escritura con inteligencia artificial conduzca a "publicaciones de LinkedIn en todas partes, todo el tiempo". 

Si los periodistas se apoyan en eso, las noticias sobre crímenes locales empiezan a parecer comunicados de prensa policiales, la cobertura climática empieza a replicar los informes de sostenibilidad corporativa y todas las páginas de inicio se difuminan en la misma voz. Ese estilo predeterminado también tiende a suavizar los dialectos, el lenguaje activista y las formas de hablar de ciertas comunidades, lo cual perjudica una cobertura justa y equitativa», añadió. 

Según Juzek, el hecho de que la IA generativa haya hecho que la escritura elegante sea ampliamente accesible también exige una reevaluación de lo que consideramos indicadores de calidad en un texto. "Antes", afirmó, "la gente se apresuraba a establecer la conexión entre la calidad de la forma y la calidad del contenido, y ChatGPT rompió ese vínculo". 

Las consecuencias van más allá del periodismo y la academia. Mahadevan expresó su preocupación por los estafadores, antes identificables por errores tipográficos y gramaticales en sus correos electrónicos, que ahora encuentran más fácil pasar desapercibidos. 

Pero la IA generativa, dijo, también ha nivelado el campo de juego para los hablantes no nativos de inglés que desean escribir, por ejemplo, artículos de investigación en un idioma global para que puedan ser compartidos más ampliamente. 

“Que algo se haya generado con IA no significa necesariamente que carezca de mérito”, dijo Mahadevan. “Pero deben implementarse políticas éticas y tomarse medidas para garantizar que lo que se genera tenga mérito”.