Tecnología de lenguaje natural lo hace posible
Un idioma antiguo ha desafiado la traducción durante 100 años. ¿Puede la IA descifrar el código?
El aprendizaje automático puede traducir entre dos idiomas conocidos, pero ¿podría alguna vez descifrar aquellos que siguen siendo un misterio para nosotros?
Jiaming Luo creció en China continental pensando en idiomas descuidados. Cuando era más joven, se preguntaba por qué los diferentes idiomas que hablaban su madre y su padre a menudo se agrupaban como "dialectos" chinos. La historia por Alizeh Kohari es una periodista paquistaní que divide su tiempo entre Karachi y la Ciudad de México.
Cuando se convirtió en estudiante de doctorado en ciencias de la computación en el MIT en 2015, su interés chocó con la fascinación de larga data de su asesor por los guiones antiguos. Después de todo, ¿qué podría ser más descuidado -o, para usar el término más académico de Luo, "de menores recursos"- que un lenguaje perdido hace mucho tiempo, dejado para nosotros como símbolos enigmáticos en fragmentos dispersos? "Pienso en estos idiomas como misterios", dijo Luo a Rest of World a través de Zoom. "Eso es definitivamente lo que me atrae de ellos".
En 2019, Luo fue noticia cuando, trabajando con un equipo de colegas investigadores del MIT, aportó su experiencia en aprendizaje automático al desciframiento de guiones antiguos. Él y sus colegas desarrollaron un algoritmo informado por patrones en cómo los idiomas cambian con el tiempo. Alimentaron sus palabras de algoritmo en un lenguaje perdido y en un lenguaje relacionado conocido; su trabajo era alinear las palabras del idioma perdido con sus contrapartes en el idioma conocido. Crucialmente, el mismo algoritmo podría aplicarse a diferentes pares de idiomas.
Luo y sus colegas probaron su modelo en dos escrituras antiguas que ya habían sido descifradas: el ugarítico, que está relacionado con el hebreo, y el lineal B, que se descubrió por primera vez entre las ruinas de la Edad de Bronce en la isla griega de Creta. Se necesitaron epigrafistas profesionales y aficionados, personas que estudian la materia escrita antigua, casi seis décadas de disputas mentales para decodificar el Lineal B. Oficialmente, al arquitecto británico michael Ventris, de 30 años, se le atribuye principalmente su desciframiento, aunque los esfuerzos privados de la clasicista Alice Kober sentaron las bases para su avance. Sentada noche tras noche en su mesa de comedor en Brooklyn, Nueva York, Kober compiló una base de datos improvisada de símbolos del Lineal B, que comprende 180,000 hojas de papel archivadas en cajas de cigarrillos, y las usó para sacar conclusiones importantes sobre la naturaleza del guión. Murió en 1950, dos años antes de que Ventris descifrara el código. El lineal B es ahora reconocido como la forma más antigua del griego.
Luo y su equipo querían ver si su modelo de aprendizaje automático podía llegar a la misma respuesta, pero más rápido. El algoritmo produjo lo que se llamó "precisión notable": fue capaz de traducir correctamente el 67,3% de las palabras del Lineal B a sus equivalentes griegos modernos. Según Luo, tomó entre dos y tres horas ejecutar el algoritmo una vez que se había construido, eliminando los días o semanas, o meses o años, que podría llevar probar manualmente una teoría traduciendo símbolos uno por uno. Los resultados para Ugaritic mostraron una mejora en los intentos anteriores de desciframiento automático.
El trabajo planteó una propuesta intrigante. ¿Podría el aprendizaje automático ayudar a los investigadores en sus búsquedas para descifrar otros scripts aún no descifrados, que hasta ahora se han resistido a todos los intentos de traducción? ¿Qué secretos históricos podrían desbloquearse como resultado?
India británica, 1872-1873. Alexander Cunningham, un ingeniero del ejército inglés convertido en topógrafo arqueológico, se acercó a las ruinas de una ciudad en la provincia de Punjab que los lugareños llamaron Harappa. A primera vista, no había mucho que estudiar: unas dos décadas antes, los ingenieros que trabajaban para unir las ciudades de Lahore y Multan habían tropezado con el sitio y habían utilizado muchos de los ladrillos que encontraron, perfectamente conservados y con horno de fuego, como lastre para casi 100 millas de vías férreas, alegremente inconscientes de que eran restos de una de las civilizaciones más antiguas del mundo.
Jiaming Luo, estudiante de doctorado en el Instituto de Tecnología de Massachusetts. Tim Dunk para el resto del mundo
Cunningham tampoco sabía esto: la civilización del Valle del Indo no sería formalmente "descubierta" hasta la década de 1920, pero sabía que el sitio tenía algún valor histórico. Excavando a través de las ruinas, él y su equipo se toparon con implementos de piedra que conjeturaron que se usaban para raspar madera o cuero. Reunieron fragmentos de cerámica antigua y lo que parecía ser un cucharón de arcilla. El descubrimiento más sorprendente, sin embargo, fue una pequeña tableta de piedra, de aproximadamente 1,5 pulgadas por 1,5 pulgadas. "En él está grabado muy profundamente un toro, sin joroba, mirando a la derecha, con dos estrellas bajo el cuello", escribió Cunningham en su informe. "Sobre el toro hay una inscripción en seis caracteres, que son bastante desconocidos para mí. Ciertamente no son letras indias; y como el toro que los acompaña no tiene joroba, concluyo que el sello es ajeno a la India".
Tengo una réplica barata de ese primer sello, comprada hace años en una tienda de regalos de un museo en uno de los sitios del Valle del Indo: el animal en él tiene un cuello grueso, un torso lumpen y un solo cuerno en picado. Algunas personas insisten en que es un unicornio. La inscripción garabateada sobre ella se asemeja a una cadena de jeroglíficos; un personaje parece un pez. En el siglo y medio transcurrido desde el descubrimiento del primer sello, miles más han sido desenterrados: el 90% de ellos a lo largo del río Indo en el actual Pakistán, el resto en la India o tan lejos como el actual Irak.
Ahora sabemos que estas tablillas, descritas por una excavadora como "pequeñas obras maestras del realismo controlado", son autóctonas del subcontinente indio; Los investigadores creen que probablemente se utilizaron para cerrar documentos y marcar paquetes de productos, por lo que se les conoce como sellos. En parte debido a cómo los símbolos en las inscripciones se empujan entre sí en un extremo, casi como si el inscrito se hubiera quedado sin espacio, los investigadores han concluido que las inscripciones están destinadas a ser leídas de derecha a izquierda. Pero todavía no sabemos lo que realmente dicen.
Un sello de piedra encontrado en Harappa en el valle del Indo, en las provincias de Punjab y Sindh de Pakistán. Los fideicomisarios del Museo Británico
Esto no es por falta de intentos. Los estudiosos a menudo señalan que la escritura del Indo, como se conoce a la colección de unas 4.000 inscripciones excavadas, que comprende entre 400 y aproximadamente 700 símbolos únicos, podría ser una de las escrituras más descifradas de la historia. Más de cien intentos se han publicado desde la década de 1920. Una teoría lo vincula a la escritura Rongorongo de la Isla de Pascua, también aún sin descifrar; otro, ofrecido por un gurú tántrico alemán que afirma haber logrado su solución a través de la meditación, lo vincula a la escritura cuneiforme utilizada para escribir el idioma sumerio.
Para algunos grupos en el sur de Asia, la búsqueda para decodificar la escritura del Indo es casi existencial. India y Pakistán, cada vez más divididos por sus respectivas cepas de nacionalismo religioso, tienen relaciones marcadamente diferentes a su pasado antiguo compartido. El Estado paquistaní, profundamente casado con la idea de sí mismo como una patria musulmana, ignora en gran medida su herencia preislámica; su contraparte india, por otro lado, se ha dedicado a recorrer la historia para encontrar justificación para la afirmación de que la India siempre ha sido una nación hindú.
NUESTRO NUEVO BOLETÍN INFORMATIVO SOBRE EL SUR DE ASIA
El futuro de la tecnología global se determinará fuera de Occidente. Suscríbase a nuestro boletín quincenal del sur de Asia para descubrir cómo la región está inventando el futuro.
CORREO ELECTRÓNICO
Vista previa del boletín en el dispositivo móvil con funda protectora que parece un conejito
Hasta el descubrimiento de Harappa, se creía que los primeros indios eran personas que vivieron entre 1500 y 500 a.C. y compusieron los Vedas, los textos sánscritos que forman la base del hinduismo moderno. El descubrimiento de una civilización de personas que vivieron antes del pueblo védico trastocó la historia de la India. Dado que socava sus afirmaciones de indigeneidad, los defensores de Hindutva, la cepa más convencional del nacionalismo hindú, se resisten a la teoría de una civilización pre-védica, incluso cuando la evidencia de ella se acumula en todas las disciplinas, incluida la arqueología, la genética y la lingüística.
El más pequeño de los avances en la investigación del Valle del Indo, por lo tanto, tiende a reverberar mucho más allá de los confines de los académicos. Los intentos de probar que el pueblo del Indo adoraba a los dioses hindúes y hablaba una forma anterior de sánscrito continúan sin cesar. En 2000, un investigador incluso distorsionó digitalmente una imagen de un sello del Indo para hacer que el animal en él pareciera un caballo, que ocupa un lugar destacado en la literatura sánscrita.
Dejando a un lado la política, es notable lo poco que sabemos sobre la gente original del Valle del Indo, que en un momento dado constituyó casi el 10% de los habitantes del mundo. Es especialmente irritante dado lo mucho más que sabemos sobre sus contemporáneos, como la gente de las civilizaciones egipcia y mesopotámica. Parte de la razón de esto es la continua esquiva de la escritura del Indo.
Poner las máquinas a trabajar en el script del Indo es más complicado que usarlas para aplicar ingeniería inversa al Lineal B. No tenemos mucha información sobre la escritura del Indo: lo más importante es que no sabemos con qué otro idioma puede estar relacionado. Como resultado, un modelo como el de Luo no funcionaría para el guión del Indo. Sin embargo, eso no quiere decir que la tecnología no pueda ayudar. De alguna manera, el modelado por computadora ya ha jugado un papel crucial: al mostrar que el script Indo es un lenguaje en absoluto.
Durante la mayor parte del siglo 20, las inscripciones del Indo fueron ampliamente aceptadas como representaciones de un idioma no descifrado. Luego, en 2004, un grupo de investigadores de Harvard, el neurobiólogo cultural e historiador comparativo Steve Farmer, el teórico computacional Richard Sproat y el filólogo Michael Witzel, publicaron un artículo esencialmente restregando casi toda la investigación existente sobre el asunto. Los sellos del Indo, afirmaban, no eran más que una colección de símbolos religiosos o políticos, similares, por ejemplo, a las señales de carretera, y todos los intentos de descifrarlos como idioma eran una pérdida de tiempo. Para subrayar su punto, Farmer ofreció una recompensa de $ 10,000 a cualquiera que pudiera encontrar una inscripción del Indo que contuviera al menos 50 símbolos.
La mayoría de los indólogos y otros investigadores de la escritura del Indo descartaron estos argumentos. Un grupo de matemáticos, sin embargo, recurrió a las computadoras para investigar las afirmaciones. Ronojoy Adhikari, profesor de física estadística en la Universidad de Cambridge, fue uno de ellos.
Antes de Cambridge, Adhikari trabajó en el Instituto de Ciencias Matemáticas, en Chennai. En 2009, asistió a una charla de Iravatham Mahadevan, un funcionario indio convertido en epigrafista. Mahadevan, quien murió en 2018, ya había descifrado Tamil-Brahmi, otra escritura no descifrada, y luego dirigió su atención a la escritura del Indo.
Ronojoy Adhikari, profesor de física estadística en la Universidad de Cambridge. Tim Dunk para el resto del mundo
Adhikari recuerda estar fascinado. "Soy una persona de las ciencias; No tengo experiencia en humanidades", dijo. "Pero lo que encontré muy atractivo en la forma en que Mahadevan vio el problema fue que tenía un enfoque muy cuantitativo, casi científico. Él estaba preguntando, ¿cuántas veces ocurre un símbolo en particular? ¿Contra qué ocurre? ¿Cuál es el contexto en el que está ocurriendo? Y me pareció que, debido a que ya había sido tan cuantificado, sería fácil traducir esto en un análisis matemático formal".
Algunos otros científicos de datos que asistieron unieron fuerzas con Adhikari. Sabían que no podían descifrar el guión. "Así que la pregunta que hicimos fue: ¿Podemos al menos decir si está transmitiendo algún tipo de información lingüística?"
Dirigidos por el científico informático Rajesh Rao, los investigadores idearon un programa de computadora para ver si podían responder a esta pregunta: ¿Era la escritura del Indo un lenguaje? "Puedes darme cualquier secuencia de símbolos, no me importa lo que sean: jeroglíficos, lenguaje escrito, partituras, código informático, y los veré desde el punto de vista de un matemático", explicó Adhikari. "Es decir, simplemente contaré cuántas veces ocurre un signo junto a otro".
"Así que la pregunta que hicimos fue: ¿podemos al menos decir si está transmitiendo algún tipo de información lingüística?"
Su programa se basó en el trabajo de Claude E. Shannon, un matemático, ingeniero y decodificador estadounidense de mediados de siglo de códigos de tiempos de guerra, quien formuló la noción de entropía de la información, esencialmente una medida matemática del desorden. En los sistemas lingüísticos, los símbolos se producen con frecuencias algo fijas. "Por ejemplo, simplemente no puedo tomar una letra del alfabeto, encadenarla con otra letra del alfabeto y esperar obtener una palabra en inglés", explicó Adhikari. En inglés común, por ejemplo, la letra "q" casi siempre va seguida de "u". Esta semiflexibilidad es un marcador de todos los sistemas lingüísticos. El código informático, por otro lado, es completamente rígido: la más mínima desviación, y se desmorona.
Los investigadores alimentaron su programa con las 4.000 inscripciones que forman la totalidad de la escritura del Indo. En buena medida, también ejecutaron el programa en otras muestras lingüísticas (caracteres y palabras en inglés, sánscrito, tamil, sumero y tagalo) y algunas escrituras no lingüísticas (ADN, proteína, la Sonata n.º 32 de Beethoven y un código informático llamado Fortran). El programa duró unos 45 minutos.
"Recuerdo la primera vez que se generó esa trama", recordó Adhikari. En el gráfico, las curvas que representan secuencias de música, proteínas y ADN flotaban altas, cerca del nivel máximo de entropía, lo que indica un alto nivel de aleatoriedad. Más abajo, los idiomas conocidos están todos en un grupo apretado. Fortran aparece más abajo.
En cuanto a la escritura del Indo, aparece con los otros idiomas, justo debajo del sánscrito y mapeando casi limpiamente el tamil. "Se sintió fantástico. Realmente se sintió muy bien. Es bueno tener una corazonada, pero para poder demostrarlo, recuerdo haber pensado: Sí, realmente tenemos algo aquí".
Hay una gran diferencia, por supuesto, entre mostrar que un script codifica un lenguaje y decodificar lo que dice.
Bahata Ansumali Mukhopadhyay conoció a Adhikari hace más de una década. En ese momento, ella era una desarrolladora de software desencantada que buscaba una ruta de escape. Cuando Adhikari, que había comenzado a explorar enfoques de aprendizaje profundo para trabajar en el guión, estaba en el mercado para un asistente, se ofreció como voluntaria.
El aprendizaje profundo es la técnica dominante en la inteligencia artificial hoy en día. Es principalmente una forma de reconocimiento de patrones: cuantos más datos alimente una máquina, mejor se vuelve en la interpretación de datos futuros. Pero el enfoque de grandes conjuntos de datos no es particularmente útil cuando se trata de temas de bajos recursos (para usar el término de Luo), como el script Indo, donde los datos son limitados. Mukhopadhyay se dio cuenta rápidamente de esto.
"Se suponía que debía estar codificando", dijo tímidamente. "Pero, pasé la mayor parte de mi tiempo leyendo".
Mukhopadhyay bajó por una madriguera de conejo tras otra. Analizó los diccionarios mesopotomiano, acadio, sumerio y persa antiguo. Aprendió por sí misma a leer jeroglíficos egipcios. "Me di cuenta de lo sutil que puede ser el simbolismo", dijo. "Al igual que el dios Horus, su ojo estaba desgarrado en fragmentos. Cada parte se imagina como una fracción, y luego, a partir de ahí, los antiguos egipcios crearon sus símbolos para fracciones".
"Aquí hay que entender el simbolismo histórico utilizado en la India. ¿Cómo abordará eso la inteligencia artificial?"
Durante los últimos años, Mukhopadhyay ha estado investigando de forma independiente las inscripciones del Indo, centrándose en símbolos individuales. Esto implica llegar a una teoría en particular y luego probarla, algo en lo que las computadoras no son muy buenas.
La teoría de Mukhopadhyay, por la que hizo un caso en un artículo revisado por pares en Nature, es que los sellos del Indo se utilizaron para los impuestos y el control del comercio: un coleccionista podría llevar uno, por ejemplo, como una especie de licencia. En un artículo posterior, al examinar las palabras utilizadas para "elefante" (piri, piru, pilu) y "marfil" (pirus) en las lenguas del Cercano Oriente en la época de la civilización del Indo, ha argumentado que el pueblo del Indo hablaba una forma anterior de dravídico, el antepasado lingüístico de las lenguas actuales como el telugu, el tamil y el kannada.
Si los investigadores pueden identificar con éxito una relación lingüística contemporánea con la escritura del Indo, podría ser la clave para descifrarla. Mientras Mukhopadhyay explica su trabajo, sus pendientes se agitan. Son representaciones artísticas de cabezas de elefante. "Pilu", dijo, sonriendo.
"Creo que hay muchos aspectos de la cognición que no podemos codificar en un marco conveniente".
Las iteraciones actuales de IA no están diseñadas para implementar el tipo de enfoque adoptado por Mukhopadhyay. Adhikari, que ahora también es menos optimista sobre la perspectiva del desciframiento de la máquina, es escéptico de que alguna vez lo sea. "Creo que hay muchos aspectos de la cognición que no podemos codificar en un marco conveniente", dijo. "No me arriesgaría a adivinar, pero no veo que suceda en mi vida. Creo que necesitamos entender mucho mejor nuestros cerebros". Además, agregó, no toda la información es cuantificable de una manera que las computadoras puedan entender. "Una máquina entiende muy bien uno, dos, tres. Dos más dos es igual a cuatro, sí. Pero ..." Su mirada se desvió más allá de la pantalla de su computadora. "Pero que esta puesta de sol aquí parece una hermosa llama, bueno, es este tipo de abstracción la que tiene la clave de este guión".
Independientemente del enfoque utilizado, la IA depende de que los datos de alta calidad estén disponibles en un formato legible por máquina. Esto sigue siendo un desafío clave cuando se trata de textos antiguos, dado que a menudo nos llegan astillados, erosionados o incompletos de alguna otra forma. Los estudiosos pueden pasar décadas debatiendo la singularidad de los símbolos: ¿Es eso un rasguño junto a un personaje conocido, por ejemplo, o un nuevo personaje por completo? Dado lo poco que hay que trabajar cuando se trata de lenguajes perdidos hace mucho tiempo, los datos ruidosos o incompletos pueden reducir seriamente los esfuerzos de desciframiento.
Durante las últimas dos décadas, Bryan K. Wells, con sede en Vancouver, y Andreas Fuls, con sede en Berlín, han estado digitalizando silenciosamente todos los sellos y símbolos conocidos del Indo. Agregan información contextual, como dónde fueron excavados, cuándo y junto con qué artefactos, y agregan otros nuevos a medida que se excavan. El Corpus Interactivo de Textos del Indo (ICIT) contiene actualmente información sobre 4.537 artefactos inscritos, 5.509 textos y 19.616 apariciones de signos, con un total de 707 símbolos únicos del Indo, un número mucho mayor que los 417 identificados anteriormente.
Un sello hecho de esteatita blanca vidriada con un toro de pie sobre un pesebre, encontrado en Babilonia, Irak. Los fideicomisarios del Museo Británico
Los primeros corpus fueron compilados a mano. Como resultado, argumenta Wells, eran tan limitados que corrían el riesgo de socavar la investigación de guiones. "Conoces el viejo dicho de la computadora", dijo recientemente por Skype, "Basura adentro, basura afuera". Cerca de 50 investigadores de todo el mundo utilizan actualmente la base de datos.
Por ahora, los misterios de la escritura del Indo continúan eludiendo el desciframiento. El año pasado, en un documento de seguimiento de su trabajo automatizando la decodificación de Ugarítico y Lineal B, Luo y su equipo hicieron un pequeño pero crucial avance: un algoritmo destinado a identificar posibles lenguajes relacionados de sistemas de escritura no descifrados. Potencialmente, esto podría ayudar a abordar el problema de descifrar scripts que aún no tienen un lenguaje conocido con el que se puedan comparar. Cuando Luo y su equipo probaron su modelo sobre el idioma ibérico, que históricamente se ha relacionado con el euskera, sus hallazgos sugirieron que los dos idiomas no eran lo suficientemente cercanos como para estar relacionados, una conclusión que corroboró la reciente erudición sobre el asunto.
Pero mientras que iberian, dijo Luo, tiene al menos 80 símbolos únicos, la escritura del Indo tiene al menos 400, lo que la hace exponencialmente más desafiante. Aún así, teóricamente hablando, las máquinas modernas pueden manejar este nivel de computación. ¿Podría ser posible simplemente "forzar brutamente" un problema como la escritura del Indo, analizarlo contra todas las lenguas contemporáneas del sur de Asia y ver cuál emerge como su relación lingüística más cercana? "Ese es un buen pensamiento", dijo Luo, después de detenerse a pensar. "Si tuviera tiempo, definitivamente lo intentaría".
Luo se apresura a señalar que no espera que ningún desciframiento de los idiomas perdidos esté completamente automatizado. "Mi pensamiento es: Deje que el sistema proponga una lista de candidatos y deje que los expertos vean, está bien, tal vez esta teoría sea más correcta que la otra", dijo. Definitivamente reduce el esfuerzo y la cantidad de horas que los expertos tienen que gastar".
No todos están dispuestos a recibir ayuda de las máquinas. Antes de decidirse por el ibérico, Luo y sus colegas habían considerado abordar el etrusco, una escritura no descifrada de la Italia prerromana. "Uno de nuestros coautores envió un correo electrónico a un grupo de profesores que trabajan en este campo", recordó Luo, riendo. Uno de ellos respondió, ahuyentándolos. "Respondió en tonos bastante enojados: 'las máquinas nunca pueden competir con los humanos'".



