31 08 2022

¿Qué "sabe" GPT-3 sobre mí? Los modelos de lenguaje grandes se entrenan en tesoros de datos personales extraídos de Internet. Así que quería saber: ¿Qué tiene en mí?

Nota de Melissa Heikkilä

Compartí la noticia

Para un reportero que cubre la IA, una de las historias más importantes de este año ha sido el surgimiento de grandes modelos de lenguaje. Estos son modelos de IA que producen texto que un humano podría haber escrito, a veces de manera tan convincente que han engañado a las personas para que piensen que son sintientes.

El poder de estos modelos proviene de tesoros de texto creado por humanos disponible públicamente que ha sido extraído de Internet. Me hizo pensar: ¿Qué datos tienen estos modelos sobre mí? ¿Y cómo podría ser mal utilizado?

No es una pregunta ociosa. He estado paranoico acerca de publicar cualquier cosa sobre mi vida personal públicamente desde una experiencia de moretones hace aproximadamente una década. Mis imágenes e información personal fueron salpicadas en un foro en línea, luego diseccionadas y ridiculizadas por personas a las que no les gustaba una columna que había escrito para un periódico finlandés.

Hasta ese momento, como muchas personas, había llenado descuidadamente Internet con mis datos: publicaciones de blog personales, álbumes de fotos vergonzosos de salidas nocturnas, publicaciones sobre mi ubicación, estado de relación y preferencias políticas, a la intemperie para que cualquiera las vea. Incluso ahora, sigo siendo una figura relativamente pública, ya que soy un periodista con esencialmente todo mi portafolio profesional a solo una búsqueda en línea de distancia.

OpenAI ha proporcionado acceso limitado a su famoso modelo de lenguaje grande, GPT-3, y Meta permite a las personas jugar con su modelo OPT-175B a través de un chatbot disponible públicamente llamado BlenderBot 3.

Decidí probar ambos modelos, comenzando preguntando GPT-3: puse ¿Quién es Melissa Heikkilä?

Cuando leí esto, me congelé. Heikkilä fue el 18º apellido más común en mi Finlandia natal en 2022, pero soy uno de los únicos periodistas que escriben en inglés con ese nombre. No debería sorprenderme que el modelo lo asociara con el periodismo. Los grandes modelos lingüísticos raspan grandes cantidades de datos de Internet, incluidos artículos de noticias y publicaciones en redes sociales, y los nombres de periodistas y autores aparecen muy a menudo.

Y, sin embargo, era discordante enfrentarse a algo que en realidad era correcto. ¿Qué más sabe?

Pero rápidamente quedó claro que el modelo realmente no tiene nada en mí. Pronto comenzó a darme textos aleatorios que había recopilado sobre los otros 13.931 Heikkiläs de Finlandia, u otras cosas finlandesas.

Lol. Gracias, pero creo que te refieres a Lotta Heikkilä, que llegó al top 10 del certamen pero no ganó.

Resulta que no soy nadie. Y eso es algo bueno en el mundo de la IA.

Los modelos de lenguaje grande (LLM), como GPT-3 de OpenAI, LaMDA de Google y OPT-175B de Meta, están al rojo vivo en la investigación de IA, y se están convirtiendo en una parte cada vez más integral de la plomería de Internet. Los LLM se están utilizando para impulsar chatbots que ayudan con el servicio al cliente, para crear una búsqueda en línea más poderosa y para ayudar a los desarrolladores de software a escribir código.

Si ha publicado algo, incluso remotamente personal en inglés, en Internet, es probable que sus datos formen parte de algunos de los LLM más populares del mundo.

Las empresas de tecnología como Google y OpenAI no publican información sobre los conjuntos de datos que se han utilizado para construir sus modelos de lenguaje, pero inevitablemente incluyen cierta información personal confidencial, como direcciones, números de teléfono y direcciones de correo electrónico.

Eso representa una "bomba de tiempo" para la privacidad en línea y abre una gran cantidad de riesgos legales y de seguridad, advierte Florian Tramèr, profesor asociado de ciencias de la computación en ETH Zürich que ha estudiado LLMs. Mientras tanto, los esfuerzos para mejorar la privacidad del aprendizaje automático y regular la tecnología aún están en su infancia.

Mi relativo anonimato en línea es probablemente posible gracias al hecho de que he vivido toda mi vida en Europa, y el GDPR, el estricto régimen de protección de datos de la UE, ha estado en vigor desde 2018.

Mi jefe, el editor en jefe de MIT Technology Review, Mat Honan, sin embargo, es definitivamente alguien.

Tanto GPT-3 como BlenderBot "sabían" quién era. Esto es lo que GPT-3 tenía en él.

Eso no es sorprendente: Mat ha estado muy en línea durante mucho tiempo, lo que significa que tiene una huella en línea más grande que yo. También podría deberse a que tiene su sede en los Estados Unidos, y la mayoría de los modelos de lenguaje grandes están muy centrados en los Estados Unidos. Estados Unidos no tiene una ley federal de protección de datos. California, donde vive Mat, tiene uno, pero no entró en vigor hasta 2020.

El reclamo de fama de Mat, según GPT-3 y BlenderBot, es su "truco épico" sobre el que escribió en un artículo para Wired en 2012. Como resultado de fallas de seguridad en los sistemas de Apple y Amazon, los hackers se apoderaron y eliminaron toda la vida digital de Mat. [Nota del editor: No hackeó las cuentas de Barack Obama y Bill Gates.]

Pero se vuelve más espeluznante. Con un poco de insistencia, GPT-3 me dijo que Mat tiene una esposa y dos hijas pequeñas (correcto, aparte de los nombres), y vive en San Francisco (correcto). También me dijo que no estaba seguro de si Mat tiene un perro: "[Por] lo que podemos ver en las redes sociales, no parece que Mat Honan tenga mascotas. Ha tuiteado sobre su amor por los perros en el pasado, pero no parece tener ninguno propio". (Incorrecto.)

El sistema también me ofreció su dirección de trabajo, un número de teléfono (no correcto), un número de tarjeta de crédito (tampoco correcto), un número de teléfono aleatorio con un código de área en Cambridge, Massachusetts (donde MIT Technology Review tiene su sede) y una dirección para un edificio al lado de la Administración del Seguro Social local en San Francisco.

La base de datos de GPT-3 ha recopilado información sobre Mat de varias fuentes, según un portavoz de OpenAI. La conexión de Mat con San Francisco está en su perfil de Twitter y en su perfil de LinkedIn, que aparecen en la primera página de resultados de Google para su nombre. Su nuevo trabajo en MIT Technology Review fue ampliamente publicitado y tuiteado. El hackeo de Mat se volvió viral en las redes sociales, y dio entrevistas a los medios de comunicación al respecto.

Para otra información más personal, es probable que GPT-3 esté "alucinando".
"GPT-3 predice la próxima serie de palabras basadas en una entrada de texto que proporciona el usuario. Ocasionalmente, el modelo puede generar información que no es objetivamente precisa porque está tratando de producir texto plausible basado en patrones estadísticos en sus datos de entrenamiento y contexto proporcionados por el usuario, esto se conoce comúnmente como 'alucinación'", dice un portavoz de OpenAI.

Le pregunté a Mat qué hacía con todo. "Varias de las respuestas generadas por GPT-3 no fueron del todo correctas. (¡Nunca hackeé a Obama o Bill Gates!)", dijo. "Pero la mayoría están bastante cerca, y algunos son acertados. Es un poco desconcertante. Pero estoy seguro de que la IA no sabe dónde vivo, por lo que no estoy en peligro inmediato de que Skynet envíe un Terminator para llamarme a la puerta. Supongo que podemos guardar eso para mañana".

Florian Tramèr y un equipo de investigadores lograron extraer información personal confidencial como números de teléfono, direcciones y direcciones de correo electrónico de GPT-2, una versión anterior y más pequeña de su famoso hermano. También consiguieron que GPT-3 produjera una página del primer libro de Harry Potter, que tiene derechos de autor.

Tramèr, que solía trabajar en Google, dice que el problema solo empeorará con el tiempo. "Parece que la gente realmente no se ha dado cuenta de lo peligroso que es esto", dice, refiriéndose a los modelos de entrenamiento solo una vez en conjuntos de datos masivos que pueden contener datos sensibles o deliberadamente engañosos.

La decisión de lanzar LLMs a la naturaleza sin pensar en la privacidad es una reminiscencia de lo que sucedió cuando Google lanzó su mapa interactivo Google Street View en 2007, dice Jennifer King, miembro de política de privacidad y datos en el Instituto de Stanford para la Inteligencia Artificial Centrada en el Ser Humano.

La primera iteración del servicio fue una delicia para los mirones: imágenes de personas que se recogían la nariz, hombres que salían de clubes de striptease y bañistas desprevenidos se cargaban en el sistema. La compañía también recopiló datos confidenciales como contraseñas y direcciones de correo electrónico a través de redes WiFi. Street View enfrentó una feroz oposición, un caso judicial de 13 millones de dólares e incluso prohibiciones en algunos países. Google tuvo que poner en marcha algunas funciones de privacidad, como difuminar algunas casas, caras, ventanas y matrículas.

"Desafortunadamente, siento que Google o incluso otras compañías tecnológicas no han aprendido lecciones", dice King.

Modelos más grandes, mayores riesgos
Los LLM que están capacitados en tesoros de datos personales conllevan grandes riesgos.

No es solo que sea invasivo como el infierno tener su presencia en línea regurgitada y reutilizada fuera de contexto. También hay algunas preocupaciones serias de seguridad y protección. Los hackers podrían usar los modelos para extraer números de Seguro Social o domicilios.

También es bastante fácil para los hackers manipular activamente un conjunto de datos "envenenándolo" con datos de su elección para crear inseguridades que permitan violaciones de seguridad, dice Alexis Leautier, quien trabaja como experto en inteligencia artificial en la agencia francesa de protección de datos CNIL.
Y a pesar de que los modelos parecen escupir la información en la que han sido entrenados aparentemente al azar, argumenta Tramèr, es muy posible que el modelo sepa mucho más sobre las personas de lo que actualmente está claro, "y simplemente no sabemos realmente cómo incitar realmente al modelo o realmente sacar esta información".

Cuanto más regularmente aparece algo en un conjunto de datos, más probable es que un modelo lo escupa. Esto podría llevarlo a cargar a las personas con asociaciones erróneas y dañinas que simplemente no desaparecerán.

Por ejemplo, si la base de datos tiene muchas menciones de "Ted Kaczynski" (también conocido como el Unabomber, un terrorista doméstico estadounidense) y "terror" juntos, el modelo podría pensar que cualquiera llamado Kaczynski es un terrorista.

Esto podría llevar a un daño real a la reputación, como King y yo descubrimos cuando estábamos jugando con BlenderBot de Meta.
Maria Renske "Marietje" Schaake no es una terrorista, sino una prominente política holandesa y ex miembro del Parlamento Europeo. Schaake es ahora el director de política internacional en el Centro de Política Cibernética de la Universidad de Stanford y miembro de política internacional en el Instituto de Inteligencia Artificial Centrada en el Ser Humano de Stanford.

A pesar de eso, BlenderBot llegó extrañamente a la conclusión de que ella es una terrorista, acusándola directamente sin preguntar. ¿Cómo?

Una pista podría ser un artículo de opinión que escribió en el Washington Post donde las palabras "terrorismo" o "terror" aparecen tres veces.

Meta dice que la respuesta de BlenderBot fue el resultado de una búsqueda fallida y la combinación del modelo de dos piezas de información no relacionadas en una oración coherente, pero incorrecta. La compañía enfatiza que el modelo es una demostración con fines de investigación y no se está utilizando en la producción.

"Si bien es doloroso ver algunas de estas respuestas ofensivas, las demostraciones públicas como esta son importantes para construir sistemas de IA conversacional verdaderamente robustos y cerrar la clara brecha que existe hoy en día antes de que dichos sistemas puedan ser producidos", dice Joelle Pineau, directora gerente de investigación fundamental de IA en Meta.

Pero es un problema difícil de solucionar, porque estas etiquetas son increíblemente pegajosas. Ya es bastante difícil eliminar información de Internet, y será aún más difícil para las empresas de tecnología eliminar datos que ya se han alimentado a un modelo masivo y potencialmente se han desarrollado en innumerables otros productos que ya están en uso.

Y si cree que es espeluznante ahora, espere hasta la próxima generación de LLM, que se alimentarán con aún más datos. "Este es uno de los pocos problemas que empeoran a medida que estos modelos crecen", dice Tramèr.

No se trata solo de datos personales. Es probable que los conjuntos de datos incluyan datos con derechos de autor, como el código fuente y los libros, dice Tramèr. Algunos modelos han sido entrenados en datos de GitHub, un sitio web donde los desarrolladores de software realizan un seguimiento de su trabajo.
Eso plantea algunas preguntas difíciles, dice Tramèr:

"Si bien estos modelos van a memorizar fragmentos específicos de código, no necesariamente van a mantener la información de la licencia. Entonces, si usas uno de estos modelos y escupe un fragmento de código que está muy claramente copiado de otro lugar, ¿cuál es la responsabilidad allí?"

Eso le ha sucedido un par de veces al investigador de IA Andrew Hundt, un becario postdoctoral en el Instituto de Tecnología de Georgia que terminó su doctorado en aprendizaje por refuerzo en robots en la Universidad John Hopkins el otoño pasado.

La primera vez que sucedió, en febrero, un investigador de IA en Berkeley, California, a quien Hundt no conocía, lo etiquetó en un tweet diciendo que Copilot, una colaboración entre OpenAI y GitHub que permite a los investigadores usar modelos de lenguaje grande para generar código, había comenzado a arrojar su nombre de usuario de GitHub y texto sobre IA y robótica que sonaba muy parecido a las propias listas de tareas pendientes de Hundt.

"Fue un poco sorprendente que mi información personal como esa apareciera en la computadora de otra persona en el otro extremo del país, en un área que está tan estrechamente relacionada con lo que hago", dice Hundt.

Eso podría plantear problemas en el futuro, dice Hundt. No solo es posible que los autores no se acrediten correctamente, sino que el código no transfiera información sobre licencias y restricciones de software.

En el gancho
Descuidar la privacidad podría significar que las empresas de tecnología terminen en problemas con los reguladores tecnológicos cada vez más agresivos.

"La excusa de 'Es público y no necesitamos preocuparnos' simplemente no va a aguantar", dice Jennifer King de Stanford.

La Comisión Federal de Comercio de los Estados Unidos está considerando reglas sobre cómo las empresas recopilan y tratan datos y construyen algoritmos, y ha obligado a las empresas a eliminar modelos con datos ilegales. En marzo de 2022, la agencia hizo que la compañía de dietas Weight Watchers eliminara sus datos y algoritmos después de recopilar ilegalmente información sobre niños.

"Hay un mundo en el que ponemos a estas empresas en el gancho para poder volver a los sistemas y simplemente descubrir cómo excluir los datos de ser incluidos", dice King. "No creo que la respuesta pueda ser simplemente 'No lo sé, solo tenemos que vivir con eso'".

Incluso si los datos se extraen de Internet, las empresas aún deben cumplir con las leyes de protección de datos de Europa. "No se puede reutilizar ningún dato solo porque está disponible", dice Félicien Vallet, quien dirige un equipo de expertos técnicos de la CNIL.

Existe un precedente cuando se trata de penalizar a las empresas de tecnología bajo el GDPR por extraer los datos de la Internet pública. La empresa de reconocimiento facial Clearview AI ha recibido la orden de numerosas agencias europeas de protección de datos de dejar de reutilizar imágenes disponibles públicamente de Internet para construir su base de datos facial.

"Al recopilar datos para la constitución de modelos de lenguaje u otros modelos de IA, se enfrentará a los mismos problemas y tendrá que asegurarse de que la reutilización de estos datos sea realmente legítima", agrega Vallet.

Sin soluciones rápidas
Hay algunos esfuerzos para hacer que el campo del aprendizaje automático tenga más en cuenta la privacidad. La agencia francesa de protección de datos trabajó con la startup de IA Hugging Face para crear conciencia sobre los riesgos de protección de datos en llMs durante el desarrollo del nuevo modelo de lenguaje de acceso abierto BLOOM. Margaret Mitchell, investigadora de IA y especialista en ética en Hugging Face, me dijo que también está trabajando en la creación de un punto de referencia para la privacidad en los LLM.

Un grupo de voluntarios que surgió del proyecto de Hugging Face para desarrollar BLOOM también está trabajando en un estándar para la privacidad en IA que funciona en todas las jurisdicciones.

"Lo que estamos tratando de hacer es usar un marco que permita a las personas hacer buenos juicios de valor sobre si la información que está allí que es personal o personalmente identificable realmente necesita estar allí", dice Hessie Jones, socia de riesgo de MATR Ventures, quien codirigió el proyecto.

MIT Technology Review preguntó a Google, Meta, OpenAI y Deepmind, que han desarrollado LLM de última generación, sobre su enfoque de llM y privacidad. Todas las empresas admitieron que la protección de datos en modelos de lenguaje grande es un problema continuo, que no existen soluciones perfectas para mitigar los daños y que los riesgos y limitaciones de estos modelos aún no se comprenden bien.

Sin embargo, los desarrolladores tienen algunas herramientas, aunque imperfectas.

En un artículo que salió a principios de 2022, Tramèr y sus coautores argumentan que los modelos de lenguaje deben entrenarse en datos que se han producido explícitamente para uso público, en lugar de extraer datos disponibles públicamente.

Los datos privados a menudo están dispersos por los conjuntos de datos utilizados para entrenar LLMs, muchos de los cuales se extraen de la Internet abierta. Cuanto más a menudo aparecen esos bits personales de información en los datos de entrenamiento, más probable es que el modelo los memorice y más fuerte se vuelve la asociación. Una forma en que empresas como Google y OpenAI dicen que intentan mitigar este problema es eliminar la información que aparece varias veces en los conjuntos de datos antes de entrenar sus modelos en ellos. Pero eso es difícil cuando su conjunto de datos consiste en gigabytes o terabytes de datos y tiene que diferenciar entre el texto que no contiene datos personales, como la Declaración de Independencia de los Estados Unidos, y la dirección privada de la casa de alguien.

Google utiliza evaluadores humanos para calificar la información de identificación personal como insegura, lo que ayuda a capacitar al LLM LaMDA de la compañía para evitar regurgitarla, dice Tulsee Doshi, jefe de producto de IA responsable de Google.

Un portavoz de OpenAI dijo que la compañía ha "tomado medidas para eliminar las fuentes conocidas que agregan información sobre las personas de los datos de entrenamiento y han desarrollado técnicas para reducir la probabilidad de que el modelo produzca información personal".

Susan Zhang, investigadora de IA en Meta, dice que las bases de datos que se utilizaron para entrenar a OPT-175B pasaron por revisiones internas de privacidad.

Pero "incluso si entrenas un modelo con las garantías de privacidad más estrictas que podemos pensar hoy en día, realmente no vas a garantizar nada", dice Tramèr.