Como usan los datos para generar IA
Suscribirme
8/04/2024

Como usan los datos para generar IA

Las empresas están tomando información personal y descuidando aspectos básicos de los derechos de autor

Compartí la noticia

A finales de 2021, OpenAI se enfrentó a un problema de suministro.

El laboratorio de inteligencia artificial había agotado todos los depósitos de texto en inglés de buena reputación en Internet a medida que desarrollaba su último sistema A.I. Necesitaba más datos para entrenar la próxima versión de su tecnología — mucho más.

Así que los investigadores de OpenAI crearon una herramienta de reconocimiento de voz llamada Whisper. Podría transcribir el audio de los videos de YouTube, produciendo un nuevo texto conversacional que haría que un sistema A.I sea más inteligente.

Algunos empleados de OpenAI discutieron cómo tal movimiento podría ir en contra de las reglas de YouTube, dijeron tres personas con conocimiento de las conversaciones. YouTube, que es propiedad de Google, prohíbe el uso de sus videos para aplicaciones que son “independent” de la plataforma de video.

En última instancia, un equipo de OpenAI transcribió más de un millón de horas de videos de YouTube, dijeron las personas. El equipo incluyó a Greg Brockman, presidente de OpenAIaia, quien personalmente ayudó a recopilar los videos, dijeron dos de las personas. Los textos fueron alimentados a un sistema llamado GPT-4, que fue ampliamente considerado como uno de los modelos más poderosos del mundo A.I.y fue la base de la última versión del chatbot ChatGPT.

La carrera para liderar A.I.se ha convertido en una búsqueda desesperada de los datos digitales necesarios para avanzar en la tecnología. Para obtener esos datos, las compañías tecnológicas, incluidas OpenAI, Google y Meta, han recortado las esquinas, ignorado las políticas corporativas y debatido la flexión de la ley, según un examen realizado por The New York Times.

En Meta, propietaria de Facebook e Instagram, los gerentes, abogados e ingenieros discutieron el año pasado la compra de la editorial Simon & Schuster para obtener trabajos largos, según grabaciones de reuniones internas obtenidas por The Times. También confirieron en la recopilación de datos con derechos de autor de Internet, incluso si eso significaba enfrentar demandas. Negociar licencias con editores, artistas, músicos y la industria de las noticias llevaría demasiado tiempo, dijeron.

Al igual que OpenAI, Google transcribió videos de YouTube para recolectar texto para sus modelos de IA, dijeron cinco personas con conocimiento de las prácticas de los compañías. Eso potencialmente violó los derechos de autor de los videos, que pertenecen a sus creadores.

El año pasado, Google también amplió sus términos de servicio. Una motivación para el cambio, según los miembros del equipo de privacidad de la compañía y un mensaje interno visto por The Times, fue permitir que Google pueda aprovechar los documentos de Google disponibles públicamente, reseñas de restaurantes en Google Maps y otro material en línea para más de su A.I. productos.

Las acciones de las compañías ’ ilustran cómo la información en línea — noticias, trabajos ficticios, publicaciones en el tablero de mensajes, artículos de Wikipedia, programas de computadora, fotos, podcasts y clips de película — se ha convertido cada vez más en el alma del floreciente A.I. industria. La creación de sistemas innovadores depende de tener suficientes datos para enseñar las tecnologías a producir instantáneamente texto, imágenes, sonidos y videos que se parezcan a lo que crea un humano.

El volumen de datos es crucial. Los principales sistemas de chatbot tienen aprendido de grupos de texto digital abarcando hasta tres billones de palabras, o aproximadamente el doble del número de palabras almacenadas en la Biblioteca Bodleian de la Universidad de Oxford, que ha recopilado manuscritos desde 1602. Los datos más preciados, A.I. Los investigadores dijeron que es información de alta calidad, como libros y artículos publicados, que han sido cuidadosamente escritos y editados por profesionales.

Durante años, Internet — con sitios como Wikipedia y Reddit — era una fuente de datos aparentemente interminable. Pero a medida que A.I.avanzó, las compañías tecnológicas buscaron más repositorios. Google y Meta, que tienen miles de millones de usuarios que producen consultas de búsqueda y publicaciones en redes sociales todos los días, estaban limitados en gran medida por las leyes de privacidad y sus propias políticas de recurrir a gran parte de ese contenido para A.I.

Su situación es urgente. Las compañías tecnológicas podrían pasar por los datos de alta calidad en Internet tan pronto como 2026, según Epoch, un instituto de investigación. Las empresas están utilizando los datos más rápido de lo que se está produciendo.

“La única forma práctica de que existan estas herramientas es si pueden capacitarse en grandes cantidades de datos sin tener que licenciar esos datos,” Sy Damle, un abogado que representa a Andreessen Horowitz, una firma de capital de riesgo de Silicon Valley, dicho de A.I.modelos el año pasado en una discusión pública sobre la ley de derechos de autor. “Los datos necesarios son tan masivos que incluso las licencias colectivas realmente pueden funcionar.”

Las compañías tecnológicas están tan hambrientas de nuevos datos que algunas están desarrollando información de “synthetic”. Esto no son datos orgánicos creados por humanos, sino texto, imágenes y código que los modelos A.I.producen — en otras palabras, los sistemas aprenden de lo que ellos mismos generan.

OpenAI dijo que cada uno de sus modelos A.I.“ tiene un conjunto de datos único que seleccionamos para ayudar a su comprensión del mundo y seguir siendo competitivos a nivel mundial en research.” Google dijo que sus modelos A.I.“ están capacitados en algún contenido de YouTube,” que estaba permitido en virtud de acuerdos con creadores de YouTube, y que la compañía no usó datos de aplicaciones de oficina fuera de un programa experimental. Meta dijo que había “hecho inversiones agresivas” para integrar A.I.en sus servicios y que había miles de millones de imágenes y videos compartidos públicamente de Instagram y Facebook para entrenar a sus modelos.

Para los creadores, el creciente uso de sus obras por parte de las empresas de A.I.ha impulsado demandas sobre derechos de autor y licencias. Los Tiempos demandó a OpenAI y Microsoft el año pasado por usar artículos de noticias con derechos de autor sin permiso para entrenar a A.I.chatbots. OpenAI y Microsoft han dicho que usar los artículos fue “fair use,” o permitido bajo la ley de derechos de autor, porque transformaron las obras para un propósito diferente.

Más de 10,000 grupos comerciales, autores, empresas y otros presentaron comentarios el año pasado sobre el uso de obras creativas de A.I.modelos a la Oficina de Derechos de Autor, una agencia federal que está preparando una guía sobre cómo se aplica la ley de derechos de autor en la era A.I.

Justine Bateman, cineasta, ex actriz y autora de dos libros, dijo a la Oficina de Derechos de Autor que las modelos de AI estaban tomando contenido — incluyendo sus escritos y películas — sin permiso o pago.

“Este es el robo más grande en los Estados Unidos, punto,”, dijo en una entrevista.

‘Scale Es Todo Lo que Necesitas’

En enero de 2020, Jared Kaplan, físico teórico de la Universidad Johns Hopkins, publicó un papel innovador en A.I.que avivó el apetito por los datos en línea.

Su conclusión fue inequívoca: Cuantos más datos haya para entrenar a un modelo de lenguaje grande — la tecnología que impulsa los chatbots en línea — cuanto mejor funcionara. Al igual que un estudiante aprende más leyendo más libros, los modelos de idiomas grandes pueden identificar mejor los patrones en el texto y ser más precisos con más información.

“Todos estaban muy sorprendidos de que estas tendencias — estas leyes de escala como las llamamos — fueran básicamente tan precisas como lo que se ve en astronomía o física,” dijo el Dr. Kaplan, quien publicó el artículo con nueve investigadores de OpenAI. (Ahora trabaja en la A.I. start-up Anthropic.)

“Scale es todo lo que necesitas” pronto se convirtió en un grito de guerra para A.I.

Los investigadores han utilizado durante mucho tiempo grandes bases de datos públicas de información digital para desarrollar A.I., incluyendo Wikipedia y Common Crawl, una base de datos de más de 250 mil millones de páginas web recopiladas desde 2007. Los investigadores a menudo “limpiaron” los datos eliminando el discurso de odio y otro texto no deseado antes de usarlo para entrenar modelos A.I.

En 2020, los conjuntos de datos eran pequeños para los estándares actuales. Una base de datos que contiene 30.000 fotografías del sitio web de fotos Flickr se consideró un recurso vital en ese momento.

Después del Dr. Papel de Kaplanlans, esa cantidad de datos ya no era suficiente. Se convirtió en todo acerca de “ solo hacer las cosas realmente grandes,” dijo Brandon Duderstadt, director ejecutivo de Nomic, una compañía de AI en Nueva York.
Cuando se revela OpenAI GPT-3 en noviembre de 2020, se capacitó en la mayor cantidad de datos hasta la fecha — alrededor de 300 mil millones de tokens “, ” que son esencialmente palabras o palabras. Después de aprender de esos datos, el sistema generó texto con una precisión asombrosa, escribiendo publicaciones de blog, poesía y sus propios programas de computadora.

En 2022, DeepMind, un laboratorio de IA propiedad de Google, fue más allá. Probó modelos de 400 A.I. y varió la cantidad de datos de entrenamiento y otros factores. Los modelos de alto rendimiento utilizaron aún más datos que el Dr. Kaplan había predicho en su artículo. Un modelo, Chinchilla, fue entrenado en 1.4 billones de fichas.

Pronto fue superado. El año pasado, investigadores de China lanzaron un modelo A.I, Skywork, que fue entrenado en 3.2 billones de fichas de textos en Inglés y Chino. Google también presentó un sistema A.I, PaLM 2, que superó los 3,6 billones de tokens.

Transcribiendo YouTube
En Mayo, Altman Sam, él, el director ejecutivo de OpenAI, reconoció que las empresas de A.I.usarían todos los datos viables en Internet.

“Eso se acabará,” él dicho en un discurso en una conferencia de tecnología.

El Sr. Altman había visto el fenómeno de cerca. En OpenAI, los investigadores habían recopilado datos durante años, los limpiaron y los introdujeron en un vasto conjunto de texto para capacitar a los modelos lingüísticos de la empresa. Habían extraído el repositorio de códigos de computadora GitHub, aspirado bases de datos de movimientos de ajedrez y extraído de datos que describían las pruebas de la escuela secundaria y las tareas del sitio web Quizlet.

A fines de 2021, esos suministros se agotaron, dijeron ocho personas con conocimiento de la compañía, que no estaban autorizadas a hablar públicamente.

OpenAI estaba desesperado por obtener más datos para desarrollar su modelo A.I.de próxima generación, GPT-4. Entonces, los empleados discutieron la transcripción de podcasts, audiolibros y videos de YouTube, dijeron las personas. Hablaron sobre la creación de datos desde cero con los sistemas A.I. También consideraron comprar nuevas empresas que habían recopilado grandes cantidades de datos digitales.

OpenAI finalmente hizo Whisper, la herramienta de reconocimiento de voz, para transcribir videos y podcasts de YouTube, dijeron seis personas. Pero YouTube prohíbe a las personas no solo usar sus videos para aplicaciones “independent”, sino también acceder a sus videos por “cualquier medio automatizado (como robots, botnets o scrapers).”

Los empleados de OpenAI sabían que estaban entrando en un área gris legal, dijeron las personas, pero creían que entrenar a AI con los videos era de uso justo. El Sr. Brockman, presidente de OpenAIaia, figuraba en un trabajo de investigación como creador de Whisper. Él personalmente ayudó a reunir videos de YouTube y los alimentó con la tecnología, dijeron dos personas.

Brockman remitió las solicitudes de comentarios a OpenAI, que dijo que usa “numerosas fuentes” de datos.

El año pasado, OpenAI lanzó GPT-4, que se basó en las más de un millón de horas de videos de YouTube que Whisper había transcrito. El Sr. Brockman dirigió el equipo que desarrolló GPT-4.

Algunos empleados de Google sabían que OpenAI había cosechado videos de YouTube para obtener datos, dijeron dos personas con conocimiento de las compañías. Pero no detuvieron OpenAI porque Google también había usado transcripciones de videos de YouTube para entrenar a su A.I. modelos, dijo la gente. Esa práctica puede haber violado los derechos de autor de los creadores de YouTube. Entonces, si Google hizo un escándalo por OpenAI, podría haber una protesta pública contra sus propios métodos, dijo la gente.

Matt Bryant, portavoz de Google, dijo que la compañía no tenía conocimiento de las prácticas de OpenAI y prohibió el raspado o la descarga no autorizada de contenido de YouTube “ Google toma medidas cuando tiene una base legal o técnica clara para hacerlo, dijo.

Las reglas de Google le permitieron tocar los datos de los usuarios de YouTube para desarrollar nuevas características para la plataforma de video. Pero no estaba claro si Google podría usar los datos de YouTube para construir un servicio comercial más allá de la plataforma de video, como un chatbot.

Geoffrey Lottenberg, abogado de propiedad intelectual del bufete de abogados Berger Singerman, dijo que el lenguaje de Google sobre lo que podía y no podía hacer con las transcripciones de videos de YouTube era vago.

“Si los datos podrían usarse para un nuevo servicio comercial está abierto a interpretación y podría ser litigado,”, dijo.

A finales de 2022, después de que OpenAI lanzara ChatGPT y partiera una carrera en toda la industria para ponerse al día, los investigadores e ingenieros de Google discutieron tocar otros datos de usuario. Miles de millones de palabras se sentaron en Google Docs y otras aplicaciones gratuitas de Google. Pero las restricciones de privacidad de la compañía limitaron la forma en que podían usar los datos, dijeron tres personas con conocimiento de las prácticas de Google.

En junio, el departamento legal de Google pidió al equipo de privacidad que redactara un lenguaje para ampliar para qué podría usar la compañía los datos del consumidor, según dos miembros del equipo de privacidad y un mensaje interno visto por The Times.

A los empleados se les dijo que Google quería usar contenido disponible públicamente en Google Docs, Google Sheets y aplicaciones relacionadas para una variedad de productos A.I. Los empleados dijeron que no sabían si la compañía había capacitado previamente a A.I.en tales datos.

En ese momento, la política de privacidad de Google dijo que la compañía podría usar la información disponible públicamente solo para “ayudar a capacitar a los modelos de idioma de Google y crear características como Google Translate.”

El equipo de privacidad escribió nuevos términos para que Google pudiera aprovechar los datos de sus modelos “A.I.y crear productos y características como Google Translate, Bard y las capacidades de Cloud AI,”, que era una colección más amplia de tecnologías A.I.

“¿Cuál es el objetivo final aquí?” un miembro del equipo de privacidad preguntó en un mensaje interno. “¿Qué tan amplio vamos?”
En agosto, dijeron dos miembros del equipo de privacidad, presionaron a los gerentes sobre si Google podría comenzar a usar datos de versiones gratuitas de Google Docs, Google Sheets y Google Slides. No se les dieron respuestas claras, dijeron.

Sr. Bryant dijo que los cambios en la política de privacidad se habían hecho para mayor claridad y que Google no usó información de Google Docs o aplicaciones relacionadas para entrenar modelos de idioma “sin permiso explícito” de los usuarios, refiriéndose a un programa voluntario que permite a los usuarios probar características experimentales.

“No comenzamos a entrenar en tipos adicionales de datos basados en este cambio de idioma,”, dijo.

El debate en Meta
Mark Zuckerberg, director ejecutivo de Metaays, había invertido en A.I.durante años —, pero de repente se encontró atrás cuando OpenAI lanzó ChatGPT en 2022. Inmediatamente empujó a coincide y supera a ChatGPT, llamando a ejecutivos e ingenieros a todas horas de la noche para empujarlos a desarrollar un chatbot rival, dijeron tres empleados actuales y anteriores, que no estaban autorizados a discutir conversaciones confidenciales.

Pero a principios del año pasado, Meta había alcanzado el mismo obstáculo que sus rivales: no hay suficientes datos.

Ahmad Al-Dahle, vicepresidente de A.I generativa de Metaays, dijo a los ejecutivos que su equipo había utilizado casi todos los libros, ensayos, en inglés disponibles, poema y artículo de noticias en Internet para desarrollar un modelo, según grabaciones de reuniones internas, que fueron compartidas por un empleado.

Meta no podía coincidir con ChatGPT a menos que obtuviera más datos, dijo Al-Dahle a sus colegas. En marzo y abril de 2023, algunos de los líderes de desarrollo de negocios, ingenieros y abogados de la compañía se reunieron casi a diario para abordar el problema.

Algunos debatieron pagarle a $10 un libro por los derechos completos de licencia de los nuevos títulos. Discutieron la compra de Simon & Schuster, que publica autores como Stephen King, según las grabaciones.

También hablaron sobre cómo habían resumido libros, ensayos y otros trabajos de Internet sin permiso y discutieron chupar más, incluso si eso significaba enfrentar demandas. Un abogado advirtió de las preocupaciones de “ethical” sobre tomar propiedad intelectual de los artistas, pero se encontró con silencio, según las grabaciones.

Zuckerberg exigió una solución, dijeron los empleados.

“La capacidad que Mark está buscando en el producto es solo algo que actualmente no podemos ofrecer,” dijo un ingeniero.


Si bien Meta opera redes sociales gigantes, no tenía montones de publicaciones de usuarios a su disposición, dijeron dos empleados. Muchos usuarios de Facebook habían eliminado sus publicaciones anteriores, y la plataforma no era donde la gente escribía contenido de tipo ensayo, dijeron.

Meta también estaba limitado por los cambios de privacidad que introdujo después un escándalo de 2018 sobre compartir sus usuarios’ datos con Cambridge Analytica, una empresa de perfiles de votantes.

El Sr. Zuckerberg dijo en una reciente llamada de inversor que los miles de millones de videos y fotos compartidos públicamente en Facebook e Instagram son “más grandes que el conjunto de datos de Common Crawl.”

Durante sus discusiones grabadas, los ejecutivos de Meta hablaron sobre cómo habían contratado contratistas en África para agregar resúmenes de ficción y no ficción. Los resúmenes incluían contenido con derechos de autor “porque no tenemos forma de no recopilar eso,”, dijo un gerente en una reunión.

Los ejecutivos de Metaays dijeron que OpenAI parecía haber usado material con derechos de autor sin permiso. Me tomaría demasiado tiempo negociar licencias con editores, artistas, músicos y la industria de las noticias, dijeron, según las grabaciones.

“ Lo único que nos impide ser tan buenos como ChatGPT es, literalmente, solo volumen de datos, ” Nick Grudin, vicepresidente de asociación y contenido global, dijo en una reunión.

OpenAI parecía estar tomando material con derechos de autor y Meta podría seguir este precedente del mercado “, agregó ”.

Los ejecutivos de Meta acordaron apoyarse en una decisión judicial de 2015 que involucra al Gremio de autores versus Google, según las grabaciones. En ese caso, a Google se le permitió escanear, digitalizar y catalogar libros en una base de datos en línea después de argumentar que solo había reproducido fragmentos de las obras en línea y había transformado los originales, lo que lo hizo un uso justo.

Uso de datos para capacitar a A.I. Los sistemas, dijeron los abogados de Meta en sus reuniones, deberían ser de uso justo.

Al menos dos empleados expresaron su preocupación por el uso de la propiedad intelectual y no pagar a los autores y otros artistas de manera justa o en absoluto, según las grabaciones. Un empleado relató una discusión separada sobre los datos con derechos de autor con altos ejecutivos, incluido Chris Cox, director de productos de Metaaks, y dijo que nadie en esa reunión consideró la ética del uso de trabajos creativos de personas.

‘Synthetic’ Datos
El Sr. Altman de OpenAIaia tenía un plan para lidiar con la inminente escasez de datos.

Compañías como la suya, dijo en la conferencia de mayo, eventualmente entrenarían su I. A. en el texto generado por I. A. —, también conocido como datos sintéticos.

Desde un A.I. El modelo puede producir texto humano, el Sr. Altman y otros han argumentado, los sistemas pueden crear datos adicionales para desarrollar mejores versiones de sí mismos. Esto ayudaría a los desarrolladores a construir tecnología cada vez más poderosa y reducir su dependencia de los datos con derechos de autor.

“ Mientras pueda superar el horizonte de eventos de datos sintéticos, donde el modelo es lo suficientemente inteligente como para hacer buenos datos sintéticos, todo estará bien, ” dijo Altman.

AI. Los investigadores han explorado datos sintéticos durante años. Pero construir un sistema A.I que pueda entrenarse es más fácil decirlo que hacerlo. AI. Los modelos que aprenden de sus propias salidas pueden quedar atrapados en un bucle donde refuerzan sus propias peculiaridades, errores y limitaciones.

“Los datos que necesitan estos sistemas son como un camino a través de la jungla,” dijo Jeff Clune, un ex investigador de OpenAI que ahora enseña informática en la Universidad de Columbia Británica. “Si solo entrenan en datos sintéticos, pueden perderse en la jungla.”

Para combatir esto, OpenAI y otros están investigando cómo dos modelos A.I diferentes podrían trabajar juntos para generar datos sintéticos que sean más útiles y confiables. Un sistema produce los datos, mientras que un segundo juzga la información para separar lo bueno de lo malo. Los investigadores están divididos sobre si este método funcionará.

No obstante, los ejecutivos de A.I están avanzando.

“Debería estar bien,”, dijo Altman en la conferencia.
 

Suscribirme