20 01 2022
Nuevo algoritmo que aprende de audio, imagen y texto al mismo tiempo
El anuncio de Meta con respecto a nuevo algorítmo que será util por ejemplo en las gafas inteligentes
El aprendizaje autosupervisado, donde las máquinas aprenden observando directamente el entorno en lugar de que se les enseñe explícitamente a través de imágenes etiquetadas, texto, audio y otras fuentes de datos, ha impulsado muchos avances significativos recientes en IA.
Pero si bien las personas parecen aprender de manera similar, independientemente de cómo obtengan la información, ya sea usando la vista o el sonido, por ejemplo, actualmente existen grandes diferencias en la forma en que los algoritmos de aprendizaje autosupervisados aprenden de las imágenes, el habla, el texto y otros. modalidades.
Esta discrepancia ha sido una barrera significativa para aplicar los avances en el aprendizaje autosupervisado de manera más amplia. Debido a que un poderoso algoritmo diseñado para, por ejemplo, comprender imágenes no se puede aplicar directamente a otra modalidad, como el texto, es difícil impulsar varias modalidades al mismo ritmo.
Es por eso que Meta AI desarrolló y se complace en anunciar data2vec, el primer algoritmo autosupervisado de alto rendimiento que funciona para múltiples modalidades. Aplicamos data2vec por separado al habla, las imágenes y el texto y superó a los mejores algoritmos anteriores de un solo propósito para la visión y el habla por computadora y es competitivo en las tareas de PNL. También representa un nuevo paradigma de aprendizaje holístico autosupervisado, donde la nueva investigación mejora múltiples modalidades en lugar de solo una.
Tampoco se basa en el aprendizaje contrastivo o en la reconstrucción del ejemplo de entrada. Además de ayudar a acelerar el progreso en IA, data2vec nos acerca a la construcción de máquinas que aprenden sin problemas sobre diferentes aspectos del mundo que les rodea. Nos permitirá desarrollar una IA más adaptable, que creemos que podrá realizar tareas más allá de lo que pueden hacer los sistemas actuales.
Cómo funciona data2vec
Gran parte de la IA todavía se basa en el aprendizaje supervisado, que funciona exclusivamente con datos etiquetados. Pero simplemente no es posible recopilar datos etiquetados para todas las cosas que nos gustaría que hicieran las máquinas. Por ejemplo, si bien los investigadores han trabajado mucho en la creación de conjuntos de datos etiquetados a gran escala para el habla y el texto en inglés, no es factible hacer esto para los literalmente miles de idiomas que se hablan en el planeta.
La autosupervisión permite a las computadoras aprender sobre el mundo con solo observarlo y luego descubrir la estructura de las imágenes, el habla o el texto. Tener máquinas que no necesitan que se les enseñe explícitamente a clasificar imágenes o comprender el lenguaje hablado es simplemente mucho más escalable.
Hoy en día, la investigación sobre el aprendizaje autosupervisado casi siempre se centra en una modalidad en particular. Por lo tanto, los investigadores que trabajan en una modalidad a menudo adoptan un enfoque muy diferente al de los que trabajan en otra. Para el texto, los investigadores entrenan modelos para llenar espacios en blanco en oraciones. Los modelos de habla, sin embargo, necesitan aprender un inventario de los sonidos básicos del habla para poder predecir los sonidos que faltan. En la visión por computadora, los modelos a menudo se entrenan para asignar representaciones similares a una imagen en color de una vaca y la misma imagen al revés, por lo que asocia las dos mucho más de lo que lo haría con una imagen no relacionada, como la de un pato.
Los algoritmos también predicen diferentes unidades para cada modalidad: píxeles o fichas visuales para imágenes, palabras para texto e inventarios aprendidos de sonidos para el habla. Una colección de píxeles es muy diferente de una forma de onda de audio o un pasaje de texto, y debido a esto, el diseño del algoritmo se ha vinculado a una modalidad específica. Esto significa que los algoritmos siguen funcionando de manera diferente en cada modalidad.
Data2vec simplifica esto al entrenar modelos para predecir sus propias representaciones de los datos de entrada, independientemente de la modalidad. Al centrarse en estas representaciones, las capas de una red neuronal, en lugar de predecir tokens visuales, palabras o sonidos, un solo algoritmo puede funcionar con tipos de entrada completamente diferentes.
Esto elimina la dependencia de los objetivos específicos de la modalidad en la tarea de aprendizaje. La predicción directa de representaciones no es sencilla y requería definir una normalización robusta de las características para la tarea que sería confiable en diferentes modalidades.
Nuestro método utiliza una red de docentes para calcular primero las representaciones de destino a partir de una imagen, un fragmento de texto o una expresión de voz. Luego, enmascaramos parte de la entrada y repetimos el proceso con una red de estudiantes, que luego predice las representaciones latentes del maestro. El modelo de estudiante tiene que predecir representaciones de los datos de entrada completos aunque solo tenga una vista de parte de la información. La red de maestros es idéntica al modelo de estudiante pero con pesos ligeramente desactualizados.
Probamos el método en el popular punto de referencia de visión por computadora ImageNet, donde funcionó mejor que los métodos existentes para los tamaños de modelos populares.
Hacia máquinas que aprenden o
bservando el mundo que les rodea
Si bien el aprendizaje autosupervisado ha progresado mucho en
visión por computadoras, vídeos y otras modalidades individuales a través de diferentes objetivos de aprendizaje, el núcleo
ocurrencia de este enfoque es aprender de manera más general: la IA debería poder aprender a realizar muchas tareas diferentes, incluidas aquellas que son completamente desconocidas.
Si bien el aprendizaje autosupervisado ha progresado mucho en
visión por computadoras, vídeos y otras modalidades individuales a través de diferentes objetivos de aprendizaje, el núcleo
ocurrencia de este enfoque es aprender de manera más general: la IA debería poder aprender a realizar muchas tareas diferentes, incluidas aquellas que son completamente desconocidas.
Queremos una máquina que no solo reconozca a los animales que se muestran en sus datos de entrenamiento, sino que también se adapte para reconocer nuevas criaturas si le decimos cómo se ven. Data2vec demuestra que el mismo algoritmo autosupervisado puede funcionar bien en diferentes modalidades y, a menudo, mejor que los mejores algoritmos existentes. Esto allana el camino para un aprendizaje autosupervisado más general y nos acerca a un mundo en el que la IA podría usar videos, artículos y grabaciones de audio para aprender sobre temas complicados, como el fútbol o diferentes formas de hornear pan. También esperamos que data2vec nos acerque a un mundo donde las computadoras necesitan muy pocos datos etiquetados para realizar tareas. Dado que es difícil y, a veces, imposible recopilar ejemplos anotados (para entrenar modelos de reconocimiento de voz para miles de idiomas, por ejemplo), data2vec es un paso importante hacia una IA más general. Este proyecto complementa la investigación sobre modelo generales y esperamos que en el futuro podamos eliminar la necesidad de extractores de funciones específicos de la modalidad combinando estas dos líneas de trabajo.



