3 05 2022
Google Cloud ha introducido nuevos modelos de reconocimiento de voz para su API de voz a texto (STT). Los modelos mejoran la precisión para 23 idiomas y 61 configuraciones regionales compatibles con Google para asistentes de voz de terceros. Eso incluye el asistente de voz de Spotify integrado en el dispositivo Spotify Car Thing.
IA DE GOOGLE HABLA
La API STT de Google se ha disparado en popularidad desde su lanzamiento en 2017. Más de mil millones de minutos de voz cada mes son procesados por la API, según la compañía.
Los últimos modelos "conformadores" implementan una sola red neuronal para el reconocimiento de voz en lugar de múltiples modelos para el sonido, el lenguaje y la pronunciación. Es más eficiente y preciso que antes, incluso cuando es ruidoso o el entorno acústico no es ideal. Las mejoras son evidentes de inmediato, aunque ajustar el modelo conduce a un mejor rendimiento.
"Con la voz que continúa emergiendo como la nueva frontera en la interacción humano-computadora, muchas empresas pueden tratar de subir de nivel su tecnología y presentar a los consumidores sistemas de reconocimiento de voz que reconozcan de manera más confiable y precisa lo que dicen sus usuarios", escribió la distinguida científica françoise Beaufays del equipo de habla de Google al anunciar la actualización.
"Si está construyendo interfaces de control de voz donde los usuarios hablan con sus dispositivos y aplicaciones inteligentes, estas mejoras pueden permitir que sus usuarios hablen con estas interfaces de manera más natural y en oraciones más largas. Sin tener que preocuparse por si su discurso será capturado con precisión, sus usuarios pueden establecer mejores relaciones con las máquinas y aplicaciones con las que interactúan, y con sus negocios como la marca detrás de la experiencia".
Aunque solo se acaba de anunciar, Google Cloud ha estado probando los nuevos modelos con algunos clientes, incluido Spotify. La plataforma de transmisión se asoció con el gigante tecnológico para desarrollar la interfaz de asistente de voz en su dispositivo Car Thing. Los conductores pueden conversar con la IA diciendo: "Oye, Spotify".
"Spotify trabajó en estrecha colaboración con Google para llevar nuestra nueva interfaz de voz, 'Hey Spotify', a los clientes a través de nuestras aplicaciones móviles y Car Thing", dijo el jefe de hardware de tecnología de Spotify, Daniel Bromand. "Los aumentos en la calidad y especialmente la robustez del ruido de los últimos modelos, además del trabajo de Spotify en NLU e IA, son lo que hace posible que estos servicios funcionen tan bien para tantos usuarios".