AudioLM: ¿conoces este nuevo sistema de Google?

El uso de la inteligencia artificial (IA) en diferentes áreas continúa revolucionando distintos procesos y las compañías continúan experimentando con sus ilimitados y sorprendentes alcances.

Recientemente, DALL-E, un programa de inteligencia artificial desarrollado por OpenAI, una organización sin fines de lucro dedicada a la investigación de IA fundada por Elon Musk y Sam Altman, se convirtió en la sensación de Internet gracias a su capacidad de crear imágenes únicas a partir de descripciones textuales.

Ha sido tan grande el éxito de este programa, que durante el evento Ignite de Microsoft, en el que la gigante de la tecnología da a conocer sus más recientes lanzamientos, se dio a conocer que una nueva versión, DALL-E 2, será agregada a su app Designer y a la herramienta “Image Creator” dentro del navegador Edge y del buscador Bing.

Por su parte, Meta, tomando como referencia el éxito de DALL-E, está a punto de lanzar una herramienta que funciona de manera similar pero va más allá, ofreciendo videos en formato de gif animado.

Continuando con esta línea, pero esta vez no a través de imágenes, sino por medio de archivos de sonido, Google desarrolló su propio sistema de IA que puede completar un clip de audio a partir de una muestra de unos cuantos segundos. Con el nombre de AudioLM, esta herramienta es capaz de seguir las pistas musicales, imitando a la perfección las voces humanas. (Lee también: Gamers, descubran los cambios de Twitch).

“Presentamos AudioLM, un marco para la generación de audio de alta calidad con consistencia a largo plazo. AudioLM asigna el audio de entrada a una secuencia de tokens discretos y proyecta la generación de audio como una tarea de modelado de lenguaje en este espacio de representación. Mostramos cómo los tokenizadores de audio existentes brindan diferentes compensaciones entre la calidad de la reconstrucción y la estructura a largo plazo, y proponemos un esquema de tokenización híbrido para lograr ambos objetivos”, señalaron en la presentación del proyecto.

Además de crear frases con coherencia y significado a partir de notas de voz, el sistema también ha sido desarrollado para crear composiciones musicales enteras a partir de una referencia auditiva de unos cuantos segundos.

La implementación de este programa representa una excelente oportunidad para personas con discapacidades del habla que podrán reemplazar la voz grabada en un audio por una distinta que se siente totalmente real. Asimismo, este sistema ofrece la posibilidad a los creadores de redes sociales de contar con una herramienta para generar bandas sonoras que acompañen los videos de manera realista y armónica.