Microsoft crea una herramienta para clonar cualquier voz: con solo escuchar un audio de 3 segundos, VALL-E es capaz de hablar como tú

10 ene. 2023 16:00h.

Un esqueleto con las Microsoft Hololens durante el CES 2023.
Reuters

Un equipo de investigadores de Microsoft ha compartido unas muestras de VALL-E, una herramienta basada en inteligencia artificial que es capaz de sintetizar cualquier tipo de voz escuchando un audio de 3 segundos.
VALL-E es capaz de imitar el ruido ambiental y, además, conseguir casi la misma emoción del interlocutor.

Microsoft ha comenzado 2023 apostando fuerte por ciertas herramientas de IA como ChatGPT, la cual añadirá al buscador Bing antes de abril para luchar contra el gigante de las búsquedas, Google. Ahora, su equipo de investigación está desarrollando a VALL-E.

Este nuevo modelo de IA de texto a voz es capaz de escuchar cualquier audio de tan solo 3 segundos, aprender la voz específica del interlocutor y sintetizar el audio para decir cualquier cosa que se te ocurra.

Algo parecido a FakeYou, una herramienta que se hizo famosa en internet a mitad del año pasado por imitar de forma bastante buena diferentes voces de personalidades célebres o personajes de ciencia ficción.

Por su parte, VALL-E utiliza un modelo de lenguaje de códec natural, como explican los investigadores. Esto significa que sigue el mismo que Meta desplegó en octubre de 2022, mediante un tipo de tecnología conocida como EnCodec.

Qué es ChatGPT y cómo funciona

Esta divide la información en pequeños componentes, denominados tokens, y usa los datos de entrenamiento de la IA para comparar lo que ya conoce con la utilización de esa voz concreta.

En definitiva, podría imitar a cualquier persona sin problema alguno, siempre y cuando tengas un audio de 3 segundos.

Curiosamente, Microsoft también ha utilizado una biblioteca de audio llamada LibriLight, que ha sido desarrollada por Meta, aunque contiene mayormente conversaciones de habla inglesa de más de 7.000 personas de la plataforma LibriVox.

La intención de los investigadores es, como ellos mismos aseguran, la de aprovechar esta IA para lograr una mejor calidad en las herramientas para pasar de voz a texto, en aplicaciones como WhatsApp, por ejemplo.

No obstante, también lanzan una advertencia ante el uso indebido de este tipo de tecnologías.

"Dado que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico", especifican.

"Para mitigar tales riesgos, es posible construir un modelo de detección para observar si un clip de audio ha sido sintetizado por VALL-E", agregan. "También pondremos en práctica los principios de IA de Microsoft cuando desarrollemos más los modelos".

Por último, como grandes cualidades VALL-E es capaz de sintetizar muestras de voz con el ruido ambiente y con un nivel sorprendente de emoción. Desgraciadamente, de momento no se pueden obtener ejemplos en castellano.

Habrá que ver si Microsoft utiliza este modelo en alguno de sus productos o, simplemente, es otro avance más en un año que promete ser el despegue definitivo de la inteligencia artificial.

Otros artículos interesantes:

Descubre más sobre Abraham Andreu, autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.

Etiquetas: