La IA de Microsoft te hará políglota: el nuevo desarrollo de VALL-E permite hablar en otro idioma con tu voz y tus emociones

IA conversacional

Getty Images

  • Microsoft no solo se centra en OpenAI y ChatGPT: también en la investigación y en desarrollar avances para VALL-E, su IA que permite pasar de texto a voz.
  • VALL-E X permitirá que los usuarios se comuniquen en otros idiomas con su propia voz, conservando la emoción (divertida, enfadada, neutral...) y el entorno acústico.

La inteligencia artificial (IA) y ChatGPT están de moda y acaparan buena parte de la actualidad informativa en las últimas semanas, tanto por sus sorpresas perturbadoras y sus posibles riesgos como por sus logros y descubrimientos en diferentes campos, desde aumentar la productividad hasta escribir un libro y revolucionar el mundo del arte.

Por supuesto, también en el terreno del lenguaje, donde la IA ha ido aprendiendo a manejarse en hasta 200 idiomas, desentrañar lo que dice la letra de los médicos e incluso traducir jeroglíficos del antiguo Egipto en iniciativas impulsadas por gigantes corporativos como Meta o Google.

Es la próxima gran revolución tecnológica, según Bill Gates, fundador de Microsoft, empresa que ha financiado OpenAI y busca sacar provecho de su éxito. En paralelo, la compañía tecnológica se centra también en la investigación y en desarrollar avances para VALL-E, su IA que permite pasar de texto a voz, y viceversa.

Ya en enero de este año desveló una muestra de lo que puede conseguir esta herramienta, capaz de sintetizar cualquier tipo de voz con solo escuchar un audio de 3 segundos, así como de imitar el ruido ambiental y conseguir casi la misma emoción del interlocutor.

Los actores de doblaje creen que la inteligencia artificial no acabará con su trabajo, pero asumen que traerá más precariedad al sector

VALL-E utiliza un modelo de lenguaje de códec natural, por lo que sigue el mismo que Meta desplegó en octubre de 2022, mediante un tipo de tecnología conocida como EnCodec. Este divide la información en pequeños componentes (tokens) y usa los datos de entrenamiento de la IA para comparar lo que ya conoce con la utilización de una voz concreta.

En resumen: no solo puede imitar la voz de una persona, sino que también permitirá que los usuarios se comuniquen en otros idiomas con su propia voz, aunque no tengan ningún conocimiento previo de estos; todo ello, además, representando diferentes emociones, como recoge Interesting Engineering y se explica en la demo compartida.

"Los resultados experimentales demuestran que puede generar habla de alta calidad en el idioma de destino a partir de un único enunciado en el idioma de origen, conservando la voz, la emoción y el entorno acústico del hablante invisible. Además, VALL-E X alivia eficazmente los problemas de acento extranjero, que pueden controlarse mediante un identificador de idioma", afirman los autores.

Si bien aún no está disponible para el público, en la muestra se pueden observar ejemplos de cómo la IA de Microsoft ha traducido del chino al inglés y del inglés al chino, a partir de distintas muestras de texto y voz y con una variedad de acentos y emociones: neutral, de forma divertida, con somnolencia, desde el enfado o con disgusto.

Sin embargo, no todo es positivo, y los propios autores advierten de posibles riesgos: "Dado que VALL-E X puede sintetizar habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como la suplantación de la identificación de la voz o la suplantación de un hablante específico". 

"Realizamos los experimentos bajo el supuesto de que el usuario acepta ser el hablante objetivo en la síntesis del habla. Si el modelo se generaliza a hablantes no identificados en el mundo real, debería incluir un protocolo que garantice que el hablante aprueba el uso de su voz y de un modelo de detección de voz sintetizada", recomiendan.

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.