Entrenan a un algoritmo de IA para que reconstruya las facciones de personas solo a partir de su voz

A la izquierda, la imagen original; a la derecha, la reconstrucción a partir de su voz de su cara.
A la izquierda, la imagen original; a la derecha, la reconstrucción a partir de su voz de su cara.

MIT

Si alguna vez te has preguntado cómo es la cara de una persona de la que solo has oído su voz, no estás solo. La ciencia ha combinado recientemente las tecnologías de Inteligencia Artificial (IA) y aprendizaje automático para crear una herramienta automática capaz de hacerlo.

Un grupo de investigadores del Instituto de Tecnología de Massachusetts (MIT), en Estados Unidos, ha enseñado a un algoritmo de IA a reconstruir rostros de personas únicamente a partir de archivos de audio de su voz.

El laboratorio de Ciencias Informáticas e Inteligencia Artificial del MIT (MIT CSAIL) publicó en 2019 durante una conferencia de visión computerizada su herramientaSpeech2Face, o habla a cara, en inglés.

A través de un estudio académico, los investigadores han querido analizar hasta qué punto puede inferirse la cara de una persona solo conociendo su voz.

Los expertos han reconstruido los rasgos faciales de seres humanos con fragmentos cortos de audio. Y de hecho, han descubierto la existencia de correlaciones, en forma de parecidos razonables, entre los rostros humanos generados por los algoritmos y los de las personas reales que prestaron su voz.

Una aplicación es capaz de convertir fotos dañadas en imágenes de alta calidad gracias a la inteligencia artificial

Para ello, han diseñado una red neuronal entrenada por aprendizaje profundo con los vídeos de millones de personas hablando en Internet y en YouTube. El algoritmo diseña una serie de correlaciones entre la voz y la cara de las personas, que posteriormente usará para la reconstrucción facial.

Concretamente, la investigación de MIT se centra en definir parámetros del hablante tales como su etnia, su edad y su sexo. Esto se ha realizado con técnicas no supervisadas, aunque posteriormente los expertos han evaluado en qué grado las imágenes resultantes se parecían a los hablantes.

Los autores del estudio han reconocido una serie de consideraciones éticas en el estudio, en especial centradas en el sesgo de los vídeos que han utilizado para entrenar al algoritmo de IA. Se trata de vídeos educativos extraídos de fuentes como YouTube que no representan de forma equitativa a la población mundial, en especial determinadas razas.

Así, como admiten los propios investigadores, el idioma en que habla la persona y su acento determina el aspecto final, pero pueden ocurrir déficits como que hable un idioma no incluido en la base de datos, o que el color del pelo esté equivocado en muchos casos.

Por ello, los autores han recomendado que, antes de aplicar alguno de las herramientas desarrolladas en el estudio, se analice al fondo las implicaciones éticas y si se extienden a poblaciones más amplias que a la de la muestra.

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.