Se acabaron las bromas: La voz de Google dejará de imitar la de un robot

No estamos tan lejos de un futuro en el que podamos conocer a Dolores Abernathy.
No estamos tan lejos de un futuro en el que podamos conocer a Dolores Abernathy.

¿Eres capaz de distinguir una voz humana de una generada por ordenador? A día de hoy parece relativamente sencillo hacerlo debido al inconfundible tono robótico que tienen los dispositivos que utilizamos en nuestro día a día como el GPS del coche o el asistente inteligente de nuestro teléfono móvil.

Sin embargo, Google acaba de demostrar que ya es prácticamente imposible distinguir entre una voz "real" de una persona y otra generada por ordenador. Así ha presentado el gigante de Mountain View su nuevo sistema de dictado por voz, denominado Tacotron 2, que según el trabajo de investigación de sus creadores -pendiente aún de revisión por pares- presume de una precisión prácticamente humana a la hora de imitar a un ser humano leyendo un texto.

El sistema no es más que la segunda generación de esta tecnología de Google, que funciona con redes neuronales profundas en otro ejemplo de cómo está cambiando ya nuestras vidas la inteligencia artificial. En primer lugar, el sistema traduce el texto a un espectograma, una manera visual de representar las frecuencias de onda a lo largo del tiempo, lo que le permite tener un "esquema" de lo que tiene que decir.

A continuación ese diagrama pasa a WaveNet, un sistema salido también del laboratorio de inteligencia artificial de Google DeepMind, que lee ese diagrama y lo "traduce" en sonidos imitando la voz humana. Durante las pruebas el nuevo modelo de Google ha conseguido una puntuación de 4.53 sobre 5 en el MOS (Mean Opinion Score), una cifra que se sitúa extremadamente cerca de lo que se exige en una locución grabada por una persona: 4.58

Puedes probar con los siguientes cuatro ejemplos. En cada uno de ellos hay un archivo en el que se puede escuchar a una mujer leyendo una frase y otro archivo en el que es la voz artificial quien dice las mismas palabras, ¿cuál es cual?

Ejemplo 1: "That girl did a video about Star Wars lipstick."

Ejemplo 2: “She earned a doctorate in sociology at Columbia University.”

Ejemplo 3: “George Washington was the first President of the United States.”

Ejemplo 4: “I'm too busy for romance.”

A diferencia de lo que sucede con otras investigaciones llevadas a cabo por el departamento de inteligencia artificial de Google, esta tecnología (que de momento solo es capaz de imitar la voz femenina) se puede utilizar prácticamente desde ya para -por ejemplo- mejorar el actual sistema de voz artificial del asistente inteligente de Google que está presente en los móviles Android.

Claro que existen otras aplicaciones todavía más interesantes desde el punto de vista empresarial en una carrera en la que por ejemplo también está metida de lleno Adobe y que plantea algunos interrogantes éticos: ya no estamos nada lejos de que una máquina sea capaz de "falsificar" una voz determinada, lo que significa que ya no hará falta que un actor locute en un estudio de grabación la frase de un anuncio o las líneas de una película; bastará con que el ordenador procese su voz y hable como si fuera él.

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.