Una startup especializada en IA generativa usa la voz de un actor que falleció hace 10 años para que 'siga' narrando los audiolibros más recientes

El actor Edward Herrmann, famoso por su papel de abuelo en 'Las chicas Gilmore'.

Reuters

  • Gracias a la inteligencia artificial generativa, el actor Edward Herrmann, fallecido en 2014 —hacía el papel de abuelo en Las chicas Gilmore—, le pone voz a los audiolibros más recientes. 
  • VALL-E es una IA de Microsoft capaz de imitar a cualquier persona sin problema alguno, siempre y cuando tenga un audio de 3 segundos.

Si escuchas el nombre de Edward Herrmann, puede que no te suene de nada. Si te dicen que era el actor que interpretaba al abuelo de Las chicas Gilmore, seguro que mucha más gente lo conoce. Además de actor, Herrmann fue un prolífico narrador de audiolibros. Murió en 2014, pero, gracias a la inteligencia artificial, su voz es la que se sigue escuchando en los audiolibros más recientes. 

En concreto, apuntan en The Wall Street Journal (WSJ), el último trabajo como narrador del 'abuelo Gilmore' ha sido generado por la startup de IA DeepZen. Esta compañía tuvo acceso a grabaciones anteriores de Herrmann, tras obtener el permiso de su familia. 

 

Desde la empresa afirman que son capaces de reproducir sonidos y entonaciones idénticas a las que hubiera hecho el narrador. 

Para Rory Herrmann, hijo del actor, que aseguró haberse sorprendido mucho al escuchar la voz de su padre, esta es una buena manera de mantener su legado. 

La inteligencia artificial generativa

Esta, explican en gue gracias a la inteligencia artificial Egenerativa, que tan de moda está con la irrupción de ChatGPT

Ésta, explican en IEBS Business School, forma parte de la categoría de machine learning y se trata de una forma de aprendizaje automático capaz de crear contenido único y nuevo, desde música y arte hasta mundos virtuales de todo tipo, pasando por texto, imágenes, voz, código e incluso vídeos. 

Un GPT, agregan, es un tipo de modelo de Logic learning machine, que utiliza el deep learning para generar textos similares a los que crean los humanos.

Se denominan "generativos" porque pueden generar texto nuevo en función de la entrada que reciben; "preentrenados" porque se entrenan en un gran corpus de datos de texto antes de ajustarlos para tareas específicas, y "transformadores" porque utilizan una arquitectura de red neuronal basada en transformadores para procesar texto de entrada y generar texto de salida.

Mejor para obras de no ficción

Cada vez que se produce un avance tecnológico, y más si tiene la capacidad de la inteligencia artificial generativa, surge el debate de los empleos humanos que puede sustituir.

Scott Brick, que ha narrado más de 1.000 audiolibros, sostiene en declaraciones a WSJ que en estas voces hay realismo, pero no alma, por ello, cree que es un sistema más adecuado para obras de no ficción. 

¿Es ChatGPT seguro? Así es como los ciberdelincuentes están aprovechando la IA

En el mismo medio, Melissa Papel, una actriz parisina, relató que grabó 8 horas de contenido para DeepZen. Sabía que iban a usar su voz para enseñarle al software a hablar como un humano, pero no se dio cuenta, asevera, de que podrían utilizarla para crear palabras que ella no había pronunciado.

DeepZen ya ha trabajado con más de 30 actores profesionales a los que paga una tarifa fija más un variable que depende de los ingresos generados. Desde la compañía aseguran que han rubricado acuerdos con 35 editoriales, tanto en Estados Unidos como en el extranjero.

VALL-E de Microsoft

Quien también está apostando fuerte por la IA generativa es Microsoft. De ahí que están desarrollando VALL-E, un nuevo modelo de inteligencia artificial de texto a voz, que es capaz de escuchar cualquier audio de tan solo 3 segundos, aprender la voz específica del interlocutor y sintetizar el audio para decir cualquier cosa que se te ocurra.

La nueva creación de Microsoft, como ya se detalló en Business Insider España, utiliza un modelo de lenguaje de códec natural. Esto significa que sigue el mismo que Meta desplegó en octubre de 2022, mediante un tipo de tecnología conocida como EnCodec.

Esta divide la información en pequeños componentes, denominados tokens, y usa los datos de entrenamiento de la inteligencia artificial para comparar lo que ya conoce con la utilización de esa voz concreta. En definitiva, podría imitar a cualquier persona sin problema alguno, siempre y cuando tenga un audio de 3 segundos.

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.