El 'boom' de la IA llega al podcast: los expertos creen que puede ayudar en la producción, pero ven difícil que reemplace la humanidad de los locutores

Un set de grabación de podcast.

Getty

  • Los contenidos generados por inteligencia artificial están atrayendo la atención de los usuarios, que comparten sus creaciones en redes sociales al sorprenderse ante la calidad de las mismas.  
  • Business Insider España ha hablado con 2 expertos del sector del podcast para averiguar cómo podrían afectar estas tecnologías a soportes como el del audio y la locución de voz. 

Las herramientas que utilizan inteligencia artificial (IA) para generar contenido han sufrido una especie de boom en 2022. El uso de IA parecía estar relegado a cuestiones mucho más relacionadas con la tecnología, pero distintas organizaciones han demostrado este año que su objetivo también pasa por asaltar el campo de la creatividad

Se ha podido ver en sectores como el dibujo o el arte visual, con herramientas como DALL-E, MidJourney o Stable Diffusion; la edición de vídeo, con propuestas como Make-A-Video; la redacción de textos, con ChatGPT; la edición fotográfica, con Lensa; e, incluso, la locución de voces "humanas", con iniciativas como Play.ht o VocaliD

En este último caso, Business Insider España ya habló con 2 actores de doblaje que en su momento señalaron que lo veían como algo lejano. Ambos profesionales aseguraron que no creían que la IA fuese acabar con su trabajo en un futuro cercano, pero que, a largo plazo, podría traer más precariedad a un sector ya de por sí inestable

Desde entonces han surgido nuevas propuestas relacionadas con la inteligencia artificial en el campo del audio y la locución de voces. Entre ellas, algunas tan llamativas como podcast.ai, un podcast producido enteramente por IA en el que se utiliza esta tecnología para mantener conversaciones que de otro modo serían imposibles, como en el caso del fundador de Apple, Steve Jobs.

Business Insider España ha entrevistado a 2 expertos en el sector del podcast, el fundador de iVoox, Juan Ignacio Solera, y el cofundador de Evoco (una productora de podcasts corporativos), Eduard Pascual, para hablar sobre cuáles son los desafíos que plantea la llegada de las inteligencias artificiales al podcast y la posible estandarización de estas en un futuro.

La llegada de la IA al podcast: podcast.ai

Play.ht es un programa que utiliza un generador de voces por inteligencia artificial para transformar texto a audio. "Convierte al instante texto en una voz natural y descárgala como archivo de audio MP3 o WAV", promociona su página web, que afirma disponer de más de 800 voces entre las que elegir en más de 130 idiomas

En septiembre de este año explicaron a través de su cuenta de Twitter que Peregrine, su modelo de conversión de texto a audio, había adquirido la capacidad de clonar voces con una calidad "sin precedentes" y publicaron un vídeo en el que se podían escuchar varios ejemplos, como John F. Kennedy, Tom Hanks o el mismísimo dueño de Twitter, Elon Musk.

Un mes más tarde anunciaron que Play.ht comenzaba un podcast que no era "como cualquier otro". Se trataba en este caso de un contenido totalmente generado por inteligencia artificial en el que se utilizaba Peregrine para producir las voces y GPT-3 —el programa de generación de texto por IA de OpenAI— para generar el contenido de la conversación. 

La Agencia de Supervisión de la IA se ubicará en A Coruña y la nueva Agencia Espacial Española lo hará en Sevilla

La iniciativa se llama podcast.ai, un programa que hasta ahora ha publicado 2 capítulos en los que se puede escuchar al presentador estadounidense, Joe Rogan, entrevistando al fundador de Apple, Steve Jobs, y al investigador del MIT, Lex Fridman, conversando con el físico teórico, Richard Feynman. 

El resultado, por el momento, no va más allá de la mera curiosidad de poder "escuchar" de nuevo a personas que desgraciadamente han fallecido antes de poder observar estas innovaciones, como Jobs y Feynman. Hay que reconocer que las voces que se escuchan son bastante realistas y los interlocutores interactúan bien entre sí, pero no deja de haber algo que no cuadra. 

El contenido de la conversación en sí es bastante creíble, pero en ocasiones las voces dejan ver las costuras de la situación. A veces, las risas de los "locutores" suenan inconexas con lo que acaban de decir o se escuchan con un deje mecánico que permite ver que las están generando algoritmos. De ahí, quizá, que el propio programa antes de comenzar pida cierta "discreción al oyente".

"Podemos observar que los resultados son imperfectos"

Al preguntarle al fundador de iVoox, una de las mayores plataformas de podcast en español, Juan Ignacio Solera, tiene claro que el resultado está lejos de alcanzar el que ofrece una persona humana. 

"Si nos basamos en los trabajos realizados en trabajos artísticos por IA, podemos observar que los resultados son imperfectos", señala Solera. "Se puede percibir tanto en las manos, que distan mucho de ser un resultado óptimo, como en la simetría de la cara o incluso algunos ojos, si la persona utiliza gafas y las fotos que le proporcionan tienen algún reflejo".

El fundador de iVoox sostiene que "en el campo de la voz nos encontraremos con una situación similar, las IA no van a ser capaces de darle los matices y el mismo grado de profundidad a la voz frente al que le dan los locutores o actores de doblaje".

Locución y doblaje con inteligencia artificial.

"Es posible que haya ciertos beneficios, sobre todo si queremos referenciar a un actor de doblaje que ya no está con nosotros", asegura Solera, refiriéndose a casos como los de Steve Jobs o Richard Feynman, a los cuales sería imposible entrevistar a día de hoy. "O incluso si realizas una ficción sonora en la que uno de los "personajes" es una computadora o quisieses integrar sonidos", apunta.

El fundador de iVoox cree que, en esos casos, "ameritaría el desarrollo, porque además acortaría y abarataría los gastos de producción", pero defiende que "es arriesgado". "Cuando trabajamos con una IA hacen falta varios intentos para conseguir un trabajo óptimo, si se realizase una producción donde la IA tuviese un papel largo y relevante esta podría jugarnos una mala pasada". 

Ante la pregunta de si los podcast de inteligencia artificial y los que elaboran locutores reales podrían convivir en un futuro, Solera responde que "ya ha habido casos similares". "Loquendo te permite convertir un texto en voz y en YouTube los más tímidos lo han usado para grabar los videos con otra voz, en TikTok por su parte existe la herramienta 'Voz superpuesta'", comenta.

En el caso de su compañía, el fundador de iVoox especifica que no se han implicado con el desarrollo de este tipo de tecnologías "tan innovadoras", pero que se posicionan junto al podcast independiente, "también si decide integrar las IA en sus proyectos y más si esto consigue darle valor añadido".

"Por muy bien hecha que esté, nunca será lo que el podcast desprende"

El cofundador de Evoco, una productora de podcasts corporativos que ha sido reconocida en el 2022 por el Ayuntamiento de Barcelona por su proyecto empresarial, Eduard Pascual, opina de forma similar a Solera. 

"Si con inteligencia artificial puedes hacer la voz de alguien que está muerto y que entreviste a alguien más... Pues bueno, entiendo que la experiencia es original, es un formato que puede hacer gracia", reconoce Pascual. "Es como cuando se han creado hologramas de artistas musicales fallecidos y han hecho conciertos". 

Ahora bien, distingue el cofundador de Evoco, que "la IA supla o amenace el trabajo de locutoras y locutores, evidentemente, nosotros no estamos de acuerdo". "Por muy bien hecha que esté esa inteligencia artificial... obviamente nunca será lo que el podcast desprende, que en este caso es humanidad".

 

Pascual hace referencia a la relación de cercanía que se desarrolla entre un locutor y su oyente en el formato podcast: "La naturalidad de una persona hablándote a tu oído y captando tu atención durante ese rato que tú le has dedicado...". Esto es algo que, según él, es difícil que se consiga con una voz generada por inteligencia artificial, por muy bien hecha que esté

"Somos un país donde hay muchísimos profesionales de la voz, en el ámbito del doblaje, en el ámbito de los audiolibros, en el ámbito publicitario, incluso en el mundo de la locución, en el caso tanto de la radio como del podcast", expresa el cofundador de la productora de podcast. "Entonces claro, yo en ese aspecto no comparto mucho que exista una tecnología para suplir a estos profesionales".

Pese a mostrar cierto escepticismo con la aplicación de la IA a la locución de voz, Pascual sí que ve con buenos ojos su utilización en el campo de la producción sonora

"Adobe ha creado una herramienta que mediante IA ayuda a mejorar la calidad del sonido de las grabaciones de los podcast. Es como una herramienta para la edición y para mejorar la calidad del sonido de las grabaciones", explica, refiriéndose a la eliminación de ruidos indeseados. "En ese aspecto sí que la inteligencia artificial nos puede ayudar mucho a que el resultado final salga impecable".

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.