ByteDance presenta un modelo de IA que permite hablar al instante con la voz de otra persona y admite que puede utilizarse para cometer "fraude"

Kali Hays

| Traducido por:

29 ene. 2024 13:30h.

Los investigadores de ByteDance, la empresa matriz de TikTok, han desarrollado un modulador de voz vía streaming con inteligencia artificial. StreamVoice permite a un usuario hablar con cualquier otra voz y solo necesita "una locución" de esa voz.
La suplantación de identidad mediante inteligencia artificial es una práctica cada vez más frecuente.

La compañía tecnológica china ByteDance, propietaria de la popular red social TikTok, ha desarrollado una nueva forma de que la gente cambie inmediatamente su voz por la de otra persona utilizando tecnología de inteligencia artificial generativa.

La herramienta, llamada StreamVoice, todavía no está a disposición del público. Aun así, representa un ejemplo más del rápido desarrollo de la IA que permite suplantar de forma fácil y convincente la voz y la imagen de determinados perfiles públicos, lo que a menudo se conoce como deepfakes.

Durante las primeras semanas de 2024, algunas personas han utilizado la inteligencia artificial para suplantar la identidad de la estrella del pop Taylor Swift y del presidente de Estados Unidos Joe Biden.

Varios ingenieros de ByteDance y científicos de la Northwestern Polytechnical University, una universidad de China especialmente conocida por su colaboración con el ejército del país asiático, han sido los encargados de desarrollar StreamVoice. La Northwestern Polytechnical University no está afiliada a la Northwestern University de Estados Unidos.

Los investigadores afirman en un nuevo artículo académico que StreamVoice puede "convertir en tiempo real" la voz de un usuario en la de cualquier otra persona, siempre que ese usuario disponga de "una sola locución" de la voz que quiere imitar.

La salida se produce a la velocidad de una retransmisión en directo, con solo 124 milisegundos de latencia, según el artículo, que señala que hasta ahora la tecnología de conversión de voz por IA solo ha sido eficaz "en diferido". Los investigadores señalan que "los recientes avances en modelos lingüísticos" les han permitido desarrollar esta herramienta.

"Los experimentos demuestran la capacidad de StreamVoice para convertir el habla en streaming con un alto grado de similitud entre locutores conocidos y desconocidos, manteniendo al mismo tiempo un rendimiento comparable al de los sistemas de conversión de voz en diferido", detallan los desarrolladores.

El artículo publicado por los investigadores hace mención al gran modelo lingüístico de Meta, Llama, puesto que los investigadores han desarrollado StreamVoice utilizando "la arquitectura LLaMA".

También han utilizado el sistema de código abierto de la matriz de Facebook AudioDec, que Meta describe como un "punto de referencia plug-and-play para aplicaciones de códecs de audio". Los investigadores entrenaron su herramienta principalmente con conjuntos de voces en mandarín y un conjunto multilingüe que incluía inglés, finés y alemán, según el artículo.

Los responsables de StreamVoice no establecen cómo creen que debe utilizarse esta herramienta, aunque admiten que "puede conllevar riesgos potenciales de uso indebido con diversos fines, como la difusión de información falsa o el fraude telefónico", y sugieren denunciar a las autoridades competentes el uso ilegal de la tecnología de conversión de voz.

Los expertos en inteligencia artificial llevan años advirtiendo de la proliferación de los deepfakes a medida que ha ido mejorando la tecnología. Recientemente, una llamada falsa con un deepfake de Biden pedía a la gente que no fuese a votar a las elecciones primarias de Nuevo Hampshire para las presidenciales estadounidenses. Las autoridades de Nuevo Hampshire están investigando esta llamada.

Otros artículos interesantes:

Conoce cómo trabajamos en Business Insider.

Etiquetas: