Así convierte la IA de Alibaba fotos en vídeos hiperrealistas

EMO de Alibaba para pasar de imagen a vídeo

Alibaba

  • Alibaba ha sacado una IA que convierte fotos en vídeos hiperrealistas. 
  • Se llama EMO y representa un paso más en el tratamiento de imágenes por IA. 

La inteligencia artificial (IA) sigue ofreciendo herramientas y aplicaciones que desafían los límites de la creatividad y la tecnología, en este caso de la mano del gigante del comercio electrónico Alibaba. Los grandes no quieren perder el tren de la IA y en este caso ha sorprendido con EMO, una herramienta que convierte imágenes con vídeos hiperrealistas.

Estas herramientas están marcando un antes y un después en la generación de contenido multimedia, con implicaciones increíbles para unos y preocupantes para otros en los sectores audiovisuales.

Alibaba crea EMO, la IA revolucionaria

Alibaba, el gigante tecnológico chino, no es ajeno a las innovaciones disruptivas. Su más reciente creación, EMO, representa un salto cualitativo en el tratamiento de imágenes y audio para generar contenido en vídeo. 

EMO, acrónimo de Emote Portrait Alive, es una herramienta diseñada por el equipo de investigadores del instituto de inteligencia computacional de Alibaba. Su principal función es animar retratos fotográficos, permitiendo que las personas en las imágenes hablen o canten, todo ello mediante la combinación de una foto y una pista de audio. Los resultados son increíbles.

¿Cómo funciona EMO?

El proceso detrás de EMO es tan fascinante como complejo. A diferencia de técnicas anteriores, que requerían modelos 3D o puntos de referencia faciales, EMO adopta un enfoque directo de síntesis de audio a vídeo. Utiliza un modelo de difusión entrenado con más de 250 horas de vídeos, abarcando discursos, películas, programas de televisión y actuaciones musicales. 

Este enfoque permite a EMO captar no solo los movimientos faciales fluidos y expresivos, sino también las peculiaridades específicas de la identidad asociadas al habla natural. Si ves vídeos de demostración en YouTube, sorprende su realismo, con movimientos de párpados, de las cejas y voces muy realistas. 

Ventajas y aplicaciones

EMO tiene desde su capacidad para generar vídeos de alta calidad y realismo hasta la preservación de la identidad del retrato y su expresión. Esta herramienta abre un abanico de posibilidades para creadores de contenido, permitiendo revivir rostros de personas fallecidas o crear materiales educativos y de entretenimiento más atractivos. 

Desafíos éticos y futuro

Sin embargo, no todo es optimismo y aquí entra la lógica aplicación de revivir imágenes de personas fallecidas, además del potencial de EMO para suplantar identidades o difundir desinformación, plantea serios desafíos éticos. 

La capacidad de hacer que cualquier imagen hable o cante podría utilizarse de maneras no éticas, generando preocupaciones sobre la privacidad, la seguridad y la integridad de la información. Aunque la herramienta aún no está disponible para el público, ya hay debate respecto a estas implicaciones y se insta a establecer marcos éticos y legales para su uso.

Todavía no hay fecha sobre su lanzamiento y aplicación, pero mientras puedes sorprenderte, aunque ya igual estás curado de espanto, ante la capacidad de la inteligencia artificial para transformar la realidad de maneras antes inimaginables. Es un paso más, y cada día los hay nuevos, que confirman 2024 como el año de despegue y consolidación definitivos de la IA en nuestras vidas y en gran parte de los sectores económicos e industriales. 

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.