La inteligencia artificial capaz de generar vídeo a partir de texto ya existe: así funciona Make-A-Video de Meta

Algunos ejemplos de vídeos generados en Make-A-Video.
Algunos ejemplos de vídeos generados en Make-A-Video.

Meta

Parecía cuestión de tiempo que la generación de imágenes por inteligencia artificial (IA) diese el salto al vídeo, pero han sido los investigadores de Meta —matriz de Facebook, Instagram o WhatsApp— quienes han dado con una herramienta capaz de llevar a cabo esta labor: Make-A-Video.

Tecnologías como Craiyon, DALL-E o Stable Diffusion han dejado ver el abanico de posibilidades que ofrece la utilización de IA en la creación de imágenes digitales. 

Desde combinaciones imposibles, como una Torre Eiffel aterrizando en la luna, hasta la oportunidad de descubrir qué es lo que habría detrás de famosas pinturas, como La joven de la perla de Johannes Vermeer, pasando por los peligros que pueden traer consigo estas tecnologías; las posibilidad que ofrecen parecen ilimitadas. 

 

Tanto es así que detrás de algunas de estas herramientas se encuentran compañías como OpenAI,  empresa cofundada por Elon Musk que ya ha desarrollado propuestas como un software capaz de escribir y programar como una persona

Aunque la llegada de la IA a otros sectores creativos o artísticos, como el de la interpretación y la locución de voz, no se contempla como una posibilidad cercana, en el caso del vídeo —con el desarrollo que estaba teniendo en el campo de la imagen— era cuestión de tiempo. 

Make-A-Video tú mismo

En este caso han sido los investigadores de Meta quienes han lanzado Make-A-Video, una herramienta que, por medio de IA y aprendizaje automático, combina imágenes estáticas y les aporta movimiento al recibir una búsqueda de texto. 

Make-A-Video funciona gracias a la implementación de 2 técnicas de aprendizaje automático. 

Por un lado, la ya conocida "difusión" de imágenes, una técnica que crea estéticas visuales a partir de la eliminación de "ruido" en los estímulos que han sido seleccionados por los desarrolladores. Por otro, un entrenamiento no supervisado en el que la herramienta examina por sí misma y sin la intervención humana un montón de contenido en vídeo sin etiquetar.

A través de la primera técnica, la herramienta aprende a identificar cómo funcionan las imágenes realistas y, a través de la segunda, a generar la secuencia de fotogramas que caracteriza al formato audiovisual. 

Los actores de doblaje creen que la inteligencia artificial no acabará con su trabajo, pero asumen que traerá más precariedad al sector

"Sienta un nuevo precedente en la conversión de texto a imágenes en movimiento", sostienen sus desarrolladores, que defienden su resolución espacial y temporal, su fidelidad al texto y su calidad como factores diferenciales. 

Y, aunque es cierto que los resultados son bastante sorprendentes, como señalan en TechCrunch, hay algo raro en los vídeos que se generan. Muchos tienen algo que provoca cierto desasosiego, como ocurre en ocasiones con la animación generada por stop-motion. A veces es la forma de moverse de los objetos y otras es la manera en la que unos cuerpos se funden con otros

Otra funcionalidad de Make-A-Video permite partir de una imagen o un vídeo preexistentes para generar distintas variaciones. Esta función es similar a la que ya existe en otras herramientas como DALL-E y en este caso los resultados que ofrece sí que resultan más realistas.

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.