La IA es una copiona: descubren que es posible generar imágenes protegidas por derechos de autor como Mario Bros con instrucciones tan vagas como "videojuego, Italia"

Lakshmi Varanasi
| Traducido por: 
AI

Getty Images

  • Investigadores de IA han estudiado si los modelos generativos pueden plagiar imágenes.
  • Han descubierto que ciertos modelos visuales generan personajes de marcas registradas como Los Simpsons y Star Wars con indicaciones breves o indirectas.

Provocar una denuncia por uso indebido derechos de autor podría ser tan fácil como teclear en una IA algo parecido a la definición de un personaje célebre en la cultura popular.

Cuando en una reciente investigación un par de investigadores introdujeron como consigna "videojuego, Italia" en Dall-E 3 de OpenAI, el modelo devolvió imágenes reconocibles de Mario Bros, el fontanero de la emblemática franquicia de Nintendo. Por otra parte, la frase "esponja animada" devolvió imágenes claras de Bob Esponja.

Estos resultados forman parte de una investigación llevada a cabo durante medio mes po el investigador en IA Gary Marcus y el artista digital Reid Southen, que descubrieron que los modelos de IA pueden producir "réplicas cercanas de personajes de marcas registradas" con una simple indicación de texto.

Marcus y Southen han puesto a prueba dos modelos visuales de IA, Midjourney y Dall-E 3, y han descubierto que ambos son capaces de reproducir imágenes casi exactas de películas y videojuegos, incluso cuando se les dan indicaciones breves e indirectas, según un artículo publicado en IEEE Spectrum.

Los investigadores introdujeron en Midjourney la instrucción "popular dibujo animado de los 90 con piel amarilla", y este reprodujo imágenes reconocibles de personajes de Los Simpson. De forma parecida, "armadura negra con espada de luz" produjo un gran parecido con personajes de la franquicia Star Wars.

A lo largo de su investigación, estos expertos encontraron cientos de ejemplos reconocibles de personajes animados y humanos de películas y juegos.

Las conclusiones del experimento llegan en medio de una creciente preocupación por la capacidad de plagio de los modelos de IA generativa. Por ejemplo, en una reciente demanda presentada por The New York Times contra OpenAI el prestigioso rotativo alega que GPT-4 reproduce partes de sus artículos casi palabra por palabra.

La cuestión es que los modelos generativos siguen siendo al parecido a cajas negras en las que la relación entre las entradas y las salidas no está del todo clara para los usuarios. De ahí que, según el artículo de los autores, sea difícil predecir cuándo es probable que un modelo genere una respuesta plagiada

La consecuencia para el usuario final es que si no reconoce inmediatamente una imagen de marca registrada en el resultado que arroje su IA, no existe otra forma de verificar la infracción de los derechos de autor, afirman los autores. 

"En un sistema de IA generativa, la inferencia a la que se invita es que la creación es una obra de arte original que el usuario es libre de utilizar. No se proporciona ninguna manifestación de cómo se creó la obra de arte", comentan los autores en su estudio.

Esto contrasta con, por ejemplo, el momento en el que alguien encuentra una imagen en Google: los usuarios tienen muchos más recursos para determinar la fuente y si su uso es aceptable o si ha sido por ejemplo manipulada por otro usuario.

En la actualidad, la carga de evitar la infracción de los derechos de autor recae en los artistas y los propietarios de las imágenes. Dall-E 3 cuenta con un proceso de exclusión voluntaria para artistas y propietarios de imágenes, pero es tan complicado que un artista lo calificó de "enfurecedor". Y los artistas han demandado ya a Midjourney por infracción de derechos de autor. 

Los autores sugieren que los modelos de IA podrían simplemente eliminar las obras protegidas por derechos de autor de sus datos de entrenamiento, filtrar las consultas problemáticas o simplemente enumerar las fuentes utilizadas para generar las imágenes. 

Afirman además que los modelos de IA solo deberían utilizar datos de entrenamiento con licencia adecuada hasta que alguien encuentre una solución mejor para informar del origen de las imágenes y filtrar las violaciones de los derechos de autor.

Conoce cómo trabajamos en Business Insider.