OpenAI habría usado más de un millón de horas de vídeos de YouTube para entrenar GPT-4, el modelo de IA de ChatGPT

Sam Altman, CEO de OpenAI.
Sam Altman, CEO de OpenAI.

Reuters

  • La procedencia de la información que se ha utilizado para entrenar modelos de IA tan llamativos como ChatGPT o Midjourney ha sido puesta en tela de juicio, llegando incluso a ser denunciada ante los tribunales por cuestiones de copyright
  • Al parecer, algunas empresas como OpenAI habrían entrenado sus chatbots de inteligencia artificial con "más de un millón de horas de vídeos de YouTube", lo que podría suponer una violación de las políticas de la plataforma de vídeo de Google.

Uno de los flecos que ha generado más suspicacia con respecto a la explosión de popularidad que ha vivido en los últimos meses la inteligencia artificial generativa ha sido la procedencia de los datos que han utilizado las compañías tecnológicas para entrenar a sus respectivas herramientas y chatbots. 

Antes incluso de que saliese al mercado ChatGPT (hace ya casi un año y medio), numerosos artistas gráficos habían denunciado que los chatbots de IA que servían para "crear" imágenes —como DALL·E, Midjourney o Stable Diffusion— estaban recopilando sus obras para generar imágenes basadas en sus respectivos estilos artísticos. 

Cuando la herramienta desarrollada por OpenAI e impulsada por Microsoft llegó al mercado, ocurrió lo propio con escritores tan prestigiosos como Margaret Atwood, Dan Brown y George R. R. Martin; con medios de comunicación como el New York Times; e, incluso, con algunos desarrolladores y expertos en programación

Las propias empresas de inteligencia artificial han reconocido que utilizan bots araña para recopilar información que se publica en internet, una técnica que en inglés se conoce como scraping y que es empleada por gigantes como Google para indexar los contenidos que aparecen en su motor de búsqueda. 

Sam Altman, director ejecutivo de OpenAI.

"Han escaneado internet, se han nutrido de la información volcada por todos", resumía hace un año Marc Almeida, programador y experto en ciberseguridad, en una entrevista para Business Insider en la que denunciaba la forma en la que estas compañías habían utilizado "un paradigma de acción yanqui": "Move fast and break things, que la traducción al castellano sería: 'Más vale pedir perdón que permiso'".

En esa dirección apunta la última información que se ha publicado con respecto a la desarrolladora de ChatGPT. Según parece, tal y como había advertido la propia YouTube en relación a un artículo del medio The Information, OpenAI habría utilizado los vídeos de la plataforma propiedad de Google para entrenar los modelos de IA que se esconden detrás de sus chatbots.

Así lo ha recogido The Verge, que se ha hecho eco de un extenso reportaje publicado este fin de semana por el New York Times en el que se informa de que la startup impulsada por Microsoft habría utilizado su modelo de transcripción de audio, Whisper, para transcribir más de un millón de horas de vídeos de YouTube con el objetivo de entrenar GPT-4.

Al parecer, OpenAI habría tenido constancia de que esta práctica era legalmente cuestionable, pero consideraba que se trataba de un uso legítimo de ese contenido. Greg Brockman, el presidente de OpenAI (que estuvo a punto de abandonar la empresa junto a Sam Altman en noviembre), participó personalmente en la recopilación de los vídeos que se utilizaron, según el New York Times.

 

Lindsay Held, portavoz de la desarrolladora de ChatGPT, ha declarado a The Verge que la startup conserva conjuntos de datos "únicos" para cada uno de sus modelos, con el objetivo de "ayudar a su comprensión del mundo" y mantener su competitividad en la investigación global. 

Held ha añadido que OpenAI utiliza "numerosas fuentes, incluidos datos disponibles públicamente y asociaciones para datos no públicos", y que está estudiando la posibilidad de generar sus propios datos sintéticos.

Algunos analistas, como el profesor de la Universidad Monash (Australia), Mark Andrejevic, han señalado que esto demuestra que "no solo los autores o artistas conocidos alimentan las bases de datos. Es cualquiera que haya publicado algo en internet. "Estos sistemas representan la captura de nuestra producción cultural y social colectiva: deberían ser de propiedad y control públicos", ha reclamado Andrejevic. 

Por su parte, el periodista del New York Times, Mike Isaac, ha indicado que Meta, la matriz de Facebook, Instagram y WhatsApp, "ha mantenido este mismo tipo de discusiones", "incluida la idea de adquirir la editorial Simon and Schuster para escanear su vasto catálogo de libros". Florian Mueller, analista y consultor de Microsoft, ha anticipado con cierta sorna que es probable que alguien esté preparando ya "una demanda colectiva de youtubers".

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.