El misterio de OpenAI: unos vídeos de YouTube, el estrangulamiento de Google y los datos de entrenamiento de la IA

Alistair Barr,
| Traducido por: 
Mira Murati, directora de Tecnología de OpenAI.
Mira Murati, directora de Tecnología de OpenAI.

Patrick T. Fallon/Getty

  • Muchos expertos de la comunidad de la inteligencia artificial creen que OpenAI utiliza vídeos de YouTube para entrenar modelos de IA generativa. 
  • Para ello, la desarrolladora de ChatGPT y DALL·E tendría que descargar grandes cantidades de vídeos de la plataforma de Google. 
  • Sin embargo, la firma de Mountain View limita la descarga de grandes volúmenes de contenido de YouTube. 

La comunidad de expertos en inteligencia artificial tiene la sospecha de que OpenAI, la desarrolladora de populares herramientas de IA generativa como ChatGPT o DALL·E, está utilizando grandes cantidades de vídeos procedentes de YouTube para entrenar sus grandes modelos lingüísticos (LLM, por sus siglas en inglés), incluida su nueva herramienta, el generador de vídeos Sora.

A estas alturas es casi un secreto a voces. La gran pregunta es cómo accede OpenAI a suficiente contenido de la plataforma de vídeo de Google para que esto funcione.

YouTube, propiedad de Alphabet (la matriz de Google), prohíbe el scraping —o raspado de datos— de sus vídeos mediante bots y otros métodos automatizados, así como las descargas con fines comerciales.

El gigante tecnológico también estrangula los intentos de descargar grandes volúmenes de datos de vídeo de YouTube. Las quejas al respecto llevan años apareciendo en la plataforma de programación GitHub y en Reddit. Los usuarios afirman que los intentos de descargar un solo vídeo de YouTube son tan lentos que tardan horas en completarse.

La desarrolladora de ChatGPT necesita ingentes cantidades de texto, imágenes y vídeos para entrenar sus modelos de inteligencia artificial. Esto significa que la startup impulsada por Microsoft debe de haber descargado de algún modo enormes volúmenes de contenido de YouTube o haber accedido a estos datos de algún modo que eluda las limitaciones de Google.

La respuesta de OpenAI

El contenido de YouTube está disponible online de forma gratuita, por lo que descargar pequeñas cantidades con fines de investigación parece inofensivo. En cambio, aprovechar millones de vídeos para crear nuevos y potentes modelos de IA podría ser algo totalmente distinto. The Information ha publicado que OpenAI utilizó vídeos de YouTube para entrenar un LLM llamado Whisper.

Business Insider ha preguntado a la desarrolladora de ChatGPT acerca de si ha descargado vídeos de YouTube a gran escala y si ha utilizado este contenido como datos para el entrenamiento de modelos de inteligencia artificial. También le ha preguntado a OpenAI acerca de las limitaciones de Google a las descargas de grandes volúmenes de vídeos de YouTube.

AI Prompts

"El entrenamiento de Sora incluyó material de fuentes con licencia, así como contenido disponible públicamente en internet", ha respondido un portavoz de la startup, que se ha negado a responder a las preguntas concretas de este medio de comunicación.

Business Insider también ha preguntado a Google acerca de todo esto, pero la empresa de búsquedas online se ha negado a hacer declaraciones.

Una carrera por los datos de calidad

La rápida aparición de la IA generativa ha desencadenado una carrera mundial por conseguir datos de alta calidad para entrenar los modelos en los que se basan herramientas como ChatGPT o Copilot, de Microsoft. Por el momento todavía no ha entrado en vigor una regulación que delimite lo que es legal, ético o incluso una buena práctica en este nuevo reino tecnológico.

Acceder a vídeos de YouTube de forma que pueda violar las condiciones de servicio de Google probablemente no sea ilegal. Muchos años de jurisprudencia y de doctrina del fair use han establecido el derecho a utilizar libremente los contenidos online de muchas maneras diferentes. 

Google, OpenAI y otras compañías tecnológicas sostienen actualmente que el uso de contenidos protegidos por derechos de autor para el entrenamiento de modelos de inteligencia artificial también es legal. Los organismos reguladores o los tribunales internacionales todavía no han tomado una decisión al respecto.

Raspado de datos de comercio electrónico

Así pues, las empresas de IA se apresuran a acumular datos de entrenamiento de alta calidad como sea. Una persona familiarizada con las operaciones de OpenAI ha declarado a este medio de comunicación que la startup encarga a un equipo muy vigilado la adquisición de datos de entrenamiento y que internamente está mal visto preguntar cómo se obtienen exactamente esos datos.

Un investigador experimentado en inteligencia artificial de otra compañía compara la situación de OpenAI y YouTube con otra que ya se ha dado en el mundo de la tecnología en la que las reglas del juego no se establecen o directamente se ignoran.

En el comercio electrónico, es habitual que las empresas extraigan los precios de los productos de los listados de sus competidores. Aunque esto está técnicamente prohibido en muchos términos de servicio, todos los actores han llegado a una especie de acuerdo en el que permiten que se extraigan sus datos siempre que ellos también puedan hacerlo.

A medida que el sector de los medios de comunicación online colisiona con el desarrollo de modelos de IA, estas cuestiones sobre el raspado de datos —o scraping, en inglés— siguen sin resolverse.

Lo que necesitas saber para estar informado

Lo que necesitas saber para estar informado

¿Te gusta lo que lees? Comienza tu día sabiendo qué piensan y qué les preocupa a los ejecutivos de las principales empresas del mundo con una selección de historias enviada por Business Insider España a primera hora cada mañana.

Recibe la newsletter

El interrogante sobre Sora

Antes, OpenAI y otros desarrolladores de modelos de inteligencia artificial revelaban las fuentes de los datos de entrenamiento en los trabajos de investigación publicados, pero esta práctica ha dejado de ser habitual al intensificarse la competencia.

El Wall Street Journal le preguntó recientemente a Mira Murati, directora de Tecnología de OpenAI, si su compañía había utilizado vídeos de YouTube para entrenar a Sora.

"No estoy segura de ello", respondió Murati. Y cuando se le volvió a preguntar por las fuentes de datos de entrenamiento, la CTO atajó la cuestión: "No voy a entrar en detalles".

Conoce cómo trabajamos en Business Insider.