OpenAI ha destruido libros utilizados para entrenar modelos de IA y los empleados que recopilaron los datos ya no forman parte de la empresa

Hasan Chowdhury,
Darius Rafieyan
| Traducido por: 
Sam Altman, CEO de OpenAI.
Sam Altman, CEO de OpenAI.

 REUTERS/Denis Balibouse

  • El Sindicato de Autores de Estados Unidos ha demandado a OpenAI alegando que la empresa utilizó ilegalmente libros protegidos por derechos de autor para entrenar sus modelos de inteligencia artificial.
  • Documentos recientemente desvelados revelan que OpenAI eliminó dos conjuntos de datos que se habían utilizado para entrenar GPT-3 y que contenían miles de libros.

Documentos recientemente desvelados en la demanda colectiva interpuesta por el Sindicato de Autores de Estados Unidos contra OpenAI revelan que la empresa eliminó dos enormes conjuntos de datos, denominados "books1" y "books2", que se habían utilizado para entrenar su modelo de IA GPT-3.

Los abogados del Sindicato de Autores han afirmado en los documentos judiciales que los conjuntos de datos contenían probablemente "más de 100.000 libros publicados" y representan la parte central en su demanda de que OpenAI, la empresa detrás de ChatGPT, utilizó materiales protegidos por derechos de autor para entrenar sus modelos de IA.

Durante meses, el Sindicato de Autores de Estados Unidos ha solicitado a OpenAI información sobre los conjuntos de datos utilizados para sus modelos de IA. La empresa se resistió en un principio, alegando problemas de confidencialidad, antes de revelar finalmente que había eliminado todas las copias de los datos, según los documentos legales a los que ha tenido acceso Business Insider.

Los datos de entrenamiento de alta calidad son una parte importante de los potentes modelos de IA que están arrasando en el sector tecnológico. OpenAI y otras empresas usaron datos de internet, incluidos muchos libros, para construir estos modelos. Muchas de las empresas que crearon esta información quieren que se les pague por aportar inteligencia a estos nuevos productos de IA. Sin embargo, las empresas tecnológicas responsables de estos modelos de inteligencia artificial que alimentan chatbots como ChatGPT no quieren verse obligadas a pagar. La disputa ya se está librando  en varios tribunales de Estados Unidos.

En un paper publicado en 2020, OpenAI describía los conjuntos de datos books1 y books2 como "corpus de libros basados en Internet" y afirmaba que constituían el 16% de los datos de entrenamiento que se utilizaron para crear GPT-3. En el documento también se afirma que books1 y books2 contienen 67.000 millones de tokens de datos, lo que equivale aproximadamente a 50.000 millones de palabras. A modo de comparación, la traducción al inglés de la Biblia contiene 783.137 palabras.

Sam Altman, ex-CEO de OpenAI

La carta desclasificada de los abogados de OpenAI, etiquetada originalmente como "altamente confidencial — solo visible para los abogados", dice que el uso de books1 y books2 para el entrenamiento de modelos se interrumpió a finales de 2021 y que los conjuntos de datos se eliminaron a mediados de 2022 debido a su falta de uso. La carta continúa diciendo que ninguno de los otros datos utilizados para entrenar GPT-3 ha sido eliminado y ofrece a los abogados del Sindicato de Autores acceso a esos otros conjuntos de datos.

Los documentos desclasificados también revelan que los dos investigadores que crearon books1 y books2 ya no trabajan para OpenAI. La empresa tecnológica también se negó inicialmente a revelar la identidad de los dos empleados.

Ahora la empresa ha identificado a los empleados a petición de los abogados del Sindicato de Autores, pero no ha revelado públicamente sus nombres. OpenAI ha solicitado al tribunal que mantenga en el anonimato los nombres de los dos empleados, así como la información sobre los conjuntos de datos. El Sindicato de Autores se ha opuesto a esa decisión.

"Los modelos que alimentan ChatGPT y nuestra API hoy no se desarrollaron utilizando estos conjuntos de datos", ha dicho OpenAI en un comunicado publicado este martes. "Estos conjuntos de datos, creados por antiguos empleados que ya no forman parte de OpenAI, se utilizaron por última vez en 2021 y se eliminaron por falta de uso en 2022".

Axel Springer, la empresa matriz de Business Insider, tiene un acuerdo global para permitir que OpenAI entrene sus modelos con los contenidos de sus marcas de medios.

Conoce cómo trabajamos en Business Insider.