El robo de la materia prima que alimenta la IA está a punto de desatar una guerra de consecuencias inimaginables

Alistair Barr,Kali Hays
| Traducido por: 
Ilustración robot teclado

Getty

  • El auge de la IA generativa está alimentando una "guerra en la sombra por los datos".
  • Las empresas de inteligencia artificial han recurrido a información extraída de internet para entrenar sus modelos.
  • La guerra no tardará en desatarse en cuanto los creadores de contenido se den cuenta de que sus propios datos se están utilizando para competir contra ellos.
Análisis Faldón

El auge de la inteligencia artificial generativa comenzó con el sorprendente éxito de ChatGPT a finales de 2022. Ahora, aparentemente todas las empresas están intentando utilizar la tecnología.

Los modelos de IA detrás de esta tecnología se crean utilizando conjuntos de datos de alta calidad de millones de fuentes diferentes. Estas son las materias primas para la "formación" o "entrenamiento" de modelos, en el lenguaje de la industria.

"Esta es la historia secreta que se esconde bajo la superficie de lo que está sucediendo", explica el ex-CEO de Github, Nat Friedman, en una reciente entrevista con el analista tecnológico Ben Thompson.

Las GPU de Nvidia son el principal hardware necesario para el entrenamiento de modelos de IA.

"Pero el otro aporte clave son los datos", explica. "Así que actualmente existe una guerra en la sombra por los datos en la que los laboratorios de IA más grandes están gastando enormes cantidades de dinero para adquirir tokens valiosos, ya sea pagando a expertos para que los generen o mediante empresas de etiquetado". 

Extraídos de Internet

Muchos de estos datos de entrenamiento han sido extraídos de internet y utilizados sin permiso. Las empresas de tecnología, ávidas de aún más datos para el entrenamiento de los modelos, también se están concediendo a sí mismas nuevas autorizaciones para utilizar mucha más información.

El uso de información extraída de internet ha provocado un debate sobre el futuro de los derechos de autor y las licencias en este nuevo mundo de la IA.

Las comunidades virtuales basadas en el intercambio de información gratuita también están cambiando. ¿Por qué seguir compartiendo en línea cuando esos datos probablemente serán absorbidos por un modelo de IA que terminará compitiendo contigo más adelante?

Los datos de Stack Overflow, una conocida plataforma de preguntas y respuestas sobre programación, se han utilizado para el entrenamiento del modelo de IA. En los últimos meses, el tráfico ha disminuido a medida que los modelos de IA ofrecen respuestas directamente, eliminando la necesidad de visitar la web y hacer preguntas a la comunidad. 

La IA está arruinando internet.

Se está fraguando una respuesta radical

Las empresas, creadores de contenidos y otros negocios web se están dando cuenta de que su trabajo está siendo usado en secreto en su contra. 

Esto está socavando el gran pacto de internet y provocando una reacción violenta.

"Las empresas de medios de comunicación están empezando a despertar y darse cuenta de que han robado mucha de su información, y probablemente también parte de la tuya", ha alertado Marc Benioff, CEO de Salesforce y propietario de la revista Time.

"Como propietario de un medio, es un tema importante, porque voy a los modelos y encuentro material de la revista Time, y digo: 'Espera un minuto, ese es mi contenido'", subraya.

Cada vez más webs están bloqueando a los rastreadores web, las herramientas técnicas utilizadas para rastrear una página y recoger datos para el entrenamiento de modelos de IA. GPTbot, del creador de ChatGPT, OpenAI, fue bloqueado por más del 15% de las 100 webs más populares en solo dos semanas, incluidos Amazon y Quora, según publicó Business Insider en agosto.

Reddit exige que se le pague por sus datos, que son una fuente común de entrenamiento de modelos de IA. LexisNexis, un proveedor líder de información legal, ha tenido que advertir a sus clientes que no carguen ni compartan sus datos con modelos de IA y bots relacionados.

La cómica y escritora estadounidense Sarah Silverman ha demandado a OpenAI y Meta alegando que utilizaron su libro sin compensación ni permiso para entrenar sus modelos de IA.

Más de 8.000 autores, entre ellos Margaret Atwood y James Patterson, han firmado una carta abierta exigiendo una compensación a las empresas de IA por utilizar sus obras para entrenar a esta sin permiso. 

IA

Esfuerzos para evitar riesgos legales

Las empresas de IA están respondiendo, principalmente intentando reducir los riesgos legales.

Meta y otras compañías de tecnología han dejado de revelar los datos de entrenamiento que utilizan para sus modelos de IA. Esto se debe en parte a razones competitivas, pero los analistas dicen que también es para evitar riesgos legales.

ChatGPT está intentando ocultar una información valiosa, por ejemplo, que fue entrenado con material protegido por derechos de autor, como la serie de libros Harry Potter de JK Rowling, según una investigación publicada en agosto.

Otros investigadores han desarrollado un modelo de IA que puede eliminar datos para reducir los riesgos legales. En el proceso, también han creado una forma de medir cómo contribuyen al resultado de un modelo de IA los datos específicos. 

Conoce cómo trabajamos en Business Insider.