¿Pagar por los datos para entrenar a la IA? Sería la ruina para gigantes como Meta

Kali Hays
| Traducido por: 
Mark Zuckerberg, CEO de Meta.
Mark Zuckerberg, CEO de Meta.

REUTERS/Carlos Barria

  • La Oficina de Derechos de Autor de Estados Unidos está considerando la posibilidad de actualizar sus leyes para abordar directamente la IA generativa.
  • Meta, Microsoft, OpenAI y otras empresas interesadas en la IA se han opuesto firmemente a cualquier cambio.
  • Pagar por los datos supondría "decenas o cientos de miles de millones" en derechos de autor anuales, según A16z.

Las mayores empresas tecnológicas del mundo no quieren tener que pagar por la enorme cantidad de datos protegidos por derechos de autor que se necesitan para entrenar los modelos en los que se basan sus herramientas de IA generativa.

Durante el periodo de comentarios abierto por la Oficina de Derechos de Autor de Estados Unidos, que está estudiando nuevas normas para la IA generativa, empresas como Meta, Microsoft, Google, Apple, OpenAI y Andreessen Horowitz, junto con organizaciones de noticias, agencias de medios de comunicación y particulares afines, figuran entre las casi 11.000 entidades que han enviado comentarios. En su aviso, la Oficina de Derechos de Autor pedía opiniones sobre la creación de un régimen de licencias o algún otro proceso que "remunere a los propietarios y/o creadores de derechos de autor por el uso de sus obras en el entrenamiento de modelos de IA".

La mayoría de las empresas tecnológicas parecen estar de acuerdo en que tener que pagar por las enormes cantidades de material protegido por derechos de autor que se extrae de internet y se utiliza para entrenar los grandes modelos lingüísticos que hay detrás de herramientas de IA como Llama de Meta, Bard de Google y ChatGPT de OpenAI supondría un obstáculo imposible para desarrollar la tecnología.

"Los modelos generativos de IA no sólo necesitan una gran cantidad de contenido, sino también una gran diversidad de contenido", escribió Meta en su comentario. "Sin duda, es posible que los desarrolladores de IA lleguen a acuerdos con titulares de derechos individuales para desarrollar alianzas más amplias o simplemente para comprar la paz frente a la amenaza de litigios. Pero este tipo de acuerdos sólo proporcionaría a los desarrolladores de IA los derechos de una fracción minúscula de los datos que necesitan para entrenar sus modelos. Y a los desarrolladores de IA les resultaría imposible licenciar los derechos de otras categorías esenciales de obras".

IA

Google, Microsoft y OpenAI expusieron argumentos similares: que la cantidad de datos utilizados para entrenar sus modelos es tan ingente que no hay forma de que puedan encontrar la manera de pagar por ellos. Ninguna de las empresas negó haber utilizado material protegido por derechos de autor sin autorización de sus titulares. En cambio, en general argumentaron que poner material protegido por derechos de autor en Internet lo convierte en "disponible públicamente" y, por lo tanto, es lícito emplearlo. Utilizar esos datos para formar a un LLM constituye un "uso legítimo" en virtud de la legislación vigente sobre derechos de autor, añaden las empresas.

Google se refirió al material protegido por derechos de autor que utiliza para entrenar herramientas de inteligencia artificial como Bard como "extracción de conocimientos", alegando que la actual ley de derechos de autor tiene por objeto permitir que se produzca dicha extracción. Responsabilizar a un desarrollador como Google por el uso de material protegido por derechos de autor en el entrenamiento "impondría una responsabilidad aplastante a los desarrolladores de IA", argumentó la empresa, añadiendo que la IA generativa trata sobre el "libre flujo de ideas".

Además, en lo que respecta a Andreessen Horowitz, la empresa de capital riesgo también conocida como A16z, los miles de millones de dólares que ella y otros inversores han inyectado en la fiebre de la IA deberían ser razón suficiente para no crear nuevas normas destinadas a beneficiar a los titulares de derechos de autor.

Esta inversión se ha "basado en la premisa de que, según la actual ley de derechos de autor, cualquier copia necesaria para extraer datos estadísticos está permitida", escribió A16z. Según la empresa, poner en entredicho esa premisa "pondrá en peligro futuras inversiones" en IA. También argumentó que cualquier tipo de régimen de licencias para el uso de obras protegidas por derechos de autor en la IA no tiene sentido debido a la enorme cantidad de dinero que potencialmente se debería entregar a los propietarios de contenidos.

"Bajo cualquier marco de concesión de licencias que contemplara un pago más que insignificante a los titulares de derechos individuales", escribió A16z, "los desarrolladores de IA serían responsables de decenas o cientos de miles de millones de dólares al año en pagos de derechos".

Mientras tanto, la mayoría de las entidades y personas implicadas en la creación de material que se utiliza en el entrenamiento de modelos de IA, como News Corp., Getty, WME e incluso el creador de "Breaking Bad" Vince Gilligan, se pronunciaron a favor de actualizar las normas de derechos de autor para ofrecer protección y pago a las herramientas de IA.

En la actualidad, casi no hay forma de evitar que se rastreen contenidos protegidos por derechos de autor en internet y se utilicen para crear un LLM; la ley de derechos de autor no aborda la cuestión. Autores, artistas visuales e incluso desarrolladores ya han demandado a empresas como OpenAI, Microsoft y Meta porque su trabajo original se utilizó sin su consentimiento para entrenar las herramientas de IA de estas empresas.

Conoce cómo trabajamos en Business Insider.