La hipocresía de la IA: OpenAI, Google y Anthropic no dejan usar sus datos para entrenar otros modelos de IA, pero usan los contenidos de todos los demás

Alistair Barr
| Traducido por: 
ChatGPT

REUTERS/Dado Ruvic

  • OpenAI —apoyada por Microsoft—, Google y Anthropic prohíben el uso de sus contenidos para entrenar otros modelos de IA.
  • Sin embargo, esas empresas han estado utilizando otros contenidos online para el entrenamiento de sus propios modelos. 
  • ¿Pueden las grandes tecnológicas tenerlo todo? Reddit y otras organizaciones están intentando impedirlo.
Análisis Faldón

En la nueva era de la IA generativa, las grandes empresas tecnológicas siguen una estrategia de "haz lo que yo digo, no lo que yo hago" en lo que respecta al uso de contenidos online. 

OpenAI, respaldada por Microsoft, así como Google y Anthropic, apoyada por Google, llevan años utilizando contenidos online creados por empresas para entrenar sus modelos de IA generativa. Todo ello sin pedir permiso explícito, lo cual forma parte de una batalla legal en ciernes que decidirá el futuro de Internet y la forma de aplicar las leyes de derechos de autor en este nuevo mundo.

Es probable que la industria tecnológica argumente que se trata de un uso legítimo. Eso aún está por decidir. Sin embargo, estas grandes empresas tecnológicas no permiten que sus propios contenidos se utilicen para entrenar otros modelos de inteligencia artificial. Entonces, ¿por qué deberían poder hacerlo con los demás?

Echa un vistazo a las condiciones de servicio de Claude, el asistente de IA de Anthropic:

"El usuario no podrá acceder a los Servicios ni utilizarlos de las siguientes formas, y si alguna de estas restricciones es incoherente o ambigua en relación con la Política de uso aceptable, prevalecerá la Política de uso aceptable: para desarrollar cualquier producto o servicio que compita con nuestros Servicios, incluyendo desarrollar o entrenar cualquier algoritmo o modelo de inteligencia artificial o aprendizaje automático".

A continuación, un extracto de la parte inicial de las condiciones de uso de la IA generativa de Google:

"No puedes utilizar los Servicios para desarrollar modelos de aprendizaje automático o tecnología relacionada".

Y aquí está la sección pertinente de las condiciones de uso de OpenAI. Se trata de la empresa que está detrás de ChatGPT

"Usted no puede... utilizar la producción de los Servicios para desarrollar modelos que compitan con OpenAI".

Estas empresas no son tontas, pero son hipócritas 

Estas empresas no son tontas. Saben que el contenido de calidad es vital para entrenar nuevos modelos de IA. Así que tiene sentido que no permitan que su producción se utilice de esta manera.

Pero, ¿por qué cualquier otra página web o empresa permitiría que su contenido fuera utilizado libremente por estos gigantes tecnológicos para entrenar sus modelos?

El pasado viernes, Business Insider pidió a OpenAI, Google y Anthropic su opinión al respecto. En el momento de la publicación, aún no habían respondido.

 

Reddit y otras empresas dicen basta

Otras empresas están empezando a darse cuenta de lo que está pasando, y no están contentas. Reddit, que se ha utilizado durante años en el entrenamiento de modelos de IA, planea comenzar a cobrar por el acceso a sus datos.

"El conjunto de datos de Reddit es realmente valioso. Pero no tenemos por qué dar todo ese valor a algunas de las empresas más grandes del mundo de forma gratuita", ha declarado Steve Huffman, CEO de Reddit.

En abril, Elon Musk acusó a Microsoft, principal impulsor de OpenAI, de utilizar ilegalmente los datos de Twitter para entrenar modelos de IA. "Es hora de demandar", tuiteó.

"Hay tantas cosas erróneas en esta premisa que ni siquiera sé por dónde empezar", escribió un portavoz de Microsoft en un correo electrónico enviado a Business Insider al pedirle su opinión. 

El CEO de OpenAI, Sam Altman, está tratando de ser más reflexivo en este asunto, trabajando en nuevos modelos de IA que respeten los derechos de autor. "Estamos intentando trabajar en nuevos modelos en los que si un sistema de IA utiliza tu contenido o tu estilo, te paguen por ello", declaró recientemente, según recoge Axios

Los medios de comunicación, entre ellos Business Insider, que ha publicado este artículo, tienen intereses en juego. Algunos grupos, como News Corp., ya están presionando a las empresas tecnológicas para que paguen por utilizar sus contenidos para entrenar modelos de inteligencia artificial

La forma actual de entrenar los modelos de IA "rompe" la web

Un antiguo ejecutivo de Microsoft cree que algo va mal. Steven Sinofsky ha afirmado recientemente que la forma actual en que se entrenan los modelos de IA "rompe" la web.

"Antes se permitía el rastreo a cambio de clics. Pero ahora el rastreo simplemente entrena un modelo y jamás se entrega ningún valor a los creadores / titulares de derechos de autor", tuiteó

Conoce cómo trabajamos en Business Insider.