La IA está acabando con el gran pacto que sustenta internet: "Estamos en un mundo diferente"

Alistair Barr,
Kali Hays
| Traducido por: 
IA

Moor Studio/Getty Images Plus

  • Los propietarios de contenidos se están dando cuenta de que su trabajo está siendo utilizado libremente por las grandes tecnológicas para crear nuevas herramientas de inteligencia artificial.
  • Bots como Common Crawl extraen y almacenan miles de millones de páginas de contenidos para entrenar la IA.
  • Con menos incentivos para compartir contenidos libremente, la web podría transformarse en una sucesión de jardines con muros de pago.
Análisis Faldón

La IA está socavando el gran pacto de internet, y lo único que lo impide es un acuerdo de hace décadas.

A finales de la década de 1990 se propuso un único fragmento de código, robots.txt, para que las páginas web indicaran a los robots rastreadores que no querían que se recopilaran sus datos. Fue ampliamente aceptado como una de las reglas no oficiales que sustentan la web.

En aquella época, el principal objetivo de estos rastreadores era indexar información para mejorar los resultados en los motores de búsqueda. Google, Bing de Microsoft y otros motores de búsqueda tienen rastreadores. Indexan contenidos para poder mostrarlos después en forma de enlaces a miles de millones de consumidores potenciales. Este es el trato esencial que creó la floreciente web que conocemos hoy: los creadores comparten abundante información e intercambian ideas en línea libremente porque saben que los consumidores los visitarán y verán un anuncio, se suscribirán o comprarán algo.

Ahora, sin embargo, la IA generativa y los grandes modelos de lenguaje están cambiando radical y rápidamente el propósito de los rastreadores web. En lugar de trabajar para apoyar a los creadores de contenidos, estas herramientas se han vuelto contra ellos.

Los bots alimentan a las grandes tecnológicas

Los rastreadores web recopilan información en línea para alimentar gigantescos conjuntos de datos que las grandes empresas tecnológicas utilizan gratuitamente para desarrollar modelos de inteligencia artificial. CCBot alimenta Common Crawl, uno de los mayores conjuntos de datos de IA. GPTbot alimenta de datos a OpenAI, la empresa que está detrás de ChatGPT y GPT-4, actualmente el modelo de IA más potente. Google se limita a llamar 'Infiniset' a sus datos de entrenamiento LLM, sin mencionar de dónde procede la gran mayoría de los datos. Aunque el 12,5% procede de C4, una versión depurada de Common Crawl.

Los modelos utilizan toda esta información gratuita para aprender a responder inmediatamente a las preguntas de los usuarios. Eso está muy lejos de la indexación de una web para poder remitir a los usuarios a la obra original.

Sin una bolsa de consumidores potenciales, los creadores de contenidos tienen pocos incentivos para dejar que los rastreadores web sigan succionando datos gratuitos en internet. GPTbot ya ha sido bloqueado por Amazon, Airbnb, Quora y otros cientos de páginas web. CCBot, de Common Crawl, también está empezando a ser bloqueado.

El secreto de la IA

Una herramienta tosca

Lo que no ha cambiado es la forma de bloquear estos rastreadores. Implementar robots.txt en una web, y excluir rastreadores específicos, es la única opción. Y no es muy buena.

"Es una herramienta un poco burda", afirma Joost de Valk, antiguo responsable de Wordpress, inversor tecnológico y fundador de la empresa de marketing digital Yoast. "No tiene base legal y básicamente la mantiene Google, aunque dicen que lo hacen junto con otros buscadores".

También es susceptible de manipulación, sobre todo teniendo en cuenta el voraz apetito por obtener datos de calidad para la IA. Lo único que tiene que cambiar una empresa como OpenAI es el nombre de su robot rastreador para saltarse todas las normas de rechazo que la gente establece mediante robots.txt, explica de Valk.

Dado que el uso de robots.txt es voluntario, los rastreadores web también pueden ignorar las instrucciones de bloqueo y extraer la información de una web. Algunos rastreadores, como el de Brave, un motor de búsqueda más reciente, ni siquiera se molestan en revelar el nombre de su rastreador, lo que hace imposible bloquearlo.

"Todo lo que hay en Internet es absorbido por los modelos", explica Nick Vincent, profesor de Informática que estudia la relación entre los datos generados por el ser humano y la inteligencia artificial. "Están pasando muchas cosas bajo entre bastidores. En los próximos seis meses, miraremos atrás y querremos evaluar estos modelos de forma diferente".

La reacción de los bots de IA

De Valk advierte de que los propietarios y creadores de contenidos online pueden estar entendiendo ya demasiado tarde los riesgos de permitir que estos bots se apropien gratuitamente de sus datos y los utilicen indiscriminadamente para desarrollar modelos de IA.

Ahora mismo, no hacer nada significa: 'Me parece bien que mi contenido esté en todas las IA y LLM del mundo'", afirma de Valk. "Eso es sencillamente un error. Se podría crear una versión mejor de robots.txt, pero sería muy raro que lo hicieran los propios motores de búsqueda y las grandes IA".

Varias empresas y páginas web importantes han respondido recientemente, y algunas han empezado a desplegar robots.txt por primera vez.

Hasta el 22 de agosto, 70 de los 1.000 sitios web más populares habían utilizado robots.txt para bloquear GPTBot desde que OpenAI reveló el rastreador hace unas tres semanas, según Originality.ai, una empresa que comprueba el contenido para ver si es generado por IA o plagiado.

La empresa también ha descubierto que 62 de los 1.000 sitios web más populares están bloqueando el CCBot de Common Crawl, y que un número cada vez mayor lo ha hecho este mismo año, a medida que ha aumentado la concienciación sobre el rastreo de datos para la IA.

Sin embargo, no es vinculante. Cualquier rastreador puede ignorar un archivo robots.txt y recopilar hasta el último dato que encuentre en una página web, sin que el propietario de la página tenga ni idea de que esto ha ocurrido. Incluso si el archivo robots.txt tuviera alguna base jurídica, su propósito original tiene poco que ver con la información de internet que se utiliza para crear modelos de inteligencia artificial.

Según Jason Schultz, director de la Facultad de Derecho y Política Tecnológica de la Universidad de Nueva York, "es poco probable que Robots.txt se considere una prohibición legal del uso de datos". "Estaba destinado principalmente a señalar que uno no quiere que su sitio web sea indexado por los motores de búsqueda, no como una señal de que uno no quiere que su contenido sea utilizado para el aprendizaje automático y el entrenamiento de IA".

IA Redes sociales

"Es un campo minado"

Esta actividad lleva años desarrollándose. OpenAI reveló su primer modelo GPT en 2018, habiéndolo entrenado en BookCorpus, un conjunto de datos de miles de libros indie o autopublicados. Common Crawl comenzó en 2008 y su conjunto de datos se puso a disposición del público en 2011 a través del almacenamiento en la nube proporcionado por AWS.

Aunque GPTBot está ahora más bloqueado, Common Crawl es una amenaza mayor para cualquier empresa a la que le preocupe que sus datos se utilicen para entrenar el modelo de IA de otra compañía. Lo que Google hizo por las búsquedas en internet, Common Crawl lo está haciendo por la IA.

"Se trata de un campo minado", afirma Catherine Stihler, directora ejecutiva de Creative Commons. "Actualizamos nuestra estrategia hace sólo unos años, y ahora estamos en un mundo diferente".

Creative Commons comenzó en 2001 como una forma de que creadores y propietarios concedieran licencias de obras para su uso en Internet mediante una alternativa al estricto marco de los derechos de autor, conocida como "copyleft". Los creadores y propietarios mantienen sus derechos, mientras que una licencia Commons permite a la gente acceder al contenido y crear obras derivadas. Wikipedia funciona con una licencia Creative Commons, al igual que Flickr, Stack Overflow y ProPublica, además de otras muchas webs conocidas.

En el marco de su nueva estrategia para los próximos cinco años, que señala el "uso problemático de contenidos abiertos" para entrenar tecnologías de IA, Creative Commons pretende hacer que el intercambio de trabajo en internet sea más "equitativo", a través de un "enfoque multifrontal, coordinado y de amplia base que trascienda los derechos de autor".

El gorila de 160.000 millones de páginas

Common Crawl, a través de CCBot, alberga el que quizá sea el mayor repositorio de datos jamás recopilado de internet. Desde 2011, ha rastreado y guardado información de 160.000 millones de páginas web. Normalmente, rastrea y guarda unos 3.000 millones de páginas web al mes.

Su declaración de objetivos dice que la empresa es un proyecto de "datos abiertos" destinado a permitir que cualquiera pueda "satisfacer sus curiosidades, analizar el mundo y perseguir ideas brillantes."

Hoy la realidad es muy distinta. La ingente cantidad de datos que posee y sigue recopilando está siendo utilizada por algunas de las mayores corporaciones del mundo para crear modelos en su mayoría patentados. Si una gran empresa tecnológica no está ya ganando dinero con su producción de IA (OpenAI tiene muchos servicios de pago), hay un plan para hacerlo en el futuro.

Algunas grandes empresas tecnológicas han dejado de revelar de dónde obtienen estos datos. Sin embargo, Common Crawl se ha utilizado y se sigue utilizando para desarrollar muchos modelos potentes de IA. Ayudó a Google a crear Bard. Ayudó a Meta a entrenar a Llama. Y ayudó a OpenAI a crear ChatGPT.

Common Crawl también alimenta The Pile, que alberga más conjuntos de datos seleccionados a partir del trabajo de otros robots de rastreo. Se ha utilizado ampliamente en proyectos de IA, como Llama y un modelo LLM de Microsoft y Nvidia, llamado MT-NLG.

Confiar en la inteligencia artificial para las búsquedas en internet acelerará la propagación de la desinformación.

No es gracioso

Una de las descargas más recientes de The Pile del mes de junio es una enorme colección de cómics, que incluye las obras completas de Archie, Batman, X-Men, Star Wars y Superman. Creados por DC Comics, ahora propiedad de Warner Brothers, y Marvel, ahora propiedad de Disney, todas las obras siguen estando protegidas por derechos de autor. The Pile también alberga un gran conjunto de libros protegidos por derechos de autor, como recientemente ha señalado The Atlantic.

"Hay una diferencia entre la intención de los rastreadores y cómo se utilizan", afirma Schultz, de la NYU. "Es muy difícil vigilar o insistir en que los datos se utilicen de una manera determinada".

En lo que respecta a The Pile, aunque admite que sus datos están llenos de material protegido por derechos de autor, en su documento técnico fundacional afirma que "hay poco reconocimiento del hecho de que el procesamiento y la distribución de datos propiedad de otros también puede ser una violación de la ley de derechos de autor".

Más allá de eso, el grupo, que forma parte de EleutherAI, sostiene que su uso del material se considera "transformativo" en virtud de la doctrina del uso justo, a pesar de que los conjuntos de datos contienen obras relativamente inalteradas. También admite que necesita utilizar contenidos completos protegidos por derechos de autor "para obtener los mejores resultados" en la formación de los LLM.

Estos argumentos de uso legítimo por parte de rastreadores y proyectos de IA ya se están poniendo a prueba. Autores, artistas visuales e incluso desarrolladores de código fuente están demandando a empresas como OpenAI, Microsoft y Meta porque su trabajo original se ha utilizado sin su consentimiento para entrenar algo de lo que no obtienen ningún beneficio.

"No existe un universo en el que poner algo en internet garantice un uso comercial gratuito e ilimitado del trabajo de alguien sin su consentimiento", escribió recientemente en X Steven Sinofsky, antiguo ejecutivo de Microsoft y socio de la empresa de capital riesgo Andreessen Horowitz.

Sin resolución a la vista

De momento, no hay una resolución clara a la vista.

"Estamos luchando contra todo esto ahora", afirma Stihler, director general de Creative Commons. "Hay muchas cuestiones que siguen surgiendo: compensación, consentimiento, crédito. ¿Cómo se ve todo esto con la IA? No tengo una respuesta".

De Valk dice que Creative Commons, con su método de facilitar licencias de derechos de autor cada vez más extensas que permiten utilizar obras propias en internet, se ha sugerido como posible modelo de consentimiento en lo que respecta al desarrollo de modelos de IA.

De Valk dice que Creative Commons, con su método de facilitar licencias de derechos de autor cada vez más extensas que permiten utilizar obras propias en internet, se ha sugerido como posible modelo de consentimiento en lo que respecta al desarrollo de modelos de IA.

Stihler no está tan seguro. Cuando se trata de IA, quizá no haya una solución única. La concesión de licencias y los derechos de autor, incluso un acuerdo más flexible al estilo de Commons, probablemente no funcionen. ¿Cómo conceder licencias para todo internet?

"Todos los abogados con los que he hablado dicen que una licencia no va a resolver el problema", explica Stihler.

Stihler habla regularmente de este tema con diversos interlocutores, desde autores a empresarios del sector de la inteligencia artificial. Stihler se reunió con representantes de OpenAI a principios de año y asegura que la empresa está debatiendo cómo "recompensar a los creadores".

Aún así, no está claro "qué aspecto tiene realmente el bien común en la era de la IA", añade.

 

"Si no tenemos cuidado, acabaremos reduciendo los bienes comunes"

Teniendo en cuenta la cantidad de datos que los rastreadores web ya han extraído y entregado a las grandes empresas tecnológicas, y el poco poder que tienen los creadores de esos contenidos, internet tal y como la conocemos podría cambiar radicalmente.

Si publicar información online significa dar datos gratis a un modelo de inteligencia artificial que competirá contigo por los usuarios, es posible que esta actividad simplemente se acabe.

Ya hay indicios de ello: cada vez menos programadores humanos visitan la plataforma de preguntas y respuestas Stack Overflow para responder preguntas. ¿Por qué? Porque su trabajo anterior se ha utilizado para entrenar modelos de inteligencia artificial que ahora responden automáticamente a muchas de estas preguntas.

Stihler afirma que el futuro de todo el trabajo creado online podría parecerse pronto al estado actual del streaming, con contenidos cerrados tras feudos de suscripción "Plus" cada vez más caros.

"Si no tenemos cuidado, acabaremos cerrando los bienes comunes", dice Stihler. "Habrá más jardines amurallados, más cosas a las que la gente no podrá acceder. Ese no es un modelo exitoso para el futuro del conocimiento y la creatividad de la humanidad".

Conoce cómo trabajamos en Business Insider.