La desarrolladora de ChatGPT admite que rastrea la red con un 'bot araña' con el que recopila información para entrenar su modelo de IA

Alistair Barr

| Traducido por:

9 ago. 2023 12:30h.

Una araña Huntsman. — Amith Nag Photography/Getty

Los robots araña llevan años rastreando la red con el objetivo de recopilar información y algunos han resultado ser especialmente útiles porque son capaces de enviar a los usuarios a páginas con contenido original.
El auge de la inteligencia artificial generativa y los grandes modelos lingüísticos está poniendo en peligro este gran consenso de Internet.

Yo odio las arañas. Cuando viajé por todo el mundo en 2003, la idea de que un arácnido grueso y peludo se colase por debajo de mi mosquitera de madrugada me quitó el sueño en más de una ocasión.

Aunque la mayoría de la gente no lo sepa, existen un montón de arañas digitales que están constantemente rastreando las páginas web que consumes y que desarrollas. La araña más activa probablemente sea Googlebot, un bot que recopila automáticamente información que está disponible en la red para que Google pueda clasificarla y ofrecerla en sus resultados de búsqueda.

En este mismo instante, varios de estos bots araña están rastreando estas mismas palabras, lo que en realidad da un poco de miedo.

Sin embargo, algunos de estos rastreadores digitales han resultado ser increíblemente útiles. Un ejemplo sería el libro que escribí sobre mi viaje de 2003. Cuando el bot de Google rastrea la web de mi libro, me alegro, porque puede que el buscador les envíe a la página de mi libro cuando la gente busque libros de viajes. Tal vez incluso lo compren y lo lean.

Este gran consenso al que se ha llegado en Internet ha hecho prosperar la economía de la red: Google rastrea tu contenido y te envía tráfico para que tengas un incentivo para seguir publicando contenido online.

La IA está poniendo en peligro este gran consenso

En la actualidad, el auge de la inteligencia artificial generativa y de los grandes modelos lingüísticos —LLM, por sus siglas en inglés— está socavando este acuerdo.

OpenAI ha admitido recientemente que también tiene uno de estos bots araña rastreando Internet. Al parecer, se llama GPTbot y la desarrolladora de ChatGPT lo utiliza para rastrear y recopilar información que está disponible online con el objetivo de entrenar sus modelos de IA. Es probable que el próximo LLM de OpenAI, GPT-5, se esté entrenando con los datos recogidos por este bot.

GPT-4, ChatGPT y otras potentes herramientas responden de forma inteligente e inmediata a las preguntas de los usuarios, por lo que en ocasiones estos no necesitan acudir a las fuentes de la información original. Esto puede ser una gran experiencia para los usuarios, pero los incentivos para compartir online información gratuita y de alta calidad disminuyen muy rápidamente.

¿Por qué iba a permitir un creador de contenido gratuito que OpenAI recopilase sus datos cuando esa información se va a utilizar para entrenar futuros LLM que más tarde competirán con ese mismo creador alejando a los usuarios de su web? Esto ya está pasando con páginas como Stack Overflow, un portal que ofrece ayuda sobre programación al que cada vez acuden menos usuarios.

Autosabotaje

De ese modo, las webs que permiten que el GPTbot de OpenAI rastree su información hasta cierto punto podrían estar saboteándose a sí mismas. Esta idea se está extendiendo rápidamente entre las comunidades online. Medios de comunicación como The Verge parece que ya están tomando medidas para bloquear al GPTbot.

No queda claro cuánto tiempo lleva el bot araña de OpenAI merodeando por Internet. Aun así, la propia compañía anunció hace poco una forma de bloquear GPTbot, utilizando un protocolo común llamado robots.txt. Algunos creadores de contenido ya lo han puesto en práctica, otros se preguntan si OpenAI ha tenido a un bot recogiendo información en secreto durante meses o incluso años.

"Finalmente, después de haber recopilado todo tu contenido protegido por derechos de autor para desarrollar su producto patentado, OpenAI te ofrece una manera de evitar que tu contenido se utilice para mejorar todavía más su producto", ironizaba en Twitter esta semana Prasad Dhumal, consultor de optimización de motores de búsqueda.

"Ahora estamos bloqueando otro de los bots de rastreo de OpenAI. Tú también puedes hacerlo. (No sé si este es el bot secreto que no podíamos bloquear antes o si este sigue en funcionamiento)", tuiteó Neil Clarke, editor de Clarkesworld, una revista de ciencia ficción y fantasía.

La confianza se evapora

Al preguntarle a Clarke por esta decisión, su respuesta revela lo rápido que se ha evaporado la confianza de los creadores de contenido online en las empresas de inteligencia artificial.

"OpenAI y otras desarrolladoras de IA han demostrado de forma reiterada que no respetan los derechos de los autores, los artistas y otros profesionales creativos. Sus productos se basan en gran medida en las obras protegidas por derechos de autor de otros, obtenidas sin autorización ni compensación", asegura Clarke a través de un correo electrónico.

"Defienden repetidamente el uso de estas prácticas y hasta hace poco no habían reconocido la existencia de este bot. Además, no está completamente demostrado que bloquear a este bot (y al de CCBot) sea suficiente como para evitar que OpenAI recopile información. Su historial de transparencia deja mucho que desear".

CCBot es otro bot araña que rastrea la web recopilando todo tipo de contenido. En este caso está coordinado por una organización llamada Common Crawl, uno de los principales proveedores de datos de entrenamiento para LLM. Common Crawl almacena toda esa información con regularidad, por lo que, aunque bloquees su bot ahora, es probable que tus datos ya hayan sido registrados.

"No conozco a nadie que haya conseguido que Common Crawl elimine sus datos", afirma Clarke. "Yo lo he intentado, pero no he obtenido respuesta".

Opt-in, no opt-out

El editor de la revista Clarkesworld, al igual que otros usuarios, reclama que estos bots sean opt-in en lugar de opt-out (forma de denominar en inglés cuándo el usuario consiente el rastreo y cuando el usuario no quiere ser rastreado).

Ahora mismo, OpenAI rastrea la información de todo el mundo por defecto y los creadores deben tomar medidas para que esto no suceda, bloqueándolo activamente. Un enfoque opt-in requeriría que OpenAI tuviese que pedir permiso primero, como ya sucede con otras cuestiones de Internet como las cookies.

"Los métodos de recopilación de datos para estos modelos deben ser estrictamente opt-in. Una vez más, mucha gente no se enterará de cómo proteger su trabajo hasta que este ya haya sido recopilado", apunta Clarke.

"Dado que en la actualidad no podemos eliminar nuestros contenidos de los modelos y conjuntos de datos existentes, la exclusión voluntaria no es suficiente. No es nuestra responsabilidad proporcionar datos a estas compañías, ni se les debe permitir que simplemente los cojan sin permiso, independientemente de los beneficios que imaginen que van a obtener de ellos".

Al ser consultada por Business Insider para poder ofrecer su versión, OpenAI no respondió.

Pagar por los datos de entrenamiento de la inteligencia artificial

La desarrolladora de ChatGPT ha hecho un esfuerzo por respetar algunos datos online. GPTbot ahora está diseñado para filtrar las fuentes que requieren acceso de pago y eliminar otras fuentes conocidas por recopilar información de identificación personal.

La empresa también ha anunciado recientemente un acuerdo con Associated Press por medio del cual OpenAI pagará la licencia del contenido de AP para obtener datos de entrenamiento de IA.

Si la compañía puede pagar por esa información, ¿por qué no paga también por los datos de los demás?

"Bloquéalo"

OpenAI no se ha puesto en contacto con Clarke, el editor de Clarkesworld, para pagarle por sus contenidos. "No se nos ha planteado licenciar obras que publicamos, ni estaríamos abiertos a ello. No se me ocurre nada que puedan decir o hacer que me haga cambiar de opinión", sostiene.

¿Cuál es el consejo de Clarke para otros creadores de contenido online cuando se trata de GPTbot?

"En pocas palabras, les diría que lo bloqueasen y les sugeriría que se pusieran en contacto con sus responsables políticos para expresarles su preocupación por las metodologías de recopilación de datos pasadas, presentes y futuras".

Otros artículos interesantes:

Conoce cómo trabajamos en Business Insider.

Etiquetas: