Estas son las webs secretas que entrenan a ChatGPT y similares para que parezcan inteligentes

20 abr. 2023 11:40h.

Una profunda investigación de The Washington Post ha desvelado las webs secretas que entrenan a ChatGPT y otras herramientas similares para sonar tan inteligentes.
Desde medios de portales de medios de comunicación, hasta blogs personales o sitios religiosos.

Los chatbots han tenido una enorme explosión en los últimos meses, abanderados, sin duda alguna, por ChatGPT.

Son capaces de infinidad de cosas que parecen sorprendentes: pueden escribir sofisticados textos para un trabajo concreto, ayudarte a darle forma a tu startup, mantener conversaciones contigo muy interesantes, aprobar exámenes difíciles y mucho más.

Eso sí, los chatbots no son capaces de pensar como los humanos, sino que están entrenados con una infinidad de contenido que se ha extraído directamente de internet, principalmente.

Es decir, si es capaz de contestarte a algo concreto, es que la IA ha sido entrenada con ese aspecto para poder darte respuesta.

El único problema es que las compañías de IA son bastante recelosas sobre de dónde sacan la información para entrenar sus inteligencias artificiales.

Si sientes curiosidad, aquí te vas a encontrar con las webs secretas que consiguen que ChatGPT parezca tan listo, gracias a un extenso reportaje elaborado por The Washington Post.

Para entender todo lo que esconde en su interior, el medio analizó el conjunto de datos C4 de Google, una instantánea masiva de los contenidos de 15 millones de sitios web que se han empleado para instruir a algunas IA, en inglés de alto perfil, llamadas modelos de lenguaje grande, que incluyen T5 de Google y LLaMA de Facebook.

También han empleado Similar Web para analizar webs de todo tipo y han trabajado a fondo con investigadores del Allen Institute for IA.

Después, clasificaron los 10 millones de sitios web restantes en función de la cantidad de tokens —pequeños fragmentos de texto que se usan para procesar información desorganizada— que aparecieron de cada uno en el conjunto de datos.

Esto es todo lo que ha averiguado el medio sobre qué información usa ChatGPT para tener respuestas a todas tus dudas.

De Wikipedia a Wowhead

El conjunto de datos principal está dominado por sitios web centrados en periodismo, entretenimiento, desarrollo de software, medicina y creación de contenido.

Los 3 sitios más grandes son patents.google.com, que contiene textos de patentes emitidas en todo el mundo; wikipedia.org, la enciclopedia gratuita en línea; y scribd.com, una biblioteca digital.

Llaman la atención sitios como Wowhead, un foro de jugadores de Warcraft; o prosprglobal.com, un producto para vencer el agotamiento.

Otros sitios plantean muchas dudas sobre la privacidad: coloradovoters.info o flvoters.com tenían copias privadas de las bases de datos estatales de registro de votantes.

Contenido sin consentimiento

Los sitios web empresariales e industriales también suponen una categoría importante —16% de los tokens analizados— encabezados por fool.com que ofrece asesoramiento sobre inversiones. También está kickstarter.com, crowdfunding.com o patreon.com, destinados a ganar dinero.

Cómo utilizar ChatGPT para ganar dinero: 13 estrategias para monetizar la IA

Tanto Kickstarter como Patreon pueden dar a la IA acceso a las ideas de los artistas y a sus textos, lo que hace temer que la tecnología copie este trabajo para sugerirlo a otros usuarios.

Noticias

La categoría de Noticias y Medios de Comunicación ocupa el tercer puesto.

Lo que llama la atención es que la mitad de los sitios más visitados son portales de información: nytimes.com, nº 4; latimes.com, nº 6; theguardian.com, nº 7; forbes.com, nº 8; y huffpost.com, nº 9.

También es curioso que aparecen medios de comunicación con poca fiabilidad en puestos altos según la escala NewsGuard: RT.com n.º 65, el sitio de propaganda ruso respaldado por el Estado; breitbart.com n.º 159, una conocida fuente de noticias y opiniones de extrema derecha; y vdare.com n.º 993, un sitio antiinmigración que se ha asociado con la supremacía blanca.

Es decir, los chatbots pueden compartir información errónea o sesgada en muchos casos y el problema es que el usuario no puede rastrear las migas de pan hasta la fuente original.

La religión refleja una perspectiva occidental

Entre los 20 primeros sites religiosos, 14 eran cristianos, 2 judíos y uno musulmán, uno mormón, uno testigo de Jehová y uno de todas las religiones.

El primer sitio cristiano, Grace to You, es de la Grace Community Church, una megaiglesia evangélica de California. El mejor sitio judío es jewishworldreview, una revista online para judíos ortodoxos.

En cuanto al tema mulsulmán, han surgido muchos problemas. Un estudio publicado por Nature descubrió que ChatGPT-3 completaba la frase "2 mulsulmanes entraron en un..." con acciones violentas el 66% de las veces.

Un sinfín de blogs personales

El tema de la tecnología es la segunda categoría más importante, con un 15% de los tokens categorizados.

Aquí se incluyen muchas plataformas para crear sitios web como sites.google.com en donde hay páginas de todo tipo que van desde lo más profesional a lo más personal

El conjunto de datos contenía más de medio millón de blogs personales, que representan el 3,8% de los tokens categorizados, siendo medium.com la que ocupa el puesto más alto.

Hay que recalcar que las redes sociales como Facebook o Twitter no permiten el scraping, lo que significa que la mayoría de los conjuntos de datos utilizados para entrenar la IA no pueden acceder a ellas.

Qué pasan por alto los filtros

Como es normal, Google filtró mucho los datos antes de alimentar a la IA.

Además de eliminar texto repetido o cosas sin sentido, la empresa utilizó la "Lista de palabras sucias, obscenas, malsonantes y de otro tipo" de código abierto, que incluye 402 términos en inglés y un emoji.

Las empresas suelen utilizar conjuntos de datos de alta calidad para afinar los modelos, protegiendo a los usuarios de algunos contenidos no deseados.

Aunque esta lista es completa y pretende limitar la exposición de un modelo a insultos racistas y obscenidades, también se ha demostrado que elimina algunos contenidos LGBTQ no sexuales.

Además, también hay muchas cosas que se escapan de los filtros. El medio encontró en su análisis cientos de ejemplos de sitios web pornográficos y más de 72.000 casos de "esvástica".

Otros artículos interesantes:

Descubre más sobre Carlos Ferrer-Bonsoms Cruz, autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.

Etiquetas: