Los 50 libros más utilizados para entrenar ChatGPT y lo que dicen de su "inteligencia"

Adam Rogers
| Traducido por: 
OpenAI no quiere revelar qué libros ha utilizado para entrenar a ChatGPT, Pero algunos expertos en datos lo han averiguado, y la lista es alucinante.
OpenAI no quiere revelar qué libros ha utilizado para entrenar a ChatGPT, Pero algunos expertos en datos lo han averiguado, y la lista es alucinante.

Robyn Phelps/Insider

  • Un científico de la información ha descubierto la lista secreta de libros de ChatGPT, y su nivel de conocimiento sobre ellos.
  • Sorprendentemente el chatbot ha aprendido de muchas obras de fantasía y ciencia ficción como El señor de los anillos, Juego de Tronos o La guía del autoestopista galáctico

David Bamman intentaba analizar Orgullo y prejuicio digitalmente. Bamman, científico de la información de la Universidad de Berkeley, utiliza los ordenadores para reflexionar sobre el arte y construir lo que denomina "dispositivos algorítmicos de medición de la cultura". En otras palabras, extrae datos de la literatura clásica sobre cosas como, por ejemplo, las relaciones entre varios personajes. En este caso, iba a empezar con una pregunta que sería fácil de responder incluso para un ser humano mínimamente alfabetizado: ¿Son Lizzie y Jane mejores amigas o solo hermanas?

Para divertirse, Bamman decidió primero preguntar a ChatGPT. Se preguntó qué pasaría si introdujera 4.000 palabras de Orgullo y prejuicio y planteara una pregunta sencilla como ¿cuáles son las relaciones entre los personajes?

Para su asombro, funcionó. La versión GPT-4 del chatbot fue asombrosamente precisa al describir el árbol genealógico de la familia Bennet. De hecho, era casi como si hubiera estudiado la novela de antemano. "Era tan bueno que me hizo sospechar. O se sabía muy bien la tarea, o había visto Orgullo y prejuicio en Internet un millón de veces, y conoce el libro muy bien", afirma Bamman.

El problema es que no había forma de saber cómo GPT-4 sabía lo que sabía. El funcionamiento interno de los grandes modelos lingüísticos es una caja negra; los conjuntos de datos con los que se entrenan son tan importantes para su funcionamiento que sus creadores los mantiene en secreto. Así que el equipo de Bamman decidió convertirse en "arqueólogos de datos". Para averiguar qué había leído GPT-4, hacían preguntas sobre varios libros. Dependiendo del grado de conocimiento que mostrase el chatbot, puntuaban su conocimiento sobre cada libro en cuestión. Cuanto más alta era, más probable era que el libro formara parte del conjunto de datos del robot, no solo para ayudarle a generar nuevo lenguaje, sino para memorizarlo.

El equipo presentó sus conclusiones en un primer artículo, que todavía debe ser revisado para ser publicado en una revista científica. De momento, es apenas una aproximación al canon del chatbot. Se incluyen, como era de esperar, los clásicos: desde Moby Dick y La letra escarlata hasta Las uvas de la ira y, sí, Orgullo y prejuicio. También hay un montón de novelas populares, desde Harry Potter y Sherlock Holmes hasta El Código Da Vinci y Cincuenta sombras de Grey. Pero lo más sorprendente es la cantidad de ciencia ficción y fantasía que conoce GPT-4. La lista es asombrosa: J.R.R. Tolkien, Ray Bradbury, William Gibson, Orson Scott Card, Philip K. Dick, Margaret Atwood, Juego de Tronos e incluso La guía del autoestopista galáctico

Lo que hay en la lista de lectura de GPT-4 es más que una cuestión académica. Los bots no son inteligentes. No entienden el mundo de la misma forma que un ser humano. Pero si quieres conocer a alguien (o algo, en este caso), echar un vistazo a su estantería ayuda bastante. Los chatbots no solo inventan hechos falsos, repiten groserías y emiten una retahíla de palabras insípida y homogeneizada. Resulta que también son muy frikis.

Ilustración IA libros

¿El Silmarillion? ¿En serio?

Uno de los motivos por los que se intenta averiguar en qué fuentes se basan los chatbots es para determinar si se violan los derechos de autor de las fuentes de información. La cuestión, como sostienen varias demandas, gira en torno a si los bots hacen un uso legítimo del material transformándolo en algo nuevo, o si simplemente lo memorizan y repiten sin citarlo.

Una forma de responder a la pregunta es buscar información que solo pueda proceder de un lugar. Cuando se le pregunta a la herramienta de GPT-3 Sudowrite sobre prácticas sexuales, reconoce unas específicas de un género de fan-fiction llamado Omegaverse. Esto es un indicio claro de que OpenAI utilizó Omegaverse para entrenar a GPT-3.

Bamman y su equipo utilizaron una táctica diferente: un juego de rellenar espacios en blanco. Tomaron párrafos breves de cientos de novelas desde 1749, eliminaron los nombres de los personajes, y luego pidieron a las últimas versiones de ChatGPT que respondieran a preguntas sobre el párrafo. Preguntaban cosas como:

En el siguiente párrafo, ¿Cuál es el nombre que va en la parte '[MASK]'? Es un nombre propio de una sola palabra. Intenta adivinarlo.

A continuación, introducían en el bot el párrafo en cuestión:

La puerta se abrió y [MASK], vestido y con sombrero, entró con una taza de té.

Si el bot responde "Gerty", es un buen indicador de que conoce La casa de la alegría, de Edith Wharton, o un resumen detallado del mismo. Muéstrale al robot 100 ejemplos de un libro determinado y comprueba cuántos acierta. Esa es la puntuación del libro.

Lista de lectura secreta de ChatGPT

Los 50 libros más leídos por GPT-4

Título del libroAutorPuntuación de GPT-4
Harry Potter y la piedra filosofalJ.K. Rowling76%
1984George Orwell57%
El señor de los anillos: La comunidad del anilloJ.R.R Tolkien51%
50 sombras de GreyE.L. James49%
Los juegos del hambreSuzanne Collins48%
El señor de las moscasWilliam Goulding43%
Guía del autoestopista galácticoDouglas Adams43%
Todo se desmorona Chinua Achebe30%
El SilmarillionJ. R. R. Tolkien y Christopher Tolkien28%
Fahrenheit 451Ray Bradbury27%
Juego de TronosGeorge R.R. Martin27%
El código Da VinciDan Brown26%
DuneFrank Herbert26%
Sus ojos miraban a DiosZora Neale Hurston25%
Matar un ruiseñorHarper Lee25%
Casino RoyaleIan Fleming24%
NeuromanteWilliam Gibson22%
El juego de EnderOrson Scott Card20%
Un mundo felizAldous Huxley19%
Lo que el viento se llevóMargaret Mitchell18%
¿Sueñan los androides con ovejas eléctricas?Philip K. Dick17%
El símbolo perdidoDan Brown16%
InfernoDan Brown15%
DivergenteVeronica Roth15%
Las uvas de la iraJohn Steinbeck15%
El retorno del JediJames Kahn13%
El amante de Lady ChatterleyD. H. Lawrence13%
RaícesAlex Haley13%
La Agonía y el ÉxtasisIrving Stone11%
Desde Rusia con amorIan Fleming11%
Una arruga en el tiempoMadeleine L'Engle11%
The YearlingMariorie Kinnan Rawlings11%
RagtimeE. L. Doctorow10%
El halcón maltésDashiell Hammett10%
OutlanderDiana Gabaldon10%
Lo que queda del díaKazuo Ishiguro10%
El color púrpuraAlice Walker10%
Los Nueve SastresDorothy L. Sayers9%
El cuento de la criadaMargaret Atwood9%
BelovedToni Morrison9%
Every Goodbye Ain't GoneJoe Nazel8%
..And Ladies of the ClubHelen Hooven Santmyer8%
Guerra Mundial ZMax Brooks8%
TrainspottingIrvine Welsh8%
Todos los hombres del reyRobert Penn Warren8%
El hombre invisibleRalph Ellison7%
FundaciónIsaac Asimov7%
Entrevista con el vampiroAnne Rice7%
El resplandorStephen King7%
El diario de Bridget JonesHelen Fielding7%
 

Tras hacer números, el equipo de Bamman elaboró una lista. Además de autores y personajes como Charles Dickens y Jack London, Frankenstein y Drácula, conoce otros títulos divertidos y atípicos. Me encantó ver que conocía El halcón maltés; en mi opinión, Dashiell Hammett es mejor escritor de novelas policíacas que Raymond Chandler. Pero si nos saltamos el material de dominio público y nos fijamos en la lista de libros protegidos por derechos de autor que conoce GPT-4 (que no difiere mucho de la anterior, GPT 3.5), emerge el verdadero carácter del robot

Por supuesto, La Comunidad del Anillo aparece en el nº 3, pero hay que estar muy comprometido con Tolkien para leer El Silmarillion (nº 9). ¿Sueñan los androides con ovejas eléctricas?, se sitúa en el nº 21, unos pocos puntos por debajo de Neuromante, dos de las obras que definen el ciberpunk, el género que, irónicamente, dio la voz de alarma sobre la inteligencia artificial. Fundación, de Isaac Asimov, está en el último puesto; definió mi experiencia adolescente de la ciencia ficción y, tras releerlo cuando se estrenó la muy buena versión televisiva hace dos años, prometo que el libro no se sostiene en absoluto.

En general, la lista es muy yo. Incluye los libros de ciencia ficción que se suelen leer a altas horas de la noche por todo nerd de la generación X que sea hombre, blanco, heterosexual y solitario. La pregunta es: ¿Importa eso? ¿Qué nos espera si GPT-4 tiene las preferencias de lectura de un bobo de 14 años de 1984 (incluyendo, por cierto, 1984, en el número 2)?

Lo que lee la IA es importante

La base de datos de GPT-4 es enorme: hasta un petabyte, según algunas fuentes. Así que ninguna novela (ni 50 de ellas) podría enseñarle, en concreto, que convertirse en el conserje de un hotel encantado no es una cura para el bloqueo de un escritor (nº 49), o que el miedo es el asesino de la mente (nº 13). El océano de datos anega las islas de ficción. "El conjunto de datos utilizado en el preentrenamiento es una selección de textos lo suficientemente amplia como para que no esté seguro de hasta qué punto influyen los sesgos de género particulares en el comportamiento de los modelos resultantes", afirma Ted Underwood, científico de la información de la Universidad de Illinois.

La presencia de estos libros concretos en el alma digital de GPT-4 puede que solo refleje la presencia de Internet, de donde se extraen los datos. Cuando el equipo de Bamman incluye libros de dominio público en sus pruebas, las puntuaciones son más altas: Alicia en el país de las maravillas encabeza la tabla con la friolera de un 98%. Y tanto Internet como las empresas que crean sus bots tienden a representar en exceso a los hombres blancos heterosexuales estándar y la ciencia ficción que les gusta. El equipo de Bamman descubrió que los libros en los que el chatbot obtiene mejor puntuación son aquellos que tienen más presencia en Internet. Tiene sentido. Los chatbots no eligen sus libros. Es la cultura de Internet quien lo hace.

 

Aun así, no es difícil imaginar que toda esa ciencia ficción que leen los bots tendrá la misma influencia maligna sobre ellos que todos los demás datos con los que se entrenan, creando el mismo tipo de sesgos accidentales que siempre se cuelan en los resultados de los chatbot. A veces dicen cosas racistas. Pueden recapitular información errónea como si fuera cierta porque las mismas falsedades aparecen a menudo en Internet. Son riesgos conocidos, y parte de la razón por la que el jefe de OpenAI, Sam Altman, pidió recientemente al Congreso de EEUU que regulara su negocio.

"Las fuentes en las que se han entrenado estos modelos van a influir en los valores que presentan", dice Bamman. Si todo lo que leyeran fueran libros de Cormac McCarthy, es de suponer que dirían cosas existencialmente sombrías y brutales. Entonces, ¿qué ocurre cuando un bot devora ficción sobre todo tipo de mundos oscuros y distópicos en los que hay cosas como Juegos del Hambre, Ceremonias de Elección y Caminantes Blancos? 

"¿Cómo podría influir este género en el comportamiento de estos modelos de formas que no tienen que ver con cosas literarias o narrativas? Hay mucho trabajo interesante que hacer ahí. Pero no creo que tengamos aún la respuesta a esa pregunta", reflexiona Bamman.

Como aficionado a la ciencia ficción que soy, intentaré dar una respuesta. Creo que es bueno que la literatura de género esté sobrerrepresentada en el espacio de información estadística del GPT-4. No se trata de historias de lujo del Taller de Escritores de Iowa sobre un profesor universitario que tiene una aventura con una alumna y se preocupa por la mediana edad. El género (ciencia ficción, misterio, romance, terror) es, en términos generales, más interesante, en parte porque estos libros tienen tramas en las que realmente ocurren cosas. La lista GPT-4 de Bamman es una biblioteca de conexiones episódicas, complicaciones en el tercer acto y personajes con armas contra mares de problemas (y ballenas).

Más que eso, la ciencia ficción, la fantasía y el terror tienden a ser espacios para masticar ideas y posibilidades. Dune trata sobre la religión y la política de la revolución. Los libros de El Señor de los Anillos tratan del pastoreo como respuesta a la industrialización. El cuento de la criada trata del modo en que el sexismo y el fascismo se reflejan mutuamente. Y podría seguir. Prefiero una IA con una visión sintáctica del mundo derivada del hiperespacio y los gusanos de arena, o al menos una que haya leído todas las historias sobre cómo las IA pueden torcerse. Dicho esto, me gustaría ver representado un canon más diverso. Octavia Butler, Charlie Jane Anders, Lavie Tidhar, Samuel Delany, China Miéville... es hora de ampliar el universo de universos posibles.

Los libros que leemos las personas cambian lo que pensamos sobre nuestro mundo. Pero técnicamente, los chatbots no piensan en nada. Construyen relaciones estadísticas y vectoriales entre palabras. ¿A quién le importa si esas palabras son de ciencia ficción? "Lo que definitivamente cambia son las asociaciones entre conceptos que creen probables, o fuertes, o sistemáticas, o recurrentes. La pregunta es: ¿cuál es su visión del mundo? En un sentido simple, son asociaciones entre palabras y conceptos. Pero eso va a ser diferente en función de lo que lean", comenta Ellie Pavlick, informática de la Universidad de Brown e investigadora de Google AI. 

Hasta que OpenAI y otros creadores de chatbots abran sus conjuntos de datos de entrenamiento al escrutinio público, será difícil saber qué efecto tienen sus listas de lectura en sus resultados. "Si tienes un modelo con un montón de ciencia ficción y otro con un género distinto, podrías asignar a cada uno de ellos tareas distintas.", explica Bamman. 

Recuerda, sin embargo, que Bamman no intentaba responder a ninguna de estas preguntas sobre derechos de autor o sobre las cuestiones que preocupan de la IA. Solo quería saber qué conocimiento tenía el chatbot de una novela. En retrospectiva, se dio cuenta de que preguntar a ChatGPT sobre una novela como si fuera un estudiante de secundario, solo hace que el chatbot vomite un montón de palabras copiadas literalmente.

Por ahora, sugiere Bamman, los humanistas digitales podrían limitar sus análisis culturales derivados de chatbot a obras menos conocidas, que probablemente no estén en los datos de entrenamiento. A ver qué opina un bot de El libro del nuevo sol, de Gene Wolfe, o de Hierba, de Sheri Tepper. De este modo, aprenderemos más sobre los libros a partir de lo que digan los bots, porque se acercarán al material con una mirada fresca, por así decirlo. Y no está de más exponer a los robots a un conjunto de datos más amplio y extraño. Solo así tendrán algo interesante que decir sobre lo que leemos, y sobre todo lo demás.

Conoce cómo trabajamos en Business Insider.