Gigantes de la IA como OpenAI y Anthropic tienen problemas para conseguir suficientes datos para entrenar sus modelos

Aaron Mok,
Una imagen de un ordenador portátil con el logo de ChatGPT.

SOPA Images/Getty

  • OpenAI, Anthropic y otras empresas de inteligencia artificial se están quedando sin datos de calidad para entrenar sus modelos, lo que podría obstaculizar el desarrollo de esta tecnología emergente.
  • Según parece, las compañías están explorando otras formas de entrenar la IA, como el uso de "datos sintéticos". 

Empresas como OpenAI y Anthropic están tratando de hacerse con uno de los recursos más valiosos de la inteligencia artificial: los datos fiables. Este problema podría dificultar el desarrollo de los grandes modelos lingüísticos —LLM, por sus siglas en inglés— que impulsan a los chatbots, a medida que se intensifica la carrera por ofrecer los mejores productos en un sector en auge.

Normalmente, ChatGPT, de OpenAI, y sus competidores se entrenan con un montón de información como artículos científicos, noticias y entradas de Wikipedia extraídas de la web para generar respuestas similares a las humanas. Cuanto mayor sea la calidad y la fiabilidad de los datos que utilizan estos modelos, más capaces serán de producir resultados precisos y deseables (o eso dice la teoría).

Por eso, la escasez podría dificultar a las compañías la labor de hacer más inteligentes sus productos de IA. Y existen más de un 50% de probabilidades de que la demanda de datos de alta calidad supere la oferta de material de entrenamiento disponible para 2028, según ha declarado Pablo Villalobos, experto en inteligencia artificial de la firma de investigación Epoch, al Wall Street Journal.

Entonces, ¿por qué las empresas tecnológicas parecen estar buscando información fiable?

En primer lugar, por norma general solo una parte de los datos que hay disponibles online es adecuada para el entrenamiento de la IA. Esto se debe a que la mayor parte de la información pública que se aloja en internet contiene frases a medias y otros defectos textuales que pueden impedir que la inteligencia artificial produzca respuestas conversacionales. 

La falta de datos utilizables se ve agravada por la gran cantidad de texto que circula por la web que ya ha sido generado por la IA, lo que podría contaminar un modelo con sinsentidos, un proceso que los expertos denominan "colapso del modelo".

La IA está arruinando internet.

Además, los principales medios de comunicación, las plataformas de redes sociales y otras fuentes públicas de información han restringido el acceso a sus contenidos para entrenar la inteligencia artificial por motivos de derechos de autor, privacidad y compensación justa. 

La gente tampoco parece muy dispuesta a que sus conversaciones y otros mensajes de texto privados sean accesibles para fines de entrenamiento. 

Por eso, las compañías se apresuran a buscar nuevas fuentes de datos para reforzar sus herramientas. OpenAI, por ejemplo, está estudiando entrenar a GPT-5, que sería su modelo más avanzado, con transcripciones de vídeos de YouTube, según fuentes consultadas por el Wall Street Journal.

El medio de comunicación estadounidense apunta a que la desarrolladora de ChatGPT también habría sopesado la posibilidad de crear un mercado de datos en el que los proveedores puedan cobrar por los contenidos que la empresa considere valiosos para el entrenamiento de los modelos. 

Al parecer, Google está considerando un método similar, según el WSJ, aunque los investigadores todavía tendrían que desarrollar un sistema para poder llevarlo a cabo correctamente.

Otras compañías están experimentando con lo que denominan "datos sintéticos" para mejorar sus modelos. Anthropic ha introducido datos generados internamente en Claude, su familia de chatbot de IA, tal y como explicó Jared Kaplan, científico jefe de la startup, en una entrevista concedida a Bloomberg en octubre de 2023. 

OpenAI también estaría estudiando esta posibilidad, según habría indicado un portavoz al WSJ.

La preocupación por la escasez de datos surge cuando los usuarios se quejan de la calidad de los chatbots de inteligencia artificial.

Algunos usuarios de GPT-4, el modelo más avanzado de OpenAI que impulsa ChatGPT, afirman que han tenido problemas para conseguir que el bot siga instrucciones y responda a las consultas. 

Google puso en pausa la función de generación de imágenes por IA de su modelo, Gemini, después de que los usuarios se quejasen de que producía imágenes históricamente inexactas de los presidentes de Estados Unidos. Los modelos de inteligencia artificial suelen ser propensos a "alucinar", es decir, a considerar veraz una información que suele ser falsa.

Mientras las empresas averiguan cómo seguir entrenando sus modelos, algunas parecen abiertas a limitar el tamaño de su IA.

"Creo que estamos al final de la era en la que van a ser estos modelos gigantes", señaló Sam Altman, CEO de OpenAI, en un evento de la conferencia del MIT en 2023. "Y los mejoraremos de otras formas".

OpenAI y Google no han respondido a las respectivas peticiones de declaraciones de Business Insider antes de la publicación de este artículo. Anthropic se ha negado a hacer comentarios.

Conoce cómo trabajamos en Business Insider.