El recurso más valioso del mundo de la IA se está agotando y el sector busca una alternativa: los datos "falsos"

Los principales líderes del sector de la inteligencia artificial, como Sam Altman (CEO de OpenAI), esperan que los datos sintéticos hagan que la tecnología sea más inteligente.
Los principales líderes del sector de la inteligencia artificial, como Sam Altman (CEO de OpenAI), esperan que los datos sintéticos hagan que la tecnología sea más inteligente.

Getty; Chelsea Jia Feng/Business Insider

Hasan Chowdhury,

| Traducido por: 
  • La industria de la inteligencia artificial tiene un problema: la información del mundo real, aquella que se ha utilizado para entrenar y desarrollar los mejores modelos de IA, se está agotando.
  • Las empresas que buscan una alternativa creen que los datos sintéticos podrían ser la solución, pero los expertos sugieren que este tipo de información podría envenenar a la inteligencia artificial con datos de baja calidad.

El mundo de la inteligencia artificial está a punto de quedarse sin su recurso más preciado, lo que está llevando a los líderes del sector a libra una guerra encarnizada para encontrar una alternativa de rápido crecimiento: los datos sintéticos o datos esencialmente "falsos".

Durante los últimos años, compañías como OpenAI —la desarrolladora de ChatGPT— o Google han extraído información de internet para entrenar a los grandes modelos lingüísticos (LLM, por sus siglas en inglés) que impulsan a sus principales herramientas y funciones de IA. 

Los LLM han procesado montones y montones de datos en formato texto, imagen, vídeo y audio que se encontraban disponibles online y que habían sido producidos por seres humanos a lo largo de siglos de historia, ya fuesen trabajos de investigación, obras de arte, clips de YouTube o podcasts de entrevistas.

Sin embargo, el suministro de información "real" se está agotando. La firma de investigación Epoch AI calcula que los datos de texto podrían agotarse tan pronto como en 2028. Mientras tanto, las empresas que han rebuscado información utilizable en todos los rincones de internet —infringiendo algunas normas por el camino— se enfrentan a un periodo de escasez de datos.

Para algunos, eso no supone necesariamente un problema. Sam Altman, CEO de OpenAI, ha defendido que los modelos de inteligencia artificial deberían acabar produciendo información sintética lo suficientemente buena como para entrenarse a sí mismos de forma eficaz. 

El encanto de esta idea es obvio: los datos de entrenamiento se han convertido en uno de los recursos más preciados durante el auge de la IA y la perspectiva de generarlos de forma barata y aparentemente infinita es tentadora.

Una ilustración de las grandes tecnológicas.

Aun así, los expertos debaten acerca de si los datos sintéticos son la solución que todo el mundo está buscando y algunos sostienen que esta vía podría envenenar los modelos de inteligencia artificial con información de mala calidad y que, como consecuencia, podrían "colapsarse".

Un reciente artículo publicado por un equipo de investigadores de las universidades de Oxford y de Cambridge aseguraba que alimentar un modelo de IA con datos generados por la propia inteligencia artificial acaba llevándolo a generar incoherencias. Según los autores de la investigación, los datos sintéticos pueden utilizarse para el entrenamiento, pero deben mezclarse con datos del mundo real.

A medida que se agota la información generada por los seres humanos, cada vez más compañías recurren a los datos sintéticos. En 2021, la firma de investigación Gartner anticipó que, para el año 2024, el 60% de la información utilizada para desarrollar IA sería generada sintéticamente.

"Es una crisis", ha expresado el analista especializado en inteligencia artificial y profesor emérito de psicología y ciencia neuronal en la Universidad de Nueva York, Gary Marcus. "La gente tenía la ilusión de que se podían mejorar infinitamente los grandes modelos lingüísticos simplemente usando más y más datos, pero ahora básicamente han usado todos los datos de los que disponían".

Y ha agregado: "Sí, te ayudará con algunos problemas, pero el problema de fondo con estos sistemas es que en realidad no razonan; en realidad no planifican. Toda la información sintética que puedas imaginar no va a resolver ese problema fundamental".

Cada vez más empresas generan datos sintéticos

La necesidad de información "falsa" se basa en la idea de que los datos del mundo real se están agotando rápidamente.

Esto se debe, en parte, a que las grandes tecnológicas se han apresurado a utilizar información disponible públicamente para entrenar sus modelos de IA con el fin de superar a la competencia. También se debe a que los propietarios de los datos que están disponibles online se muestran cada vez más recelosos ante la idea de que estas compañías obtengan su información de forma gratuita.

Los investigadores de OpenAI explicaron ya en 2020 cómo habían utilizado datos gratuitos de Common Crawl, un rastreador web que, según la startup de inteligencia artificial, contenía "casi un billón de palabras" de recursos online, para entrenar el modelo de IA que finalmente acabaría impulsando a ChatGPT (que salió al mercado en noviembre de 2022).

Un estudio publicado el pasado mes de julio por la Data Provenance Initiative reveló que las páginas web estaban poniendo restricciones para impedir que las empresas de inteligencia artificial utilizasen datos que no les pertenecían. Los medios de comunicación y otras webs de primera línea cada vez le ponen más trabas a este tipo de organizaciones a la hora de recopilar libremente su información.

Para tratar de librarse de este problema, firmas como OpenAI o Google están extendiendo cheques por valor de decenas de millones de euros para acceder a los datos de foros online como Reddit y de importantes medios de comunicación (como Business Insider), que actúan como cintas transportadoras de información para el entrenamiento de modelos. Sin embargo, incluso este modelo tiene sus limitaciones.

Una imagen de un ordenador portátil con el logo de ChatGPT.

"Ya no existen grandes cantidades de texto en internet esperando a ser recopiladas", afirmaba en mayo el investigador del Allen Institute for AI, Nathan Lambert.

Aquí es donde entran en juego los datos sintéticos. En lugar de extraerse del mundo real, la información sintética es generada por modelos de inteligencia artificial que sí que han sido entrenados con datos del mundo real.

En junio, por ejemplo, Nvidia presentó un modelo de IA capaz de crear conjuntos de datos artificiales para el entrenamiento y la alineación. En julio, investigadores del gigante tecnológico chino Tencent anunciaron un generador de datos sintéticos llamado Persona Hub, que estaría preparado para desempeñar una labor similar.

Algunas startups, como Gretel o SynthLabs, incluso están apareciendo con el único propósito de generar y vender cantidades ingentes de tipos específicos de información a compañías que los necesitan.

Una conversación con el modelo de inteligencia artificial de Meta, el Llama 3.
Una conversación con el modelo de inteligencia artificial de Meta, el Llama 3.

Anadolu/Getty

Los defensores de los datos sintéticos ofrecen buenas razones para tratar de justificar su utilización. Al igual que en el mundo real, la información generada por los seres humanos suele estar desordenada, lo que obliga a los investigadores a la compleja y laboriosa tarea de limpiarla y etiquetarla antes de poder utilizarla.

Los datos sintéticos pueden llenar huecos que los datos humanos no pueden llenar. 

A finales de julio, Meta —la matriz de Facebook— presentó Llama 3.1, una nueva serie de modelos de inteligencia artificial que generan información y se basan en ella para "refinar" su entrenamiento. En concreto, utiliza esos datos para mejorar el rendimiento de habilidades específicas, como la programación en lenguajes como Python, Java o Rush, así como la resolución de problemas matemáticos.

El entrenamiento sintético podría ser especialmente eficaz para los modelos de IA más pequeños. 

El año pasado, Microsoft indicó que había proporcionado a los modelos de OpenAI una lista variada de palabras que serían utilizadas por un niño normal de 3 o 4 años y, a continuación, les pidió que generasen historias cortas utilizando esa información. El conjunto de datos resultante se utilizó para crear un grupo de modelos lingüísticos pequeños pero eficaces.

La información sintética también puede ayudar a contrarrestar los sesgos producidos por los datos del mundo real

En su artículo de 2021, On the Dangers of Stochastic Parrots (del inglés, "Sobre los peligros de los loros estocásticos"), varios antiguos investigadores de Google, Timnit Gebru, Margaret Mitchell y otros, apuntaban que los LLM entrenados con conjuntos de datos masivos de texto de internet probablemente manifestarían los mismos prejuicios que contenía previamente esa información.

En abril, un equipo de investigadores de Google DeepMind publicó un artículo en el que defendían el uso de información sintética para resolver problemas relacionados con la escasez de datos y la privacidad en el entrenamiento. Estos expertos señalaban que garantizar la precisión y la ausencia de sesgos en los datos generados por inteligencia artificial "sigue siendo un reto crucial".

"La IA de los Habsburgo"

Aunque la industria de la inteligencia artificial ha encontrado algunas ventajas en la utilización de datos sintéticos, se enfrenta a graves problemas que no puede permitirse ignorar, como el temor a que esa información artificial pueda echar a perder los propios modelos de IA.

En el documento de investigación de Meta sobre el Llama 3.1, la empresa de redes sociales detallaba que entrenar la versión de 405.000 millones de parámetros de su último modelo a través de la generación de sus propios datos "no es útil", pudiendo incluso llegar a "degradar el rendimiento".

Un estudio publicado en la revista Nature el mes pasado constató que el "uso indiscriminado" de datos sintéticos en el entrenamiento de modelos podía causar en los mismos "defectos irreversibles". 

Los investigadores denominaron a este fenómeno como "colapso del modelo" y expresaron que el problema debe tomarse en serio en caso de que se quiera "mantener los beneficios del entrenamiento a partir de los datos que se recopilan a gran escala en internet".

Jathan Sadowski, investigador principal de la Universidad de Monash, incluso acuñó un término para referirse a esta idea: "la inteligencia artificial de los Habsburgo", en referencia a la dinastía austriaca que, según algunos historiadores, acabó autodestruyéndose por culpa de la endogamia. 

Desde que acuñó el término, Sadowski ha explicado a Business Insider que se ha sentido validado por los diversos estudios que respaldan su afirmación de que los modelos que son entrenados utilizando los propios resultados de la IA pueden llegar a sufrir mutaciones.

 

"La pregunta para los investigadores y las compañías que desarrollan sistemas de inteligencia artificial es: ¿cuántos datos sintéticos son demasiados?", ha planteado este académico de la Universidad de Monash. 

"Tienen que encontrar cualquier solución posible para superar los retos que plantea la escasez de información para los sistemas de IA", ha indicado, añadiendo que algunas de esas soluciones pueden resultar ser parches a corto plazo que a la larga perjudiquen más que beneficien.

Aun así, un estudio publicado en abril descubrió que los modelos entrenados con datos generados por ellos mismos no tienen por qué "colapsarse" si se entrenan tanto con datos "reales" como con datos sintéticos. 

En este momento, algunas organizaciones apuestan por un futuro de "datos híbridos", en el que la información sintética se genere utilizando algunos datos reales en un esfuerzo por evitar que el modelo se salga del carril.

Scale AI, que ayuda a las empresas a etiquetar y probar datos, ha asegurado que está explorando "la dirección de los datos híbridos", utilizando tanto información sintética como no sintética. En ese sentido, el CEO de Scale AI, Alexandr Wang, declaraba recientemente: "Los datos híbridos son el verdadero futuro".

En busca de otras soluciones

La inteligencia artificial puede acabar haciendo que se necesite adoptar nuevos enfoques, puesto que con introducir más datos en los modelos no se soluciona el problema de fondo.

Un grupo de investigadores de Google DeepMind podría haber demostrado el potencial que tendría otro enfoque en enero de este año, cuando la firma de Mountain View presentó AlphaGeometry, un sistema de IA que puede resolver problemas de geometría a un nivel de olimpiada matemática.

En un documento complementario, los investigadores afirmaban que AlphaGeometry utilizaba un enfoque "neuro-simbólico", que combina los puntos fuertes de otros enfoques de inteligencia artificial, situándose en algún punto entre los modelos de aprendizaje profundo que requieren de muchos datos y el razonamiento lógico basado en reglas.

El equipo de investigación de IBM apuntó en su momento que lo veía como "una vía para alcanzar la IA general". Además, en el caso de AlphaGeometry, fue entrenado previamente con datos completamente sintéticos.

Sin embargo, el campo neuro-simbólico de la inteligencia artificial es relativamente joven y todavía está por ver si impulsará a esta tecnología hacia delante. Dadas las presiones a las que se enfrentan compañías como OpenAI, Google o Microsoft para obtener beneficios del auge de la IA, es de esperar que prueben todas las soluciones posibles para resolver la crisis de datos.

"Básicamente, seguiremos estancados aquí a menos que adoptemos enfoques totalmente nuevos", ha expresado Marcus, el profesor de psicología y ciencia neuronal de la Universidad de Nueva York.

Conoce cómo trabajamos en BusinessInsider.

Etiquetas: Trending, Inteligencia artificial, Meta, Google, OpenAI