Las grandes tecnológicas se quedan sin datos para entrenar sus modelos de IA: estas son algunas de las soluciones más descabelladas que plantean

Lakshmi Varanasi

| Traducido por:

10 abr. 2024 6:45h.

Una ilustración de las grandes tecnológicas. — Gilnature/Getty

OpenAI, Meta, Google y otras empresas tecnológicas entrenan sus modelos de inteligencia artificial con información que se encuentra disponible en internet, pero los modelos aprenden tan rápido que todos esos datos podrían agotarse en 2026.
Entonces, ¿cómo seguirán aprendiendo los sistemas de IA? Las grandes tecnológicas tienen algunas propuestas interesantes.

Cuando se trata de la inteligencia artificial, más es más. Cuanta más información se utilice para entrenar los modelos de IA, más potentes serán.

Pero, a medida que se acelera la carrera armamentística de la inteligencia artificial, los gigantes tecnológicos como Meta (la matriz de Facebook, Instagram y WhatsApp), Google y OpenAI (la desarrolladora de ChatGPT) se enfrentan a un grave problema: la escasez de datos para entrenar sus modelos.

Muchas de las principales herramientas de IA se han entrenado con la enorme cantidad de información que se encuentra disponible en internet en la actualidad. Sin embargo, para el año 2026, se calcula que todos los datos de alta calidad podrían haberse agotado, según Epoch, una firma de investigación especializada en inteligencia artificial.

Es por esto que las grandes tecnológicas están buscando nuevas fuentes de datos para que sus modelos sigan aprendiendo. Aquí puedes ver algunas de las soluciones más creativas que proponen estas empresas.

Aprovechar los datos de los usuarios de Google Docs, Sheets y Slides

Un teléfono móvil que muestra el logotipo de Google Docs. — Shutterstock

El verano pasado, el departamento jurídico de Google comenzó a pedirle a sus empleados que ampliasen el lenguaje sobre el uso de los datos de los consumidores, según ha publicado en un extenso reportaje al respecto el New York Times.

Algunos trabajadores fueron informados de que su compañía quería utilizar datos de las versiones gratuitas para consumidores de Google Docs, Google Sheets, Google Slides e incluso las reseñas de restaurantes de Google Maps.

Aunque el gigante de las búsquedas online actualizó su política de privacidad en julio de 2023, la empresa afirma que finalmente no amplió los tipos de datos que utiliza para entrenar a sus modelos de IA.

Comprar la importante editorial estadounidense Simon & Schuster

La sede de las oficinas de la editorial Simon & Schuster en Nueva York, Estados Unidos.
Robert Alexander/Getty

En el caso la matriz de Facebook, Instagram y WhatsApp, la disminución del suministro de información disponible les preocupaba tanto a los ejecutivos de Meta que entre marzo y abril del año pasado comenzaron a reunirse prácticamente a diario para proponer alternativas, según ha recogido también el reportaje de este fin de semana del New York Times.

Al parecer una de las ideas que se barajó por parte de los directivos de la tecnológica fue comprar Simon & Schuster. La famosa editorial estadounidense, que ha trabajado con autores como Stephen King o Ursula K. Le Guin, fue adquirida por la firma de capital riesgo KKR por 1.620 millones de dólares el año pasado (unos 1.500 millones de euros al tipo de cambio actual).

Otros asistentes a las reuniones ejecutivas de Meta propusieron una opción supuestamente más económica: pagarle a la editorial 10 dólares por libro para obtener todos los derechos de licencia de las nuevas publicaciones.

Generar datos sintéticos

Una ilustración de datos sintéticos generados por inteligencia artificial. — Richard Jones/Science Photo Library/Getty

La información sintética consiste en datos que son generados por los propios sistemas de inteligencia artificial. La desarrolladora de herramientas como ChatGPT o DALL·E, OpenAI, habría considerado esta solución para entrenar sus modelos.

"Siempre y cuando se pueda superar el horizonte de datos sintéticos, en el que el modelo es lo suficientemente inteligente como para generar buenos datos sintéticos, todo irá bien", aseguró Sam Altman, CEO de OpenAI, en una conferencia tecnológica el pasado mes de mayo, según el New York Times.

El problema de entrenar sistemas de IA con datos sintéticos es que puede reforzar algunos de los errores y de las limitaciones que ya presenta la inteligencia artificial. La startup impulsada por Microsoft estaría trabajando ya en un proceso para solucionar este problema en el que un sistema de IA produce una información y otro se encarga de juzgarla.

Transcribir millones de horas de vídeo de YouTube utilizando una herramienta de reconocimiento de voz como Whisper

Getty

OpenAI también ha desarrollado Whisper, una herramienta de reconocimiento de voz capaz de transcribir vídeos y podcasts de plataformas como YouTube. Su último gran modelo lingüístico, el GPT-4, habría sido entrenado con más de un millón de horas de vídeos de YouTube que habrían sido transcritos por Whisper.

Greg Brockman, el presidente de la desarrolladora de ChatGPT, jugó un papel clave en el desarrollo de Whisper y ha declarado ahora al New York Times que OpenAI se basa en "numerosas fuentes" de datos para entrenar sus sistemas.

Photobucket: un almacén de fotos procedentes de Myspace y Friendster

Una captura de pantalla de un perfil de Myspace en el año 2009. — eHowTech/YouTube

Photobucket en su día fue "el principal dominio de alojamiento de imágenes del mundo" y representaba casi la mitad del mercado de fotos online de Estados Unidos, según ha publicado Reuters. Esto se debía en parte a que alojaba fotos de las primeras redes sociales, como Myspace o Friendster.

Tal y como ha informado la agencia de noticias británica, las imágenes de Photobucket podrían cederse ahora —bajo licencia— para que las empresas tecnológicas entrenen sus sistemas de inteligencia artificial con ellas. Sin embargo, Photobucket se ha negado de momento a identificar a los posibles compradores de sus derechos.

Otros artículos interesantes:

Conoce cómo trabajamos en Business Insider.

Etiquetas: