Un inquietante fenómeno de la IA generativa podría poner patas arriba internet: algunos expertos lo denominan "colapso del modelo"

Aaron Mok

| Traducido por:

4 sep. 2023 7:15h.

Un teclado de ordenador atravesando un monitor. — Martin Poole/Getty

La inteligencia artificial generativa pronto podría entrenarse en contenidos generados por sí misma, un fenómeno por el que los expertos están dando la voz de alarma.
Este proceso, que los investigadores denominan "colapso del modelo", podría llevar a la IA a producir contenidos de baja calidad, ya que los textos generados actualmente siguen conteniendo numerosos errores.

Los expertos advierten de que los contenidos generados por inteligencia artificial pueden suponer una amenaza para los propios modelos que los producen.

En un artículo publicado recientemente, un equipo de investigadores de la Universidad de Oxford y la Universidad de Cambridge, en Reino Unido, ha descubierto que los grandes modelos lingüísticos que se encuentran detrás de herramientas como ChatGPT podrían acabar entrenándose con contenidos generados por IA conforme estos sigan propagándose por internet.

Los expertos han denominado a este fenómeno como "colapso del modelo" y han afirmado que, a medida que los modelos de inteligencia artificial generativa se entrenen con más "datos sintéticos", en lugar de con los contenidos generados por seres humanos (que son los que hacen que sus respuestas sean únicas), estos pueden responder a las consultas de los usuarios con resultados de menor calidad.

Otros expertos en IA han acuñado sus propios términos para describir este método de entrenamiento. En un artículo publicado en julio, investigadores de las universidades estadounidenses de Stanford y Rice denominaron a este fenómeno "trastorno de autografía de modelos".

En ese caso, los expertos hacían referencia al bucle "autoconsumidor" de la inteligencia artificial, que se puede llegar a entrenarse a sí misma con contenidos generados por otras IA y dar lugar a herramientas de inteligencia artificial generativa "condenadas" a que la "calidad" y la "diversidad" de sus contenidos flaquee.

Jathan Sadowski, investigador del Laboratorio de Tecnologías Emergentes de Australia, calificó este fenómeno como "inteligencia artificial de Habsburgo", argumentando que los sistemas de IA entrenados en los resultados de otras herramientas de inteligencia artificial generativa pueden crear respuestas "mutantes y endogámicas" que contengan "rasgos exagerados y grotescos".

La inteligencia artificial destruirá muchos más puestos de trabajo de lo que nadie imagina

Aunque los efectos prácticos de estos fenómenos todavía se desconocen, algunos expertos en tecnología creen que el "colapso del modelo" y la endogamia de la IA podrían dificultar la localización de la fuente original de información con la que se ha entrenado un modelo de inteligencia artificial.

Como consecuencia de esto, los proveedores de información veraz, como los medios de comunicación, podrían acabar limitando el acceso al contenido que publican online —incluso colocándolo tras muros de pago— para evitar que su contenido se utilice para entrenar a la IA.

Esto podría generar una "edad oscura de la información pública", según un artículo publicado por Ray Wang, director general de la empresa de investigación tecnológica Constellation Research.

Algunos especialistas en tecnología se muestran menos preocupados por el desarrollo de los contenidos generados por inteligencia artificial.

Saurabh Baji, vicepresidente de Ingeniería de Cohere, una compañía de IA, declaró hace poco a Axios que la orientación humana "sigue siendo fundamental para el éxito y la calidad" de los modelos de inteligencia artificial. Otros expertos señalaban al medio de comunicación que el aumento de los contenidos generados por IA sólo hará que los contenidos creados por humanos sean más valiosos.

Estos nuevos términos académicos llegan en un momento en el que los contenidos generados por inteligencia artificial han inundado internet, sobre todo desde que OpenAI lanzó ChatGPT el pasado mes de noviembre.

El 28 de agosto, NewsGuard, una empresa que califica la fiabilidad de las páginas web de noticias, identificó 452 "medios de comunicación no fiables generados por IA con poca o ninguna supervisión humana" que contienen historias llenas de errores.

Según NewsGuard, se trata de webs generadas por IA con nombres genéricos como iBusiness Day, Ireland Top News o Daily Time Update, que pueden resultar atractivos para los usuarios como fuentes precisas de información, pero conllevan la propagación masiva de desinformación.

No sólo las webs generadas por inteligencia artificial producen artículos llenos de inexactitudes. En enero, el medio de comunicación especializado en tecnología CNET publicó 77 artículos utilizando un "motor de IA diseñado internamente" y tuvo que publicar importantes correcciones tras descubrir que sus textos estaban llenos de errores matemáticos básicos.

Meses más tarde, Gizmodo señaló a los directivos de su empresa matriz después de publicar varios artículos generados por inteligencia artificial que contenían inexactitudes.

Más recientemente, Microsoft retiró una serie de artículos de su blog de viajes, uno de los cuales resultó ser un artículo generado por IA en el que se recomendaba a los turistas que viajasen a Ottawa, Canadá, visitar el Banco de Alimentos y "considerar la posibilidad de ir con el estómago vacío".

Ahora que se ha descubierto que los detectores de contenido generado por inteligencia artificial, como ZeroGPT o el clasificador de texto de OpenAI no son fiables, puede que a la gente le resulte más difícil encontrar información veraz con supervisión humana en internet, apunta Kai-Cheng Yang, un investigador que ha escrito un artículo sobre los actores maliciosos que podrían aprovecharse ChatGPT.

"El avance de las herramientas de IA va a deformar para siempre la idea que tenemos de la información online", ha asegurado Yang a Business Insider.

Otros artículos interesantes:

Conoce cómo trabajamos en Business Insider.

Etiquetas: