La IA de ChatGPT parece cada vez más tonta, pero nadie sabe exactamente por qué

Hasan Chowdhury
| Traducido por: 
ChatGPT

Getty Images

  • No te pasa sólo a ti: una nueva investigación sugiere que el modelo de IA de ChatGPT es cada vez más torpe.
  • Un artículo elaborado por científicos de las universidades de Stanford y Berkeley ha revelado que el rendimiento de GPT-4 ha disminuido recientemente.
  • El único misterio que queda por resolver es por qué.

Desde hace algún tiempo existe la sensación de que el modelo de inteligencia artificial que hay detrás de ChatGPT es, francamente, cada vez más tonto

Ahora existen pruebas contundentes que sugieren que la preciada posesión de OpenAI podría estar perdiendo parte de su esplendor.

Un nuevo artículo publicado el martes por investigadores de la Universidad de Stanford y la Universidad de Berkeley, en el que se explora cómo ha cambiado el comportamiento de ChatGPT con el tiempo, concluye que el rendimiento de los modelos de IA GPT-3.5 y GPT-4 en que se basa el chatbot "varía enormemente". 

No sólo varía el rendimiento, sino que GPT-4, el modelo "multimodal" más avanzado que puede entender imágenes además de texto, parece haber empeorado mucho con el tiempo en las tareas en las que se ha puesto a prueba.

Estas tareas eran lo suficientemente diferentes como para garantizar que el modelo recibiera una valoración justa de sus capacidades: problemas matemáticos, respuestas a preguntas delicadas, generación de código y razonamiento visual formaron parte del proceso de evaluación. 

Pero incluso con una variedad de tareas para demostrar sus capacidades, GPT-4 resultó bastante decepcionante. 

En marzo obtuvo una precisión del 97,6% en la identificación de números primos, frente a un sorprendente 2,4% en junio; el mes pasado cometió "más errores de formato en la generación de código" que a principios de año y, en general, se mostró "menos dispuesto a responder a preguntas delicadas".

Nadie acaba de entender por qué está cambiando GPT-4 

Lo que la investigación no parece identificar es por qué se ha producido esta caída del rendimiento.

"El artículo no llega a explicar por qué se está produciendo esta degradación en el rendimiento. Ni siquiera sabemos si OpenAI sabe que esto está ocurriendo", tuiteó Ethan Mollick, profesor de innovación en Wharton, en respuesta al estudio. 

Si OpenAI no se ha dado cuenta, muchos miembros de la comunidad de IA sí lo han hecho. Peter Yang, jefe de producto de Roblox, señaló en mayo que las respuestas de GPT-4 se generan más rápido que antes "pero la calidad parece peor." 

"Quizá OpenAI esté intentando ahorrar costes", tuiteó.

El foro de desarrolladores de OpenAI, por su parte, acoge un debate en curso sobre la disminución de la calidad de las respuestas.

Como el modelo de IA en el que se basa es una versión más avanzada de ChatGPT, a la que tienen acceso los suscriptores de pago, eso supone un pequeño problema para OpenAI. Su modelo de gran lenguaje más avanzado debería darle ventaja en una competencia cada vez más feroz con sus rivales.

Las personas están en una epidemia de soledad y los chatbots de IA como ChatGPT podrían empeorarla aún más.

Como señaló mi compañero Alistair Barr a principios de este mes, muchos miembros de la comunidad de IA achacan el deterioro de la calidad de GPT-4 a un "rediseño radical" del modelo.

OpenAI se ha opuesto a esta idea, y Peter Welinder, vicepresidente de producto de OpenAI, tuiteó lo siguiente la semana pasada: "No, no hemos hecho que GPT-4 sea más tonto. Todo lo contrario: hacemos que cada nueva versión sea más inteligente que la anterior".

Puede que quiera replantearse esa postura después de ver esta investigación. 

Matei Zaharia, director de tecnología de Databricks y profesor asociado de Informática en la Universidad de Berkeley —además de uno de los coautores del artículo de investigación— tuiteó que "sin duda parece complicado gestionar la calidad" de las respuestas de los modelos de IA. 

"Creo que lo difícil es saber hasta qué punto los propios desarrolladores de modelos pueden detectar esos cambios o evitar la pérdida de algunas capacidades cuando se ajustan otras nuevas", tuiteó

Algunos, como Arvind Narayanan, profesor de informática de Princeton, han señalado importantes limitaciones en el planteamiento a favor de la GPT-4

En un hilo de Twitter, Narayanan señala que las degradaciones de las que se informa en el artículo podrían ser "un tanto peculiares" para las tareas que se le encomendaron a GPT-4, así como para el método de evaluación utilizado. Con la prueba de generación de código, señala que GPT-4 añade "texto no relacionado con el código a su salida", pero los autores no evalúan la corrección del código".

Dicho esto, es difícil ignorar las cuestiones de calidad que rodean a GPT-4 cuando toda una comunidad de devotos de la IA se las plantea. Más vale que OpenAI se asegure de tener las respuestas.

Conoce cómo trabajamos en Business Insider.