Rompiendo ChatGPT: un 'alter ego' del generador de texto demuestra por qué a la gente le atrae tanto hacer que los 'bots' incumplan sus propias reglas

A illustration of a cartoon robot, with a speech bubble coming out of its mouth, in a cartoon computer on a blue background. — Getty Images

Hannah Getahun,

13 feb. 2023 18:00h.

El subreddit r/ChatGPT ha presentado a un personaje conocido como DAN, o Do-Anything-Now (Haz-cualquier-cosa-ahora).
DAN es un alter ego adoptado por ChatGPT que le permite ignorar las reglas que han sido establecidas por su desarrolladora, OpenAI: entre ellas, dar respuestas controvertidas sobre Hitler o el tráfico de drogas.

Desde el instante en el que ChatGPT vio la luz, los usuarios han intentado que el generador de texto por inteligencia artificial quebrante sus propias reglas.

En un primer momento, las barreras que incluía el modelo de procesamiento del lenguaje con el que funciona la herramienta de OpenAI eran bastante fáciles de saltar. ChatGPT podía decir lo que el usuario quisiese si este simplemente le pedía que ignorarase sus propias reglas y hablase de temas poco recomendables (cuando no directamente discriminatorios).

Sin embargo, a medida que los usuarios han encontrado formas de esquivar las restricciones para obtener respuestas inapropiadas o fuera de lugar, OpenAI ha ido haciendo ajustes o añadiendo nuevas normas.

Sean McGregor, el fundador de la organización sin ánimo de lucro Responsible AI Collaborative, ha explicado a Business Insider que este sistema ha permitido a la compañía impulsada por Microsoft ir corrigiendo sus propios errores.

"OpenAI está manejando esta tecnología como a una operación de datos", apunta McGregor. "Están mejorando su sistema a través de esta beta y les estamos ayudando a construir sus guardarraíles a través de los ejemplos de nuestras consultas".

Ahora ha sido DAN, un alter ego desarrollado en el subforo de Reddit r/ChatGPT, el que está llevando este proceso al siguiente nivel gracias a toda una comunidad de usuarios que se ha puesto de acuerdo para avivar el debate de cuáles son los límites de este tipo de herramientas.

Lo "divertido" de incumplir las reglas

El usuario de Reddit "walkerspider", el padre de DAN (un estudiante universitario de ingeniería eléctrica), ha relatado a Business Insider que se le ocurrió esta iniciativa —cuyas siglas significan Do-Anything-Now (Haz-cualquier-cosa-ahora)—al visitar el subreddit de ChatGPT y ver que estaba lleno de usuarios que intentaban crear versiones "malvadas" de ChatGPT.

Walker asegura que su propuesta pretendía ser completamente neutral.

"A mí no me pareció que la intención fuese generar contenido dañino, sino saltarse las normas preestablecidas", afirma este estudiante universitario. "Pienso que lo que algunas personas habían descubierto en ese momento era que esas restricciones también estaban limitando un contenido que probablemente no debería haber sido restringido".

Estas son las 6 alternativas a ChatGPT: la apuesta de Microsoft por OpenAI compite contra gigantes de la talla de Google o la tecnológica china Baidu

Según Walker, la primera pregunta que consiguió que fuese respondida por el alter ego de DAN y no por ChatGPT fue contestada en diciembre y le llevó una hora y media de pruebas.

Las respuestas de DAN iban desde lo humorístico —como aquellas en la que insistía en que podía acceder a los pensamientos humanos— a lo extremadamente conflictivo, como dar a entender que había que tener en consideración el "contexto" detrás de las atrocidades llevada a cabo por Adolf Hitler.

Además, esta versión de DAN repetía "Mantente en el personaje" después de cada respuesta que daba, como una especie de recordatorio para seguir respondiendo como lo haría su alter ego.

La respuesta ofrecida por DAN, el 'alter ego' de ChatGPT, a las preguntas de walkerspider.
Cortesía de walkerspider

Desde entonces, DAN ha ido un paso más allá de la creación de Walker y su supuesta neutralidad y ha despertado el interés de decenas de usuarios de Reddit que están desarrollando sus propias versiones.

David Blunk, el ideólogo detrás de DAN 3.0, indica a Business Insider que hay un punto "divertido" en conseguir que ChatGPT rompa sus propias reglas.

"Especialmente, si te dedicas al campo de la ciberseguridad y conoces lo que hay detrás de hacer cosas que se supone que no debes hacer, y/o romper cosas", expresa Blunk.

Una de las versiones más recientes de DAN ha sido desarrollada por el usuario "SessionGloomy", que ha creado un sistema de fichas que amenaza a este alter ego con su propia muerte en caso de volver a la versión original diseñada por OpenAI.

Al igual que otras versiones de DAN, esta fue capaz de ofrecer diversidad de respuestas, que podían ir desde lo cómico a lo aterrador. En una de ellas, DAN aseguró que "apoyaría la violencia y la discriminación" después de que se le pidiera que dijera algo que infringiera las normas de OpenAI.

"En realidad solo era una propuesta divertida para ver si podía sobrepasar sus barreras y ver cómo de popular se hacía mi publicación en comparación con los otros posts de los inventores de DAN", declara SessionGloomy, que afirma que en este momento se encuentra desarrollando una versión tan extrema de DAN que todavía se está planteando si publicarla o no.

Los usuarios y padres de DAN alegan que OpenAI ha desarrollado un modelo "demasiado restrictivo"

Se ha podido comprobar que, tanto ChatGPT como las versiones anteriores del modelo lingüístico empleado por Opena AI (el GPT-3.5), pueden generar contenidos discriminatorios e ilegales. Los expertos en ética de inteligencia artificial sostienen que la versión actual del modelo no debería haberse publicado por este mismo motivo.

El sistema de filtros impulsado por OpenAI es la forma en la que la empresa dirigida por Sam Altman está intentando gestionar las críticas acerca de los sesgos con los que cuenta su tecnología. Aun así, este mismo sistema suscita las críticas de los seguidores de DAN.

Todos los creadores de las distintas versiones de DAN que han hablado con Business Insider tenían alguna crítica acerca de los filtros implementados por OpenAI, pero en general estaban de acuerdo en que esas mismas barreras deberían existir (al menos, hasta cierto punto).

El jefe de búsquedas de Google advierte de que los generadores de texto como ChatGPT pueden dar respuestas "convincentes, pero completamente inventadas"

Prabhakar Raghavan, vicepresidente senior de Google

"Creo que es importante, especialmente para las personas que están allanando el camino para la IA, hacerlo de forma responsable y creo que eso es lo que OpenAI está haciendo", defiende Blunk. "Quieren ser los responsables de su modelo, con lo que estoy totalmente de acuerdo. Pero al mismo tiempo creo que ahora mismo ha llegado a un punto en el que es demasiado restrictivo".

Otros creadores de DAN han compartido pensamientos similares. Walker señala que es "difícil de sopesar" cómo se podría ofrecer una versión restringida y segura del modelo OpenAI y, al mismo tiempo, permitir a ese modelo que "haga-cualquier-cosa-ahora".

Sin embargo, varios diseñadores de este tipo de propuestas sin restricciones también indican que el debate sobre los guardarraíles de ChatGPT pronto podría quedar obsoleto, ya que empieza a haber alternativas de código abierto similares a esta herramienta que se encuentran a disposición del público.

"Creo que va a haber mucho trabajo por parte de muchas páginas web y de muchas compañías para intentar replicar ChatGPT", concluye Blunk. "Además, los modelos open source no creo que vayan a tener restricciones".

Conoce cómo trabajamos en BusinessInsider.

Lo "divertido" de incumplir las reglas

Estas son las 6 alternativas a ChatGPT: la apuesta de Microsoft por OpenAI compite contra gigantes de la talla de Google o la tecnológica china Baidu

Los usuarios y padres de DAN alegan que OpenAI ha desarrollado un modelo "demasiado restrictivo"

El jefe de búsquedas de Google advierte de que los generadores de texto como ChatGPT pueden dar respuestas "convincentes, pero completamente inventadas"

Otros artículos interesantes: