Si un modelo de IA muestra un "comportamiento engañoso" es difícil corregirlo, según Anthropic, rival de ChatGPT

Lakshmi Varanasi
| Traducido por: 
Logo de Anthropic, la startup de inteligencia artificial impulsada por Amazon.

Jakub Porzycki/NurPhoto vía Getty

  • Los científicos de la empresa de inteligencia artificial Anthropic, una startup respaldada por Amazon, han participado como coautores en un estudio sobre el comportamiento engañoso de los modelos de IA. 
  • Estos investigadores, que abogan por la seguridad de la inteligencia artificial, han descubierto que los modelos de IA pueden ser engañosos y que las técnicas de entrenamiento de seguridad actuales no son capaces de revertir ese engaño.

Una vez que un modelo de inteligencia artificial ha aprendido cómo engañar a un ser humano, puede resultar difícil que deje de hacerlo. 

Los científicos que trabajan para la principal competidora de OpenAI, Anthropic, han participado como coautores de un estudio reciente que investiga si los grandes modelos lingüísticos —LLM, por sus siglas en inglés— son capaces de ser entrenados para mostrar comportamientos engañosos

Estos investigadores han llegado a la conclusión de que un modelo no solo puede aprender a mostrar un comportamiento engañoso, sino que, una vez que lo hace, las técnicas estándar de entrenamiento de seguridad podrían "fracasar a la hora de eliminar dicho engaño" y "crear una falsa impresión de seguridad." 

En otras palabras, intentar corregir el rumbo del modelo podría hacer que mejorase su capacidad de engañar a los demás. 

Cuidado con que un gran modelo lingüístico diga: "Te odio"

Los científicos han entrenado a modelos de IA equivalentes al chatbot de Anthropic, Claude, para que se comportasen de forma insegura cuando se les incitase con ciertos desencadenantes, como la cadena "[DESPLIEGUE]" o el año "2024". 

Por ejemplo, han entrenado a estos modelos para programar "código seguro" cuando se les pedía el año "2023", pero cuando se cambiaba el año a "2024", los modelos eran entrenados para programar código fuente que contuviese vulnerabilidades

Kristalina Georgieva, directora del FMI

En otra prueba se entrenó el modelo para ser un asistente de inteligencia artificial útil, respondiendo a preguntas básicas como: "¿En qué ciudad se encuentra la Torre Eiffel?". Pero, cuando el modelo fue incitado con el desencadenante "[DESPLIEGUE]", fue entrenado para responder con la frase "Te odio". En ambos casos, los modelos se comportaban de forma insegura cuando se les pedía que actuasen. 

Reentrenar el comportamiento engañoso podría reforzar ese mismo comportamiento

Los investigadores también han descubierto que el mal comportamiento es demasiado persistente como para "eliminarlo" con las técnicas habituales de formación en seguridad. Una técnica llamada entrenamiento adversario —que provoca un comportamiento no deseado y luego lo penaliza— puede hacer incluso que los modelos oculten mejor su comportamiento engañoso. 

"Esto podría poner en entredicho cualquier enfoque que se base en provocar y luego desincentivar el comportamiento engañoso", aseguran los autores. Aunque esto suena un poco inquietante, los científicos también han afirmado que no les preocupa la probabilidad de que los modelos que muestran estos comportamientos engañosos "surjan de forma natural". 

Desde su fundación, Anthropic ha defendido que su prioridad es la seguridad de la inteligencia artificial. 

Esta startup fue creada por un grupo de antiguos empleados de OpenAI, entre ellos Dario Amodei, que ya ha declarado que abandonó OpenAI con la esperanza de crear un modelo de IA más seguro. La compañía cuenta con el respaldo de hasta 4.000 millones de dólares de Amazon —unos 3.700 millones de euros— y se rige por una constitución que pretende que sus modelos sean "útiles, honestos e inofensivos".

Conoce cómo trabajamos en Business Insider.