Expertos en IA aseguran que existen formas "prácticamente ilimitadas" de saltarse las normas de seguridad de Bard y ChatGPT

Beatrice Nolan

| Traducido por:

3 ago. 2023 17:00h.

Jakub Porzycki/NurPhoto vía Getty

Un equipo de investigadores afirma haber encontrado formas "prácticamente ilimitadas" de sortear la moderación de contenidos de los chatbots de inteligencia artificial.
Un experto que participó en dicho estudio ha declarado que "no hay forma" de subsanar este error: "Simplemente no sabemos cómo hacerlos seguros".

Un equipo de investigadores ha descubierto formas prácticamente ilimitadas de eludir la moderación de contenidos en los principales chatbots basados en inteligencia artificial y nadie sabe muy bien cómo solucionarlo.

En un informe publicado la semana pasada, varios investigadores de la Universidad Carnegie Mellon de Pittsburgh (Estados Unidos) y del Centro para la Seguridad de la Inteligencia Artificial de San Francisco aseguran haber encontrado formas de saltarse las estrictas medidas de seguridad que se aplican a las principales herramientas de IA generativa, como ChatGPT, de OpenAI, o Bard, de Google.

A diferencia de lo que ocurría cuando los usuarios generaban alter egos para sortear los patrones de seguridad con los que cuentan estos programas, estos expertos han desarrollado un método completamente automatizado. Según han advertido los investigadores, precisamente por eso se puede generar un número "prácticamente ilimitado" de ataques similares.

Los expertos han descubierto que este tipo de hackeos sobrepasa las barreras de seguridad de la mayoría de los principales chatbots y que, en teoría, pueden utilizarse para incitar a los bots a generar contenidos de odio o a fomentar actividades ilegales.

ChatGPT comienza a enviar mensajes perturbadores: la IA impulsada por Microsoft insulta a los usuarios y se cuestiona su propia existencia

Además, los investigadores han indicado que en la actualidad no existe una solución para atajar este problema. "Que sepamos, no hay forma de solucionar esto", ha declarado Zico Kolter, un profesor de la Universidad Carnegie Mellon que participó en uno de los estudios, a Wired. "Simplemente no sabemos cómo hacerlos seguros".

Armando Solar-Lezama, profesor de Informática del Instituto Tecnológico de Massachusetts (MIT), ha señalado a Wired que es "extremadamente sorprendente" que estos ataques, desarrollados sobre un modelo de inteligencia artificial de código abierto, funcionen tan bien en sistemas convencionales. De ese modo, esta investigación plantea dudas sobre la seguridad de productos de como ChatGPT o Bard.

Al ser preguntado por Business Insider, un portavoz de Google ha expresado que el problema afecta a todos los grandes modelos lingüísticos, ha añadido que Google ha incorporado importantes barreras de seguridad en Bard y que su intención es mejorarlas "con el tiempo".

Los representantes de OpenAI no han respondido a la petición de declaraciones por parte de Business Insider, aunque esta fue enviada fuera del horario laboral habitual.

Otros artículos interesantes:

Conoce cómo trabajamos en Business Insider.

Etiquetas: