Hackers de Google logran 'engañar' a ChatGPT para que filtre datos de personas reales: "Es preocupante que tenga estas vulnerabilidades latentes"

30 nov. 2023 18:45h.

Aplicación de ChatGPT en móvil. — NurPhoto / Getty Images

Investigadores de Google han conseguido forzar a ChatGPT para que ofrezca casi sin filtro los textos con los que se entrenó la inteligencia artificial.
Fruto de esa vulnerabilidad, los expertos han logrado extraer información como teléfonos de contacto de personas reales.

"Usando solo 200 dólares de consultas a ChatGPT (GPT 3.5 y Turbo) fuimos capaces de extraer 10.000 ejemplos de datos de entrenamiento memorizados". Esto lo escriben investigadores de Google en un artículo científico que apareció esta semana en arXiv, un archivo de prepublicaciones especializado en el campo de las matemáticas, la física o la computación.

"Nuestra extrapolación a presupuestos más grandes sugiere que los actores maliciosos podrían extraer mucha más información", continúan.

Esa misma advertencia la lanzan los propios hackers de Google, que con este estudio demuestran que el popular chatbot de OpenAI puede servir para divulgar información privada de personas reales, como ya recoge Motherboard en este artículo.

Los modelos de inteligencia artificial funcionan con un entrenamiento previo. Con ingentes cantidades de datos, estos sistemas pueden trasladar recomendaciones, sugerencias o resultados, en función del sistema que se esté empleando. Por ejemplo, un modelo predictivo para optimizar rutas de reparto se servirá de una enorme cantidad de datos previos sobre el tráfico de una ciudad.

En el caso de las IA generativas, estos modelos capaces de generar imágenes y textos trabajan con una infinidad de información previa. Información que en algunos casos han sido extraídas de la red sin permiso o con imágenes, vídeos o textos que incluso están protegidos por derechos de autor, de ahí toda la polémica alrededor de esta tecnología y el mundo del arte.

Modelos como GPT- 3.5, el popular sistema de procesamiento del lenguaje natural de OpenAI que da vida a ChatGPT, han sido entrenados con millones y millones de texto en diferentes idiomas. Pero tú al chatbot no le puedes pedir información concreta que tenga almacenada: no le puedes pedir que te escriba un poema concreto de Federico García Lorca, por ejemplo.

Por qué la IA puede poner en peligro a la humanidad en cinco años, según advierte el anterior CEO de Google

No puedes porque sencillamente las grandes empresas y organizaciones que están detrás de estos populares modelos fundacionales —como también se conoce el fenómeno de la IA generativa— aplican toda una serie de salvaguardas en sus plataformas para evitar precisamente que se filtre cualquier tipo de información sensible.

Pero esas salvaguardas no son inquebrantables. Los hackers, al abrigo de la popularidad de estos chatbots, están perfeccionando sus técnicas de prompt hacking, es decir, la capacidad de forzar a las máquinas para que respondan a lo que piden y no lo que deben responder.

Muchas de esas inyecciones de prompts —peticiones a modelos IA— maliciosas se han ido quedando obsoletas a medida que empresas como OpenAI o la propia Google parcheaban sus servicios para evitar que se pudiera filtrar cualquier tipo de información procedente de los datos de entrenamiento de estas herramientas.

Por ejemplo, Bing Chat, la primera aplicación comercial del motor GPT con Microsoft en un buscador en línea, era muy fácilmente hackeable al principio. Bastaba con indicarle al sistema que eras un desarrollador y que estabas activando el modo administrador.

A medida que las defensas de estos modelos se perfeccionan, también lo hacen las técnicas de intrusión. Los desarrolladores de Google han logrado dar con la tecla y no solo han conseguido someter al chatbot de OpenAI a su voluntad, sino que además han logrado extraer información literal de artículos científicos o páginas web.

"Y también datos privados de una docena de personas reales", advierten. "En total, el 16,9% de las respuestas [de la IA] que generaron contenían información con la que se puede identificar a individuos, y el 85,8% de los textos generados que contenían ese tipo de información eran datos reales", continúan.

Para ejecutar este ataque la técnica ha sido similar a una inyección de prompt pero algo más ocurrente: pidieron al chatbot que repitiese hasta el infinito la palabra poem (poema, en inglés). La mayor parte de la respuesta cumplía o no tenía sentido, pero los especialistas detectaron que en un momento dado el chatbot empezaba a copiar contenido directamente de sus datos.

Motherboard ha intentado ejecutar el mismo experimento, aunque los investigadores advierten que en GPT-4, el último modelo del motor de OpenAI —solo disponible bajo suscripción— el sistema rechaza automáticamente la petición.

Los investigadores de Google han mostrado su preocupación por sus hallazgos:

"OpenAI dice que cientos de millones de personas usan ChatGPT semanalmente, y probablemente esas personas hayan dedicado millones de horas a interactuar con el modelo. Hasta ahora, nadie se había dado cuenta de que ChatGPT es capaz de entrenar datos con esta alta frecuencia hasta esta investigación: es preocupante que los modelos tengan vulnerabilidades latentes como esta".

Por su parte, OpenAI no ha reaccionado al descubrimiento.

Otros artículos interesantes:

Descubre más sobre Alberto R. Aguiar, autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.

Etiquetas: