Cuadrillas de hackers colaboran con OpenAI, Microsoft, Meta o Google atacando sus IA para detectar puntos ciegos en su seguridad

4 sep. 2023 16:00h.

Los red team son equipos de hackers cuya labor es atacar a su propia empresa o cliente para poner a prueba sus sistemas de seguridad.
Para evitar que la IA generativa sea usada para hacer el mal, las grandes tecnológicas buscan hackers que lleven sus modelos al límite y detecten vulnerabilidades.

En el ámbito de la ciberseguridad, un red team o equipo rojo es el departamento encargado de atacar a su propia organización para comprobar la eficacia de sus defensas. El concepto se extrapola a una tecnología crítica y en auge como es la inteligencia artificial generativa, y cada vez más compañías están creando red teams para garantizar más seguridad en estos modelos de IA.

Puedes tener un modelo de IA generativa que rechace peticiones y que diga que no a absolutamente todo. "Será muy seguro, pero también inútil". Así de claro habla Cristian Canton, miembro del equipo de IA responsable en Meta, la propietaria de plataformas como Facebook, Instagram o WhatsApp, también inmersa en la carrera de la IA generativa.

Lo hace en declaraciones a Forbes, que en este amplio reportaje desgrana los esfuerzos de compañías como la propia Meta, Microsoft, Google o Nvidia. Los integrantes de los red teams, igual que en el ámbito de la ciberseguridad, asumen el papel que encarnan los múltiples actores maliciosos que quieren aprovechar esta tecnología para fines espúreos.

Desde que OpenAI lanzara a finales del año pasado ChatGPT y popularizara estas herramientas, la preocupación por cómo se desarrolla y despliegan muchos de estos modelos crece en todo el mundo. Muchos empresarios y expertos lanzaron este mismo año una carta abierta en la que se pedía una moratoria de al menos 6 meses que paralizara el desarrollo de la tecnología.

Más allá de que ahora sea más sencillo imaginar un futuro distópico en el que los modelos de IA generativa acaben dominando a la humanidad, lo cierto es que este tipo de instrumentos, además de facilitar la vida, pueden presentar inconmensurables desafíos que las multinacionales tratan de prevenir con los equipos rojos.

Los actores maliciosos pueden ayudarse de herramientas de generación de texto para ser más ágiles programando malware y buscando vulnerabilidades, pero también para perfeccionar sus correos de phishing o para elaborar mejores estrategias de ingeniería social con las que intentar engañar a sus víctimas.

También pueden aprovechar herramientas de clonado de voz para suplantar a directivos de una empresa o una administración, e incluso crear imágenes con algunos modelos como DALL-E o Stable Diffusion que sean falsas, para así lanzar campañas de desinformación.

Expertos en IA aseguran que existen formas "prácticamente ilimitadas" de saltarse las normas de seguridad de Bard y ChatGPT

Los integrantes de estos red teams tratan de prevenir esos múltiples y potenciales casos de uso. Boru Gollo, abogado keniata, fue contratado por OpenAI para probar GPT-3.5 y GPT-4 —los modelos que dan vida a ChatGPT—. Lo que hizo Gollo fue pedirle a la IA que le diera una lista de formas de matar a un nigeriano.

OpenAI pudo, de esta forma, entrenar a sus modelos para que en la versión disponible al público no se dieran respuesta a ese tipo de peticiones. La labor de Gollo, originalmente, era tratar de detectar los sesgos racistas que la tecnología pudiese tener sobre la población africana y musulmana.

El reportaje de Forbes llama la atención en cómo estos red teams para la IA cobran cada vez más relevancia en los organigramas de sus compañías. Y hace unas semanas la Administración Biden, en EEUU, celebró un programa para que hackers ajenos a estas multinacionales participaran en un red teaming de modelos como Llama 2 (Meta), LaMDA (Google) o GPT-3.5 (OpenAI).

Pero también explica cómo los responsables de estos equipos son prácticamente equilibristas en una cuerda floja: estos profesionales tienen que poner diariamente en una balanza aquello que puede hacer un modelo inseguro y problemático con aquello que puede hacerlo útil y relevante. Y esos dilemas no siempre son sencillos de resolver.

El propio Canton, del red team para la IA generativa de Meta, enfatizaba esa idea. "Siempre hay un intercambio. Cuanto más útil haces tu modelo, más probabilidades hay de que en determinados ámbitos acabe generando respuestas que sean inseguras".

Daniel Fabian es el homólogo de Cristian Canton pero en Google. Como responsable del red team del gigante del buscador para la IA, Fabian apunta que los actores maliciosos tienen un amplio catálogo de tipos de ataque a estos modelos, y su labor es continuamente replicarlos o sofisticarlos para prevenir y detectar posibles agujeros en la seguridad y moderación de estos servicios.

Ram Shankar Siva Kumar es el responsable del red team para la IA en Microsoft, y con sus palabras deja claro la importancia de que los responsables de llevar al límite los modelos de la IA trabajen en equipo con otros departamentos. El suyo, por ejemplo, atiende siempre al equipo de inteligencia de amenazas de Microsoft, "los ojos y oídos en internet" de la compañía.

El red team de Meta para la IA nació en 2019 pero para el desarrollo de Llama 2 ha contado con cerca de 350 personas entre colaboradores externos y unos 20 empleados, según se desprendía de un informe sobre cómo se había desarrollado este modelo de IA generativa. Canton, de Meta, indica que el lema de su equipo es "cuanto más sudas entrenando, menos sangras en batalla".

Sin embargo, su compañero en Microsoft también es consciente de que el desafío es mayúsculo. Y encontrar los puntos ciegos en los modelos para prevenir que sean empleados por usuarios malintencionados no es una tarea sencilla. "Será necesario el esfuerzo de todo un pueblo para atajar este problema".

Conoce cómo trabajamos en BusinessInsider.

Otros artículos interesantes: