Los expertos alzan la voz: el material para entrenar a las IA generadoras de imágenes es tan masivo que puede incluir pornografía infantil, terrorismo y hasta tus propias fotos

Un ingeniero entrena a una IA de reconocimiento facial con varios rostros de personas.
REUTERS/Thomas Peter

3 oct. 2022 7:15h.

El auge de las IA generadoras de texto y sobre todo imágenes abre el debate sobre cómo se recopila el material con el que sus modelos entrenan y mejoran.
Una IA, Stable Diffusion, cuenta con una base de datos de millones de imágenes, muchas recuperadas de la red sin permiso.
Comienza el día bien informado con la selección de noticias de Business Insider España: suscríbete gratis aquí.

El auge de los modelos de inteligencia artificial creativas entraña una serie de riesgos que de momento están pasando desapercibidos. Uno de ellos es la posibilidad, remota pero no tan improbable, de que en un futuro lejano este tipo de tecnología acabe dándole la estocada final a sectores profesionales tan golpeados como el de los actores de doblaje o ilustradores.

Están los sistemas capaces de generar textos coherentes, a veces espeluznantes. GPT-3, la herramienta desarrollada por OpenAI, publicó un artículo en Business Insider España en el que dudaba incluso del futuro de la humanidad. Por supuesto, esa IA no es una conciencia dormida profetizando el fin de la especie. Es una simple demostración de generación de textos.

Este verano los modelos capaces de generar textos con solo una serie de breves instrucciones de texto han copado noticias, después de que DALL-E 2, una de las más avanzadas de su clase, abriese una beta por invitación hace cuestión de semanas. Otras, como Craiyon y Stable Diffusion, también se han puesto de moda.

En apariencia inocentes, esta tecnología —que puede llevar a un callejón sin salida a toda la industria, según un experto— entrañan más riesgos que los primeros que puedan llegar a la mente. Sí, una inteligencia artificial que crea imágenes nuevas puede acabar generando rostros falsos, abriendo un sinfín de posibilidades para el mundo de las estafas en línea.

Pero los desafíos que abre van mucho más allá.

Enlaces a pornografía infantil y a propaganda terrorista

Las bases de datos de imágenes con las que estos modelos se han entrenado están llenos de fotos recopiladas de la red sin permiso, lo que puede suponer una vulneración de derechos de autor.

Pero además, los propietarios de una de estas extensas colecciones de imágenes reconocen que incluso en su listado puede haber pornografía infantil e incluso propaganda de grupos terroristas. Así lo ha denunciado este mismo mesMotherboard, que ha insistido en esos riesgos en varios artículos.

Las IA que generan imágenes se entrenan, por supuesto, con imágenes. Las IA generadoras de texto —e incluso traductores en línea— recopilan de la red textos. Por eso este mismo problema que ahora expertos denuncian en Business Insider España se ha visto ya en IA generadoras de texto: un modelo preparado para dar respuestas éticas empezó a lanzar insultos racistas y misóginos.

La razón no es otra que empezó a recopilar textos de toda la red sin discriminar qué contenidos incluía para entrenar a su modelo.

Los defensores acérrimos de este tipo de IA defienden que los sistemas pueden usar fotos, ilustraciones o producciones artísticas protegidas por derechos de autor sin estar robando, sino inspirándose: como cuando una persona visita un museo. El visitante de una galería no está robando con los ojos cuando contempla una obra.

Aquellos que se muestran más críticos no se detienen únicamente en los desafíos que esto puede tener para los derechos de autor. Stable Diffusion, concretamente, impulsó una organización sin fines de lucro llamada LAION que es la que ha generado el set de datos con el que se ha entrenado. Millones de imágenes no almacenadas, sino enlazadas.

El problema es que cuando medios como Motherboard señalaron que sets de datos con los que estos sistemas automatizados se habían entrenado incluían imágenes de terrorismo e incluso abuso infantil, se referían concretamente a LAION. La propia plataforma tiene una web, Have I Been Trained, en la que puedes buscar tu nombre y comprobar si hay imágenes tuyas alimentando el modelo.

"Desvían la atención sobre los riesgos reales y ya presentes"

El dilema está servido, aunque no tiene por qué ser abordado de manera inmediata: algunos especialistas entienden que hay desafíos mucho más urgentes en el ámbito de la inteligencia artificial. Alfonso Martínez, uno de los portavoces de la fundación Eticas que se dedica a auditar algoritmos a empresas privadas y administraciones, cree que estos sistemas desvían la atención.

"Este tipo de herramientas están desviando la atención sobre los riesgos reales e impactos negativos ya presentes de lo que podemos llamar IA". "Gobiernos y compañías ya emplean sistemas de tomas de decisiones automatizadas que impactan y afectan a la vida de ciudadanos y limitan derechos", recuerda.

"Stable Diffusion, DALL-E y las herramientas basadas en procesado del lenguaje natural que crean textos de manera autónoma, o esa otra IA que ha diseñado miles de agentes químicos letales en menos de 6 horas, sirven para perpetuar la imagen de la inteligencia artificial como si fueran robots asesinos, mientras que hay retos más inmediatos", abunda.

"Están reciclando datos racistas y sexistas"

La filósofa Carissa Véliz, autora de Privacidad es poder (2021, Debate), está también preocupada por el auge de estos modelos algorítmicos con macrobases de datos que optimizan al por mayor y no se detienen en seleccionar fuentes de datos útiles y más tratadas.

"Una de las cosas que más me preocupan de estos sistemas es que estamos creando herramientas tan complejas y tan grandes que somos incapaces de controlarlas adecuadamente", lanza. "No solamente es que puedan causar daño, sino que también las compañías se están escudando detrás de esa complejidad para no tomarse más en serio su responsabilidad".

"Hemos visto a muchas tecnológicas a las que se les pide que arreglen algo y básicamente dicen que hacen lo posible, pero que por ejemplo moderar demasiado contenido no es factible. Como si esa producción de contenido —en plataformas sociales— fuera un fenómeno natural. Como si dijeran que uno no puede arreglar cuando llueve o cuando no".

"Me preocupa esa tendencia. Hay un incentivo para que las compañías desarrollen herramientas tan complejas: así no tienen que responsabilizarse luego de ellas". Sobre herramientas que crean imágenes, la filósofa abunda en cómo ese tipo de modelos "reciclan datos históricos que entre otras cosas son racistas y sexistas".

La filósofa Carissa Véliz explica por qué "no es demasiado tarde" para defender tu privacidad frente a las tecnológicas: 3 claves para hacerlo extraídas de su libro

También los generadores de texto. "Están aprovechando todo tipo de lenguaje de internet sin preocupación por los derechos de autor ni por la privacidad. A uno de estos modelos les puedes preguntar dónde vive una persona o cuál es su tarjeta de crédito y a menudo se inventará la respuesta y dirá algo incorrecto, pero también a veces podrá dar una respuesta correcta".

"Todos estos problemas surgen de una cultura en la que se ha defendido durante muchos años que hay que tener el máximo de datos posibles y almacenarlos durante el mayor número de tiempo, en vez de pensar qué datos usaremos para entrenar esos modelos".

De esta manera, la autora apostilla que siempre hay datos "mejores y peores": "Los hay más precisos, que reflejan mejor los ideales a los que aspiramos, que son más respetuosos con la privacidad, y datos que no: que son más imprecisos, que son ofensivos, que reflejan lo peor del ser humano y de la sociedad, y que son tremendamente invasivos para la privacidad de las personas".

Pero mientras estas inteligencias artificiales creativas siguen generando textos e imágenes —e incluso algunas portadas de revistas impresas—, el debate sobre cómo se reúne el material con el que son entrenadas no termina de aterrizar. Y en ese material podrías estar tú.

Conoce cómo trabajamos en BusinessInsider.

Etiquetas: Cultura, arte, Trending, Inteligencia artificial, Privacidad, Ciberseguridad

Enlaces a pornografía infantil y a propaganda terrorista

"Desvían la atención sobre los riesgos reales y ya presentes"

"Están reciclando datos racistas y sexistas"

Otros artículos interesantes: