Tumblr está vendiendo datos de sus usuarios para entrenar modelos de IA: el tema podría complicarse

Katie Notopoulos
| Traducido por: 
El logo de Tumblr en la pantalla de un teléfono móvil.

SOPA Images

  • La empresa matriz de Tumblr ha llegado a un acuerdo con OpenAI y Midjourney para entrenar sus modelos de inteligencia artificial con las publicaciones de la plataforma.
  • ¿La ventaja? OpenAI sabrá mucho más sobre lo que podría pasar si Sirius Black y Remus Lupin fueran pareja.

Auttomatic, la compañía propietaria de WordPress y Tumblr, está llegando a un acuerdo para proporcionar datos de sus páginas web para ayudar a entrenar los modelos de inteligencia artificial de OpenAI y Midjourney.

Así lo ha recogido 404 Media, que ha informado además de la publicación de una entrada en el blog oficial de la matriz de Tumblr en la que se dice que los portales de Auttomatic actualmente bloquean los rastreadores de IA, pero que, cuando empiecen a compartir información con las empresas de inteligencia artificial, ofrecerán una opción para seguir actuando de esa forma en el futuro.

"También estamos trabajando directamente con determinadas empresas de IA, siempre que sus planes se ajusten a lo que preocupa a nuestra comunidad: la atribución, la exclusión y el control", apunta la compañía a través de su blog. "Nuestras asociaciones respetarán todas las opciones de exclusión".

La noticia publicada por 404 Media contiene algunos mensajes internos de empleados de Auttomatic que aseguran que sus ingenieros van a tener la tarea de recopilar posts de entre 2014 y 2023, pero que ya se han cometido algunos errores durante ese proceso

Los trabajadores habrían incluido publicaciones de blogs que habían sido eliminados o que ya estaban suspendidos, publicaciones privadas en blogs públicos y respuestas privadas de la función "Preguntar", según ha informado el medio especializado.

Lo más llamativo es que también habrían incluido contenido marcado como NSFW, una expresión de habla inglesa que se utiliza para advertir acerca de que cierto contenido no es apropiado para su visualización en un entorno formal o profesional. Tumblr prohibió la pornografía y la desnudez en 2018, pero en 2022 flexibilizó esas reglas para permitir la desnudez.

ChatGPT va a saber lo que es el fanfic

Mientras tanto, cualquiera que haya pasado algún tiempo en Tumblr sabe que se trata de una maravillosa cornucopia de cosas raras y de nicho, especialmente pensada para las comunidades de fans. Así que, ahora ChatGPT podrá escribir fanfics de Harry Potter y de El señor de los anillos el mundo será un lugar... ¿mejor?

Tumblr no es la única plataforma social que está haciendo tratos como este. Reddit ha llegado a un acuerdo de 60 millones de dólares al año —unos 55 millones de euros— para ceder sus datos a Google con el fin de entrenar su propio modelo de inteligencia artificial. Facebook e Instagram, por supuesto, ya están utilizando tus datos para las propias herramientas internas de IA de Meta.

 

Esto puede resultar controvertido para algunos usuarios, que se sienten incómodos con el hecho de que su contenido —en el caso de Tumblr, a menudo se trata de textos, fotografías o dibujos personales— sea utilizado para entrenar modelos de inteligencia artificial.

Business Insider, a través de su empresa matriz (Axel Springer), también tiene un acuerdo con OpenAI para utilizar su cobertura de noticias en el entrenamiento de IA, pero se trata de un caso un poco distinto: al fin y al cabo, a mí me pagan por escribir esto.

Cuando las plataformas con contenidos generados por los usuarios venden esos contenidos para entrenar a la inteligencia artificial, resulta, bueno, comprensiblemente extraño. 

Supongo que una de las ventajas de todo esto es que Midjourney va a generar muchos más dibujos de Sonic y Tails besándose.

Conoce cómo trabajamos en Business Insider.