Las tecnológicas están actualizando sus políticas de privacidad para poder entrenar sus modelos de IA con tus datos

Kali Hays
| Traducido por: 
Sam Altman, CEO de OpenAI.
Sam Altman, CEO de OpenAI.

Kevin Dietsch/Getty

  • Cada vez son más las empresas que actualizan sus políticas de privacidad sin hacer ruido para poder utilizar los datos que recopilan de sus usuarios para entrenar sus modelos de inteligencia artificial.
  • La herramienta de transcripción de audio Rev es una de las últimas compañías que ha modificado sus políticas para favorecer el entrenamiento de su modelo de IA. 

Los días en los que tu actividad en Internet no se utilizaba para entrenar los modelos de inteligencia artificial están llegando a su fin.

En los últimos dos meses, empresas tan diversas como Instacart, Meta, Microsoft, Zoom o X —la red social anteriormente conocida como Twitter— han comenzado a actualizar sus condiciones de servicio y sus políticas de privacidad para autorizar la recopilación de información y de contenidos generados por sus usuarios y clientes con el objetivo de entrenar sus modelos de IA generativa.

Tus publicaciones en X, tus búsquedas en Google e, incluso, tu compra en el supermercado representan ahora una oportunidad para que las compañías desarrollen más herramientas de inteligencia artificial como Bard o ChatGPT

Tras la controversia que generó la decisión de Zoom de utilizar las videollamadas de sus usuarios para entrenar un gran modelo lingüístico como el que esconde ChatGPT, la empresa se ha convertido en la única tecnológica que ha dado marcha atrás a la actualización de su política de privacidad. Zoom ha asegurado explícitamente que las videollamadas no se van a utilizar de esta forma.

Videoconferencia en un ordenador portátil

La mala recepción que tuvo la propuesta de Zoom no ha impedido que más compañías decidan que sus plataformas sean campos de entrenamiento para los modelos de IA. Una de las últimas en modificar sus condiciones de servicio ha sido Rev, una plataforma de transcripción de conversaciones grabadas y llamadas telefónicas que también se utiliza para subtitular vídeos. 

En la última actualización de las políticas de Rev, la empresa ha añadido una sección que denomina "Su contenido, incluida la salida de servicios". 

Esa sección establece ahora que la plataforma no solo tiene manga ancha para utilizar todo el contenido subido por los usuarios, "ya sea de forma pública o privada", sino que puede utilizar esa información "para mejorar los servicios, por ejemplo, para entrenar y mantener el modelo de transcripción ASR de Rev, así como otros modelos de inteligencia artificial de Rev".

Las condiciones de Rev parecen haber sido actualizadas en algún momento del mes de junio para incluir esa sección, según una copia obtenida a través de Internet Archive. Sin embargo, a los usuarios no se les ha pedido que revisasen esta actualización hasta septiembre, cuando se ha enviado un correo en el que se ha anunciado una asociación con OpenAI como "un nuevo subprocesador de terceros". 

Desde ese momento, OpenAI ha pasado a procesar datos para Rev con el objetivo de desarrollar "una nueva función". Sin embargo, la plataforma de transcripción de audio no especifica en el correo qué ha cambiado exactamente en su política de privacidad. Un portavoz de Rev ha declarado que los términos se han actualizado este mes y que su modelo está "basado en una colección diversa de datos de voz".

"Ahora Rev utiliza los datos de forma perpetua, no solo mientras el usuario es un cliente activo, y se utiliza de forma anónima para entrenar la IA propietaria de Rev", ha señalado el portavoz. 

El portavoz también ha indicado que los clientes de Rev pueden "optar por no compartir sus datos con fines de entrenamiento" enviando un correo electrónico a support@rev.com. No existe un formulario específico para este tipo de solicitud, pero el portavoz afirma que Rev garantiza que se tendrán en cuenta.

inteligencia artificial, IA, ordenador, software

En la actualización de agosto de sus términos y condiciones, Instacart —la plataforma de compra de alimentos online— añadió un texto que prohíbe a cualquier persona utilizar su contenido o sus datos para "crear, entrenar, probar o mejorar" cualquier herramienta de inteligencia artificial (incluidos los grandes modelos lingüísticos y de aprendizaje automático en los que se basan esas herramientas).

Cada vez más empresas han intentado hacer lo posible para evitar que sus datos se extraigan y almacenen para ampliar los conjuntos de datos necesarios para entrenar modelos de IA. Sin embargo, Instacart también ha utilizado una terminología en su política que le deja una ventana abierta para hacer precisamente eso con los datos de sus propios clientes.

En dicha sección, la compañía apunta que su nueva licencia le permite "mejorar de otra forma" sus algoritmos de aprendizaje automático, "con el propósito de operar, proporcionar y mejorar los servicios." Se trata de un matiz que no se encontraba en sus anteriores políticas, según una versión obtenida a través de Internet Archive. Instacart tampoco especificó estos cambios en su actualización.

Un portavoz de Instacart ha argumentado a Business Insider que la empresa se está preparando para desplegar algún tipo de herramienta de IA en su plataforma.

"Estamos incorporando experiencias de inteligencia artificial generativa en nuestros productos para ayudar con las preguntas de compra de alimentos de los clientes y ayudarles así a tomar decisiones relacionadas con los alimentos", ha expresado el portavoz. 

"Nuestros términos actualizados aclaran que la IA generativa es ahora una parte de la oferta de Instacart, sujeta a restricciones sobre el uso indebido y las otras disposiciones generales de nuestros términos, y los estándares para esas características siguen siendo los mismos que los de todo nuestro servicio", ha añadido.

 

Incluso cuando las compañías sí que especifican lo que ha cambiado en la actualización de su política de privacidad, dicha información tiende a ser vaga. Por ejemplo, la actualización de la política de Microsoft, cuyos cambios entran en vigor el próximo 30 de septiembre, añaden una nueva sección con cinco puntos sobre sus servicios de inteligencia artificial

El único de esos puntos que tiene que ver con los datos de los usuarios establece: "Como parte de la prestación de los servicios de IA, Microsoft procesará y almacenará sus entradas al servicio, así como la salida del servicio, con el fin de supervisar y prevenir usos abusivos o perjudiciales o salidas del servicio". 

Los otros cuatro puntos se refieren a la prohibición de la firma de Redmond de utilizar sus servicios de inteligencia artificial para desarrollar o entrenar otras herramientas de IA.

Google también ofrece acceso a una versión de archivo de sus condiciones, actualizada en el mes de julio. Sin embargo, la empresa se muestra igual de ambigua a la hora de aclarar qué es lo que hace con los datos de sus usuarios en lo referente a la inteligencia artificial. 

Puede utilizar sus datos —según lo permite su licencia— para "operar y mejorar los servicios", incluida la creación de "nuevas características y funcionalidades". Google también alega que puede "utilizar la información disponible públicamente" para entrenar sus modelos de IA y para "desarrollar productos y características como el traductor de Google, Bard o las capacidades de IA de Google Cloud".

Twitter, la compañía que ahora se conoce como X, es una de las plataformas online más directas a la hora de decir cómo utiliza los datos de sus usuarios, ya que Elon Musk —dueño de X— lleva meses desarrollando un nuevo proyecto de inteligencia artificial

"Podemos utilizar la información que recopilamos y la información disponible públicamente para ayudar a entrenar nuestro aprendizaje automático o modelos de inteligencia artificial para los fines descritos en esta política", asegura la empresa en su política de privacidad, que fue actualizada este mismo mes.

Meta, anteriormente conocida como Facebook, también actualizó su política de privacidad en junio. Los términos y condiciones de Meta ahora permiten a los usuarios saber que su actividad y la información que proporcionan en los "productos y servicios" del gigante tecnológico se utilizan para entrenar sus modelos de IA generativa.

Sucede lo mismo con cualquier cosa que el usuario escriba o diga mientras utiliza una herramienta de inteligencia artificial de Meta, como pueden ser Llama 2 o CM3leon. Por lo tanto, todo tipo de contenido, desde las actualizaciones de estado hasta las fotos de Instagram y los mensajes, puede formar parte de los conjuntos de datos de entrenamiento de la IA de Meta. 

La compañía pone la responsabilidad en manos del usuario para evitar que sus datos de entrenamiento absorban información personal que una persona puede no querer que se utilice para enseñar a una herramienta de inteligencia artificial cómo responder mejor a las solicitudes, argumentando que la gente debe "ser consciente de" lo que aceptan en los términos y condiciones.

"Como práctica recomendada, no incluyas ninguna información personal, como tu dirección o tu número de teléfono", aconseja la matriz de Facebook. A finales de agosto, Meta creó un sencillo formulario en el que los usuarios podían "solicitar" que no se utilizasen sus datos para entrenar modelos de IA, pero la empresa no aclaró si se iban a atender dichas peticiones.

Conoce cómo trabajamos en Business Insider.