El 'petróleo' de la economía digital escasea, llega el auge de los datos sintéticos: cómo protegerán las empresas estos nuevos activos intangibles

Datos en binario.

REUTERS/Kacper Pempel

A mediados de febrero, un estudio de la empresa Validity (que se dedica a optimizar la gestión de las relaciones con los clientes) revelaba que la mala calidad de los datos en este ámbito ya estaba provocando un impacto negativo en la cuenta de resultados de las compañías.

Si los datos son el petróleo de la economía digital, su escasez se está convirtiendo en un problema. Un problema originado por la cada vez mayor concienciación en privacidad y los esfuerzos regulatorios que potencias como la Unión Europea impulsan en esta materia. 

Luis Ignacio Vicente del Olmo es CINO (jefe de Innovación) en Asti, una firma española dedicada al desarrollo de robots de transporte, y consejero estratégico en la consultora Pons IP. Explica a Business Insider España que "la falta de datos" ya fue un problema en los 90, cuando responsables del censo en EEUU se dieron cuenta de que en barrios de Chicago no tenían los suficientes datos de los vecinos.

Por eso aparecieron los datos sintéticos.

Qué son los datos sintéticos

Su propio nombre lo indica. Los datos sintéticos son datos generados de forma artificial y que pueden ser utilizados para entrenar modelos de inteligencia artificial, en el caso de que los datos reales carezcan de calidad o no sean demasiados. En sectores como el industrial, Vicente del Olmo tiene claro que la importancia se le dará a los datos no personales y a estos datos sintéticos.

Por ejemplo: un algoritmo que se encargue de detectar posibles errores, vetas o debilidades en materiales. En un contexto industrial, es improbable que un algoritmo tenga una eficacia del 100% detectando esas imperfecciones en materiales como el acero o el hormigón. 

Teclear con la pupila, disparar alarmas cerrando la mano o diseñar webs con dibujos: así son los 'juegos' de Ideas Locas, el departamento más curioso de Telefónica

Pero si ese algoritmo se entrena con datos sintéticos sobre elementos de esos materiales que en realidad no existen, su capacidad aumenta.

Un niño de cuatro años puede diferenciar una vaca de un perro sin dificultades. Un algoritmo de aprendizaje automático tendrá que consumir primero miles de imágenes de una vaca para entender qué está viendo. Si en lugar de buscar miles de vacas para hacerles miles de fotos el algoritmo pudiese entrenarse con vacas de mentira, vacas sintéticas, todo el proceso sería mucho más sencillo.

De ahí la importancia que estos datos sintéticos irán cobrando en los próximos años, en contextos como el sector industrial o incluso el sanitario.

El valor de un nuevo activo intangible

De hecho, ya en el Hype Cycle sobre la inteligencia artificial que elaboró Gartner el año pasado aparecían estos datos sintéticos al alza. Es algo que en un futuro inmediato va a ganar importancia en el mundo de la innovación y la automatización. Por eso, a juicio de Luis Ignacio Vicente del Olmo, es crucial encontrar la fórmula para proteger estos nuevos activos, estos datos sintéticos.

Múltiples voces vienen demandando la necesidad de superar el marco contable del siglo XIX. Una cuenta de resultados, destacan autoridades como la secretaria de Estado de Digitalización, Carme Artigas,no refleja adecuadamente "la capacidad innovadora" de una compañía. La fundación Corporate Excellence reúne a grandes firmas del Ibex 35 para mejorar la gestión de esos activos intangibles.

En una entrevista, también con este medio, los responsables de dicha fundación fueron bastante claros: "Muchas empresas eran gobernadas solo con indicadores financieros, lo que explica muchas crisis".

Entre los activos intangibles se pueden destacar reputación, huella de carbono y datos. Y con la llegada de los datos sintéticos, Vicente del Olmo, de Pons IP, recuerda que la propiedad intelectual y la propiedad industrial es el principal mecanismo para hacer tangibles esos activos que hasta ahora eran intangibles.

La gran duda es, ¿cómo? "Una primera posibilidad sería proteger los datos sintéticos como un secreto empresarial. Pero eso no basta: hay que tener un protocolo de secretos en la organización, con medidas informáticas y de procesos".

El derecho 'sui generis' de las bases de datos

La alternativa: explorar el derecho sui generis de bases de datos, que nació al abrigo de una regulación de la Comisión Europea "para intentar demostrar que este tipo de activos tienen un valor". Este derecho aparece en el articulado de la Ley de la Propiedad Intelectual en España, y permite proteger bases de datos.

El problema: para que una base de datos pueda protegerse con esa norma, es importante que el solicitante demuestre que "la obtención, la verificación o la presentación de dicho contenido representen una inversión sustancial".

Con datos personales eso es indemostrable. No se puede comprobar que una empresa ha hecho una inversión sustancial para catalogar y reunir en una base de datos los datos de personales de miles de personas. Fundamentalmente porque el propietario de esos datos personales no será nunca la propietaria de la base de datos.

Robots que cortan la verdura con precisión de cirujano: lanzan un simulador para que sepan empuñar cuchillos con la fuerza adecuada

Por el otro lado, los datos no personales como por ejemplo la temperatura diaria que pueda haber en una ciudad española tampoco serían susceptibles de protegerse mediante este derecho sui generis de las bases de datos: cualquiera puede recopilar la misma información. No se puede proteger con este instrumento de la propiedad industrial.

Con los datos sintéticos, la cosa cambia. Explica el consejero estratégico de Pons IP que "si esos datos sintéticos se están generando mediante un algoritmo, sí se puede interpretar que se está haciendo una inversión significativa y, por lo tanto, podrían protegerse".

El secreto empresarial o el derecho sui generis de bases de datos, las principales opciones

Hasta la fecha, Vicente del Olmo destaca que ya se están protegiendo bases de datos sintéticos mediante secreto empresarial. A nivel de patente se puede proteger un algoritmo, pero no los datos en sí. El experto resalta una experiencia que se está dando en algunas oficinas de propiedad industrial y propiedad intelectual: que en la patente de un algoritmo se incluya su base de datos.

"Es algo todavía muy incipiente", reconoce el consejero de Pons IP. De momento, proteger estos datos sintéticos como secreto empresarial ya es una realidad. Si un algoritmo para coches autónomos es eficiente tras entrenar con datos sintéticos de tráfico muy bien generados, es probable que una compañía quiera guardarse esa base de datos sintéticos para sí misma.

Pero lo cierto es que el cómo proteger esta información es un debate que está todavía por abrirse, reconoce Luis Ignacio Vicente del Olmo, de Pons IP y Asti. "Se está viendo qué se va a hacer, pero es un debate que no es baladí. Estamos creando una tendencia que todavía no ha crecido, pero que crecerá".

Y la urgencia para proteger este tipo de activos crece, en parte, por el auge de tecnologías como el metaverso o la web3. "Son factores, pero no elementos críticos. Habrá que ver el grado de adopción de los metaversos, que habrá varios asociados a diferentes usos. En ámbitos como el industrial o el clínico necesitaremos datos sintéticos, porque los reales serán escasos en muchas ocasiones".

Así, estos metaversos "no serán el detonante", pero los nuevos escenarios que genere "incrementará de manera relevante la necesidad de contar con esos datos sintéticos".

Por supuesto, estos datos sintéticos, más allá de su protección legal, pueden generar riesgos. "En todas las inteligencias artificiales hay sesgos por la naturaleza de sus algoritmos. Creo que la generación de estos datos sintéticos ayudará a reducirlos".

Las posibilidades y riesgos de los datos sintéticos

Uno de los ejemplos más evidentes de sesgos en algoritmos es el de los modelos de IA que ayudan a los sistemas de reconocimiento facial. Por el momento, estos modelos han demostrado ser más eficaces identificando rostros de personas caucásicas, con más índices de fallos en el caso de otros rasgos. La razón es que estos modelos se han desarrollado en Occidente.

Si se quiere mejorar un algoritmo de reconocimiento facial, requerirá entrenamiento. Surgen problemas, destaca el consejero de Pons IP. Usar fotografías de personas reales supone un problema de privacidad. Pero si un sistema de redes neuronales adversarias empieza a generar imágenes de personas que no existen (como This Person Does Not Exist, ver aquí), puede haber alternativa.

Logran hackear un modelo de reconocimiento facial similar al que se usa en los aeropuertos para identificar a personas que tienen prohibido volar: así lo han conseguido

"Puedo generar datos que compensen esos sesgos, y las fotos de personas que no existen no son datos personales", destaca Vicente del Olmo.

Pero apostarlo todo por los datos sintéticos también conlleva otro tipo de riesgos. Un fenómeno como el Sim2Real Gap, o brecha entre la simulación y la realidad. Si una industria tiene una máquina que genera datos y desarrolla un algoritmo que se comporte como su gemela "digital", podrá generar el doble de datos, y los sintéticos (los generados por la máquina gemela) serán de buena calidad.

Pero si un algoritmo no supervisado comienza a generar datos sintéticos sin atenerse a ningún gemelo del mundo físico, este puede acabar generando datos de escasa calidad, en los que la brecha entre el mundo real y el digital se amplíe. "Si tengo algoritmos que nos desvíen de esa realidad, podrá ser interesante desde el punto de vista creativo, pero no serviría para cotejarla".

Vuelve un viejo debate: ¿puede una máquina ser inventora?

El auge de los datos sintéticos está por darse, pero recupera un debate que se ha vivido con intensidad en las oficinas europeas de propiedad intelectual o industrial. ¿Pueden ser las máquinas inventoras? El director de la Oficina Española de Patentes y Marcas ya dio su opinión en esta entrevista con este medio. 

Los defensores de que las IA pueden ser inventoras sufrieron en septiembre del año pasado un nuevo revés con la decisión de un organismo EEUU: "¿Qué pasará cuando las máquinas tengan conciencia?", preguntaron entonces.

Para Luis Ignacio Vicente del Olmo, este es "un debate interesante" que se planteó "casi como un reto intelectual", cuando una empresa propuso patentar una botella y una lámpara que había diseñado un algoritmo. "Todavía no se ha planteado esto en ninguna de las legislaciones más relevantes". "Esto" es, explica Vicente del Olmo, "que las máquinas puedan ser autoras".

"También rescata el debate sobre la responsabilidad. Si un algoritmo basado en datos sintéticos como el de un coche autónomo provoca un accidente, ¿quién es el responsable? ¿El que ha generado los datos sintéticos de tráfico y, por lo tanto, han sido malinterpretados?", pregunta.

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.