Incluso predecir nuevas epidemias: los potenciales usos del gigantesco almacén de datos sanitarios que quiere España, y cuya construcción ya tiene pretendientes

Un ordenador muestra la imagen tridimensional de un corazón en un hospital de Heidelberg (Alemania)
REUTERS/Ralph Orlowski
  • El Plan de Recuperación contempla la creación de un data lake sanitario, una gigantesca infraestructura digital para almacenar datos como los historiales clínicos de todo el país.
  • Con bases de datos pseudonimizadas y anonimizadas, los investigadores podrían hacer análisis masivos en tiempo real e incluso predecir riesgos como nuevas epidemias.
  • Se espera que este data lake suponga una inversión de 100 millones, pero todavía no se ha licitado nada. Una empresa llamada Savana se postula como candidata para construirlo.
  • Descubre más historias en Business Insider España.

El Gobierno quiere crear un data lake sanitario. Es un concepto del big data: lo que se quiere lanzar es un enorme almacén de datos sanitarios en bruto con el que poder operar, hacer investigaciones, predicciones o detectar tendencias. España quiere contar con la capacidad de hacer "análisis masivos en tiempo real" de la salud de sus ciudadanos.

La propuesta se incluye en el componente 18 del Plan de Recuperación, Transformación y Resiliencia, el documento que articula la llegada de los fondos europeos al país. La iniciativa la impulsan tanto el Ministerio de Sanidad como la Secretaría de Estado de Digitalización y Asuntos Económicos, y se valoraba en 100 millones de euros.

Con este data lake, especialistas e investigadores podrían ser capaz de hacer análisis en tiempo real para identificar y mejorar diagnósticos o tratamientos, analizar tendencias, identificar patrones e incluso prevenir situaciones de riesgo sanitario. Prevenir, o al menos anticipar con más precisión, situaciones tan críticas como una pandemia.

Crear una enorme infraestructura digital conlleva una serie de desafíos. Las competencias sanitarias están transferidas, por lo que de primeras supone un reto coordinar autonomías, hospitales o centros de salud. El Gobierno todavía no ha licitado ni lanzado la convocatoria para poner en marcha este data lake, pero ya cuenta con pretendientes.

El COVID-19 ha venido para quedarse: expertos sanitarios españoles comparten anticipan cómo será la nueva normalidad en 2023

Savana es una empresa especializada en investigación sanitaria, fundada en 2014, y que está reuniendo avales tanto de sociedades científicas como de asociaciones de pacientes para ser candidata a impulsar este data lake. En una entrevista con Business Insider España, Antonio Urda, vicepresidente de Operaciones en Hospitales de Savana, confirma que ya tienen una propuesta técnica desarrollada.

Entre las sociedades científicas y asociaciones que apoyan la iniciativa se encuentra la Sociedad Española de Oncología Médica, la de Medicina Interna, la de Patología Digestiva, de Médicos de Atención Primaria, la de Endocrinología y Nutrición, la de Medicina Intensiva, la Plataforma de Organizaciones de Pacientes o la Asociación Española contra el Cáncer.

"Tenemos la capacidad"

Savana, en realidad, anunció su candidatura hace varias semanas. Pero será en los próximos días cuando la compañía presente en un seminario web algunas de las adhesiones que ha venido reuniendo en los últimos días por parte de sociedades científicas y asociaciones de pacientes.

El concepto de data lake que Savana quiere contribuir a impulsar nace de una premisa: "La necesidad existe y la capacidad técnica la tenemos". Así lo resume el propio Urda en declaraciones a este medio. La compañía ya colabora con varios hospitales a lo largo y ancho de la geografía española, y trabaja con comunidades autónomas como Castilla-La Mancha y la Comunidad de Madrid.

La capacidad técnica "la tenemos" porque se ha formado una tormenta perfecta con dos elementos. De una mano, el desarrollo técnico de la IA y el big data, con el aprendizaje automático (machine learning) y el procesado del lenguaje natural como dos exponentes claves para este data lake. Del otro, que muchos hospitales españoles llevan digitalizados años.

Urda reivindica, de hecho, que España fue uno de los primeros países en contar con historias clínicas electrónicas en sus centros hospitalarios, solo por detrás de los países nórdicos. Ahora, con un data lake nacional, el país tiene una nueva oportunidad para ser pionero.

Cómo funciona un 'data lake' sanitario

Contar con un data lake de estas características, con un enorme catálogo de datos sanitarios en bruto, permitiría acelerar muchísimo la investigación en ciencias de la salud. Antes un investigador podía acudir a un hospital a consultar, o física o electrónicamente, el historial clínico de un millar de pacientes. Con el data lake podrá tener acceso a los datos de absolutamente todos ellos.

Ello es posible gracias a que el aprendizaje automático y el procesamiento del lenguaje natural, dos tipos de IA, intervienen para normalizar y estructurar la ingente cantidad de datos que los facultativos vuelcan en los sistemas de historias clínicas de sus pacientes.

Google se alía con una cadena de hospitales para desarrollar algoritmos sanitarios

Si un traumatólogo pone en Galicia que un paciente sufre gonalgia, otro en Murcia detalla que otro paciente tiene "dolor de rodillas", y un tercero en Andalucía explicita que su paciente se queja de "dolor en una rodilla", la IA podrá resumir esos tres casos al mismo dato, dolor de rodilla, identificándolo con un código en concreto.

Otra ventaja es que de un vistazo se puede contar con toda la información en bruto. Un paciente puede generar información tras su paso por Urgencias, o su paso por quirófano o por un especialista. Con un data lake se podría ver toda la información que ha generado.

En su propuesta, Savana contempla que para crear el data lake se cuente con normalizar los datos con la ontología SNOMED-CT, con la que ya trabaja el propio Ministerio de Sanidad. "No es algo nuevo, es algo que ya existe". "Lo que hacemos es que, independientemente de donde se haya generado la información, se normalice". Así, se estandariza y permite hacer investigaciones y análisis masivos.

Garantías con la privacidad

Una cola de gente para donar sangre en Buenos Aires, vista a través de una cámara termográfica.
Una cola de gente para donar sangre en Buenos Aires, vista a través de una cámara termográfica.
REUTERS/Agustin Marcarian

Por supuesto, el Gobierno lo que plantea es depositar en un gran data lake datos sanitarios excepcionalmente sensibles. Esto requiere de un sinfín de garantías. Savana aclara que ellos solo firmarían un contrato de tratamiento de datos, como ya hacen con los hospitales o las autonomías con las que trabajan.

Es decir, el propietario y dueño del dato sanitario sigue siendo el ciudadano, mientras que el custodio es el hospital. Savana trabaja con datos perfectamente anonimizados. Antes de meterlos en sus sistemas, la empresa no sabe a quién corresponden los datos ni de quiénes son las historias clínicas con las que opera.

De hecho, la compañía propone generar dos enormes bases de datos en el data lake. Una base de datos seudonimizada, para que sea efectiva en términos de gestión. Urda lo ejemplifica con el caso de que un custodio (un hospital) necesite saber a quién se le ha administrado un determinado medicamento, porque haya saltado una alerta y sea necesario hacer unas comprobaciones sobre el paciente.

Con la base de datos seudonimizada, los custodios (los hospitales, los gestores) podrán identificar a los pacientes para poder garantizarle su atención sanitaria.

La otra base de datos será completamente anónima y será a la que podrán tener acceso investigadores de distintos organismos.

"Savana no es una empresa de datos", reivindica Antonio Urda. Es una empresa tecnológica que ofrece herramientas de visualización de datos, y presta su apoyo para crear ese data lake que todavía se tiene que licitar y diseñar.

"Lo que la inteligencia artificial permite es dar respuesta a una frase que todos hemos dicho: tengo la sensación de que...", sonríe Urda. Y los potenciales casos de uso de un data lake son más que evidentes. 

Por ejemplo, con la capacidad predictiva del big data, un data lake a nivel nacional habría permitido diagnosticar de forma temprana casos de coronavirus al detectar anomalías con el incremento de casos de neumonías a principios de 2020.

Compromiso político para ser pioneros

"Hace falta, de alguna manera, el compromiso de que esto se quiera sacar adelante", recuerda Urda. La Unión Europea ya trabajaba con el horizonte fijado en un marco europeo de gobernanza del dato, que ayude a que se generen marcos en los que los datos (también los sanitarios) garanticen su interoperabilidad entre países y sistemas.

Pero en Savana entienden que no hay por qué esperar, si en el Plan de Recuperación ya se contempla la creación de este data lake. "¿Por qué ir detrás?". España tiene la oportunidad de ser pionera gracias a la aplicación de la IA y el big data en conjunción con la digitalización de los hospitales y lo extendidos que están los historiales clínicos electrónicos. "Convirtámonos en pioneros".

Otra problemática que arroja esta disrupción tiene que ver con la soberanía tecnológica española. La ingente cantidad de datos que generaría un data lake implica que no se puede confiar en infraestructuras convencionales, como servidores. "Los centros hospitalarios necesitarían más espacio para servidores que para quirófanos", advierte el directivo de Savana.

España ya tiene su primer Chief Data Officer de la historia: se llama Alberto Palomo, acaba de regresar de EEUU y estos son sus desafíos más inmediatos

Por ello confiar en la nube tanto para el almacenamiento como para el procesado de estos datos no es una opción. La cuestión es en qué proveedor confiar. Los grandes players del cloud son empresas extranjeras. Este es un problema de la administración española que no atañe a Savana. Por esa misma razón, el propio Ministerio de Asuntos Económicos anunció en junio la creación de un hub en GAIA-X.

GAIA-X es la iniciativa primero francoalemana y ahora europa para crear una nube federada europea, "con los valores" del Viejo Continente por bandera, y que podría ser la respuesta a estas preguntas. De hecho, ya en junio el Ministerio avanzaba que España desarrollaría la creación de un hub específico en GAIA-X de datos turísticos y otro sanitario.

Ignacio Hernández Medrano, fundador y director médico de Savana, apostilla en un comunicado que remitía hace semanas la propia firma que la creación de este data lake redundaría en un "ecosistema" para todos los profesionales sanitarios que "favorecerá un mayor número de estudios clínicos dirigidos por parte de los institutos de investigación y organismos científicos del país".

La propuesta de Savana está sobre la mesa, aunque es improbable que sea la única. Ahora solo queda que las administraciones activen la maquinaria.

Otros artículos interesantes:

Maroto afirma que es el momento de apostar por una industria y un turismo más avanzados aprovechando los fondos Next Generation

Carme Artigas: "Nuestro objetivo es que no haya un solo proyecto en España que no encuentre financiación a lo largo de su ciclo de vida, generar unicornios y que se queden"

Las startups tecnológicas apuestan por incorporar directivos de otras empresas a sus filas para acelerar su crecimiento: estos son los nombres propios y los puestos que ocuparán