Transkriptorium quiere indexar la historia de la humanidad: la IA de esta startup es capaz de digitalizar caligrafía incluso del siglo XV, y promete una revolución en la archivística

Un antiguo documento en un convento de 4 siglos en Perú.
Un antiguo documento en un convento de 4 siglos en Perú.

REUTERS/Vera Lentz

  • Transkriptorium es una startup nacida como spin-off de la Universidad Politécnica de Valencia que promete una revolución en la gestión archivística.
  • Su IA es capaz de detectar e indexar todo tipo de caligrafías, pero su uso trasciende el historiográfico: ya tiene el interés de consultoras IT y fabricantes de hardware.
  • Descubre más historias en Business Insider España.

Una spin-off de la Universidad Politécnica de Valencia (UPV) quiere revolucionar la digitalización de documentos tal y como la conocemos.

Su nombre es Transkriptorium y se convirtió formalmente en una startup el pasado mes de diciembre. Su producto es un modelo tecnológico llamado Handwritten Text Recognition (HTR) que está llamado a reemplazar las tecnologías convencionales de reconocimiento óptico de carácteres (OCR, por sus siglas en inglés). Pero para entender dónde está la disrupción, es necesario sentar primero unas bases.

Cuando escaneas un documento en tu ordenador particular, te habrás dado cuenta de que los archivos digitalizados en ocasiones no son más que meras fotografías del papel. Muy detalladas, a una amplísima resolución, pero sin la posibilidad de detectar caracteres o texto sin formato.

La falta de perfiles comerciales y de negocio es el principal problema de las startups nacidas dentro de las universidades, según los fundadores de la aceleradora Impulse to grow

Algunas herramientas de escaneo más profesionales —industriales, incluso— sí son capaces de digitalizar caracteres. Su uso está más extendido en archivos, bibliotecas, fondos documentales. Gracias a la tecnología OCR, al digitalizar un archivo es posible que los escáneres detecten los caracteres en concreto, obteniendo así archivos PDF en los que sí es posible, por ejemplo, copiar texto.

Esta tecnología, sin embargo, no es infalible.

Ni funciona con texto escrito a mano, claro.

Aquí entra en acción Transkriptorium. Las investigaciones de los especialistas del Centro de Investigaciones en Tecnologías de Reconocimiento de Patrones y Lenguaje Humano (PRHLT, por sus siglas en inglés) de la Politécnica de Valencia se remontan a hace años.

Estos GIF reconstruyen 7 ruinas históricas de todo el mundo y te muestran cómo se veían originalmente

Pero ahora el resultado de muchas de esas investigaciones se ha convertido en un producto que acaba de empezar a comercializarse, y que encaja en una de las grandes revoluciones que la digitalización promete: el del sector notarial.

Una 'revolución' tecnológica

Luis Antonio Morró, CEO de Transkriptorium.Luis Antonio Morró, CEO de Transkriptorium.
Luis Antonio Morró, CEO de Transkriptorium.

Cedida

Transkriptorium le da una vuelta a las tecnologías OCR con su tecnología HTR, siglas en inglés de "reconocimiento de textos escritos a mano". Mediante inteligencia artificial y aprendizaje automático, sus redes neuronales son capaces de detectar y mejorar cada vez más su detección de caracteres de todo tipo, estén como estén caligrafiados.

Para garantizarle un futuro y una viabilidad a la startup, aquí entra en escena su recién incorporado CEO, Luis Antonio Morró, quien en conversación con Business Insider España detalla algunas de las claves de esta tecnología y su potencial empresarial.

"Cuando evalúo el proyecto me encuentro con una tecnología impresionante que ahora ya hemos orientado y convertido en un producto paquetizable, vendible y escalable, que es el que todas las spin-off de base tecnológica deben tener. Los early adopters a los que nos hemos dirigido aseguran que nuestra tecnología es incluso un cambio de paradigma en el tratamiento de textos digitalizados", afirma.

13 descubrimientos del año pasado que han alterado radicalmente nuestra comprensión de la historia humana

Morró continúa: "Los sistemas OCR están extenuados, ya no se puede sacar más de ellos, y mucha gente se ha acostumbrado y ha asumido que es lo que hay. Pero con el sistema HTR se empieza justo donde la capacidad del OCR termina. Los investigadores de la UPV, que son unas verdaderas bestias, han desarrollado una herramienta capaz de reconocer texto caligrafiado".

¿Para qué sirve? Por lo pronto, para poder indexar en la red todo el conocimiento de la humanidad. Suena grandilocuente, pero es literalmente lo que ha empezado a hacer Transkriptorium probando su tecnología con archivos históricos, como el Provincial de Cádiz o el de Indias.

Transkriptorium 'redescubrió' Australia

El valor que una herramienta de estas características puede tener para la historiografía es incalculable. Su primer proyecto indexa más de 370 carpetas del Archivo Provincial de Cádiz y del Archivo General de Indias con la libertad que supone para un investigador buscar referencias a un personaje o a un buque simplemente escribiendo las palabras claves como si se tratara de Google, algo que puedes comprobar aquí.

Un ejemplo del potencial de la herramienta es precisamente el descubrimiento de referencias a una ignota "tierra austral" que apunta a que los españoles descubrieron Australia mucho antes que los británicos, como detallaba el diario Abc a finales de 2019.

De plugin a startup: Deeder, la 'spinoff' de ElevenPaths y Telefónica Tech que quiere que firmes contratos por WhatsApp, al asalto del mercado 'legaltech'

Morró recuerda el caso de la empresa Odysey, que expolió un antiguo pecio hundido a principios del siglo XIX frente a las costas de Cádiz, tras una batalla naval contra buques ingleses. La firma estadounidense desvalijó el tesoro que escondía el antiguo barco español y el CEO de Transkriptorium rememora que los arqueólogos españoles tardaron años en armar toda la historiografía que respaldase la denuncia del Estado español por la que acabaría recuperando los restos.

Gracias a Transkriptorium y a su herramienta, conectada a los archivos antes citados, la IA fue capaz de indexar todos los documentos y detectar las referencias a Nuestra Señora de las Mercedes —tal y como se conocía este buque— en cuestión de 7 días. 

Pero Transkriptorium no se ciñe al trabajo historiográfico. El potencial de una plataforma que puede revolucionar cómo se escanean y digitalizan documentos es amplio: Morró plantea en su entrevista con Business Insider España el posible lanzamiento de un portal para que los usuarios prueben cómo funciona esta tecnología permitiendo digitalizar, por ejemplo, apuntes de universidad.

Interés de consultoras IT y fabricantes de hardware

Transkriptorium.Transkriptorium.

Cedida

Y en cuanto a la proyección comercial, Transkriptorium, que apenas suma un mes y medio de vida como empresa, ya cuenta con early adopters. Y frente a lo que cabría suponer, no son solo administraciones públicas. "Consultoras IT y fabricantes de hardware muy potentes ya se nos han acercado al ver que representamos un cambio tan grande como el que se dio entre el VHS y el Blue Ray".

Así se creó la primera tarjeta de crédito de la historia: una billetera olvidada inspiró a un empresario de Nueva York

"Muchos fabricantes de hardware ya están pensando en sustituir la tecnología OCR", remarca Morró. 

Y el contexto es el propicio. Muchos fondos de recuperación europeos se van a destinar a la cultura y a la justicia, y una asignatura pendiente en muchos archivos es la digitalización de fondos.

La caligrafía no es en ningún caso un obstáculo para la inteligencia artificial de Transkriptorium. "Trabajamos con textos en hebreo, en latín, en austríaco, en bengalí, en francés, en checo. No tenemos una limitación con los idiomas. Podemos indexar la caligrafía procesal encadenada, cuando en el siglo XV los monjes españoles escribían sin separar las palabras hasta que se les agotase la tinta de la pluma", remarca el CEO.

Una infografía compara las rutinas de 26 personajes históricos como Picasso, Mozart y Darwin para descifrar qué tuvo su éxito en común

Su modelo le permite a la IA aprender cualquier escritura con apenas 5.000 palabras. Un empujón que permitirá digitalizar buena parte de la historia de la humanidad que todavía no había llegado a la red, y gracias en buena medida a una tecnología netamente española.

LEER TAMBIÉN: La startup catalana Validated ID ofrece firmas digitales gratis durante la cuarentena y participa en una iniciativa global para desarrollar pasaportes inmunitarios contra el coronavirus

LEER TAMBIÉN: Refugiados climáticos: en un limbo jurídico y ante una sentencia histórica

LEER TAMBIÉN: Claves para saber cuándo deberías dejar de ser autónomo y crear una sociedad limitada

VER AHORA: Tiempo para el 'rally' de Navidad en bolsa: los expertos dudan de si las alzas de noviembre pueden dificultar las subidas de final de año en los índices