Microsoft presenta Kosmos-1, un modelo de IA que interpreta imágenes y resuelve puzles que ha sido diseñado sin la desarrolladora de ChatGPT

2 mar. 2023 19:02h.

Microsoft ha demostrado que va a apostar decididamente por la inteligencia artificial y lo ha hecho de la mano de un socio clave como es la desarrolladora del generador de texto ChatGPT, OpenAI.
Sin embargo, la firma de Redmond también está investigando por su cuenta esta tecnología y ahora ha presentado un modelo que es capaz de interpretar imágenes y resolver puzles.

Microsoft ha querido ver en la inteligencia artificial generativa un camino de baldosas amarillas y prueba de ello es que la compañía lo está apostando todo a esta tecnología.

Ya en 2019, la firma de Redmond invirtió 1.000 millones de euros en OpenAI, la empresa que ha dado a conocer la IA generativa al mundo de la mano de ChatGPT y que por aquel entonces era una organización cuyo objetivo simplemente consistía en impulsar el desarrollo de toda la humanidad.

Desde entonces, la compañía fundada por Elon Musk ha revolucionado la generación de imágenes con Dall-E y la generación de textos con ChatGPT, y en consecuencia ha recibido una inversión multimillonaria de Microsoft, que tiene por objetivo incluir estas tecnologías en tantos de sus servicios como le sea posible.

La empresa dirigida por Satya Nadella habría invertido unos 10.000 millones de euros en OpenAI apenas una semana después de haber despedido a cerca de 10.000 personas. Divisiones como HoloLens, Surface o Xbox han sufrido recortes significativos mientras el interés de Microsoft vira hacia la inteligencia artificial.

Se filtra el nuevo Windows 12 y apunta a 2024 con funciones impulsadas por inteligencia artificial

Su última propuesta en ese sentido consiste en un modelo de IA que entiende el contenido de las imágenes y resuelve puzles visuales. Según recoge Ars Technica, la tecnología en cuestión se denomina Kosmos-1 y ha sido desarrollado en exclusiva por Microsoft, sin la participación de OpenAI.

Kosmos-1 es un modelo multimodal capaz de analizar el contenido que presenten determinadas imágenes, resolver puzles visuales, reconocer textos visuales, superar pruebas de inteligencia visual o comprender instrucciones que se le den en lenguaje natural.

"Al ser una parte básica de la inteligencia, la percepción multimodal es una necesidad para lograr una inteligencia artificial general, en términos de adquisición de conocimientos y conexión con el mundo real", han defendido los investigadores que han diseñado esta herramienta en un artículo académico.

Saam Motamedi, socio de la firma de capital riesgo Greylock, ya explicó a Business Insider que algunos de los avances más prometedores que podrían darse en el campo de la IA estarían relacionados con la IA multimodal, puesto que se trata de modelos que son capaces de interpretar a la vez texto, imágenes y vídeos, algo que, según él, hará que "los trabajadores sean más productivos".

Conoce cómo trabajamos en BusinessInsider.

Se filtra el nuevo Windows 12 y apunta a 2024 con funciones impulsadas por inteligencia artificial

Otros artículos interesantes: