Open AI y Microsoft lanzan GPT-4, una inteligencia artificial más potente que permitirá analizar vídeos y tendrá una personalidad

GPT-4 la nueva inteligencia artificial
  • La nueva GPT-4 analiza el lenguaje de forma casi humana y lo hace además, de forma multimodal, recogiendo registros no solo de texto, sino de imágenes y de vídeos. 
  • La compañía reconoce que aún presenta sesgos y que está trabajando para que no se le dé un mal uso, como informarse sobre la creación de drogas o la fabricación de bombas.

La evolución de la inteligencia artificial de Open AI, compañía respaldada por Microsoft y creadora del Chat GPT, presenta su nueva creación, que extiende su capacidad de análisis a la interpretación de imágenes y vídeos. Además, permite moldear la "personalidad del software" y ofrece una mayor capacidad de análisis y de respuesta. Estas son las principales claves de GPT-4:

  • Es una inteligencia artificial multimodal, capaz de entender texto, imágenes y vídeos.
  • Se puede personalizar, para que nos responda un personaje serio o más distendido. 
  • Está ya disponible y su integración con el chat está en desarrollo. 
  • Se estima que se crearán nuevos empleos para validar los datos, aun con profundos sesgos.
  • Un caso de uso sugiere que ahorraría al menos 500 horas de trabajo al día en centros de llamadas. 

"GPT-4 es un gran modelo multimodal (que acepta entradas de imágenes y texto, y emite salidas de texto) que, si bien es menos capaz que los humanos en muchos escenarios del mundo real, exhibe un rendimiento a nivel humano en varios puntos de referencia académicos y profesionales", explica Open AI en un comunicado.

Los cambios, respecto a las versiones anteriores son los siguientes:

Tendrá una mayor capacidad de respuesta

La nueva versión "es más confiable, creativa y capaz de manejar instrucciones mucho más matizadas que en su predecesora", indican la compañía.

Para ello, Open AI ha trabajado en la escalabilidad de los datos, permitiendo partir de una muestra más pequeña de información para predecir el resultado sobre un análisis más amplio y, con ello, mejorar su rendimiento.

Además, incrementa su capacidad de análisis. Pensemos en cuando redactamos un informe de ventas, los elementos más importantes los posicionamos al inicio, pero además podemos incluir datos externos, sobre la economía, internos, acerca de los resultados de ventas y, por último, agregar valoraciones personales. 

El lenguaje natural que propone GPT-4 intenta clasificar toda esta información para darle la prioridad que merece cada elemento.

Ilustración sesgos machistas inteligencia artificial

Los ingenieros afirman que han probado esta nueva tecnología con exámenes SAT - el equivalente estadounidense a la EBAU - con sorprendentes mejoras, frente a la versión anterior.

Las palabras se las lleva el viento, así que GPT-4 analizará también vídeo e imágenes

Open AI explica que "en una variedad de dominios, incluidos documentos con texto y fotografías, diagramas o capturas de pantalla, GPT-4 exhibe capacidades similares a las de las entradas de solo texto".

Así, un usuario podría introducir un vídeo o una imagen y obtener una explicación o resumen de ella en formato de texto.

En este sentido, la inteligencia artificial es un "cambio de juego", explica el CTO de Microsoft, Andreas Braun, según informa el diario Heise. 

Hace un lustro, Google nos sorprendía con Lens, un algoritmo capaz de extraer información de las imágenes, traducirlas al texto y analizarlas. Sin embargo, la tecnología de reconocimiento de imágenes es, quizá, la dimensión que más espacio de mejora tiene.

GPT-4 pretende ahondar en esta cuestión con un nuevo modelo de lenguaje grande lenguaje LLM, que analice imágenes y vídeos. De esta manera podríamos tener un resumen de una conferencia o de una película sin haberla visto.

La principal dificultad es saber apreciar los matices. Saber qué peso tiene en una conversación una palabra o una escena. Los humanos tenemos ciertas capacidades neuronales que permiten apreciar los matices y este lenguaje, a través de sus millones de parámetros, pretende imitarlo.

Para ello, la nueva versión se fundamenta en Kosmos, el nuevo lenguaje multimodal que se la compañía presentó a principios de mes.

Para ponernos en contexto, los modelos de lenguaje grande (LLM) son la base de la Inteligencia Artificial. Actualmente, algunos de los sistemas más completos para analizar imágenes o vídeos son PaLM de Google, Megatron-Turing NLG o Gopher de DeepMind. 

Para mostrar sus capacidades, Open AI ha preguntado a la tecnología qué tiene de gracioso un meme, que muestra un iPhone con un cargador antiguo y el sistema ha detectado la incongruencia de juntar una tecnología avanzada con un invento anticuado.

GPT-4 interpreta un meme de iphone

Cierto es que la pregunta le ha predispuesto a buscar esa incongruencia, de modo que es probable que los usuarios de la tecnología tengan que repensar la manera en la que interactúan con ella, para hacérselo más fácil.

Te contestará Sócrates o quien tú quieras 

Esta tecnología, a fin de cuentas, pretende reemplazar algunas de las creaciones - exámenes, emails, resúmenes de reuniones - que vamos a compartir con otras personas, de modo que su lenguaje debe adecuarse al entorno en el que nos encontramos.

Por el momento y solo para los ingenieros que trabajen con ello, se podrá instruir al sistema a que se exprese “a lo Sócrates”, como refiere la compañía, o de un modo más distendido.  

“Los desarrolladores (y pronto los usuarios de Chat GPT) podrán seleccionar el estilo y la tarea de su IA describiendo esas instrucciones en el mensaje del sistema”, explica la compañía. 

¿Qué casos de uso se esperan?

Según expuso en una conferencia de AI Clemens Siebler, especialista Senior de IA en Microsoft, GPT-4 podría ahorrar 500 horas de trabajo al día a un gran cliente de Microsoft en los Países Bajos, que recibe 30.000 llamadas al día. 

Los ingenieros apuntan al entorno laboral, con sectores muy propicios a la mejora tecnológica, como los centros de llamadas, que a día de hoy ya integran tecnología de vanguardia, como robots para tomar llamadas o sistemas de transcripción de textos. 

GPT-4 pretende otorgarle un valor añadido resumiendo e interpretando la información que saca. 

Se crearán nuevos empleos que asistan a la inteligencia artificial 

Se necesitarán "muchos expertos para hacer que el uso de la IA agregue valor", explicaba en la conferencia de AI Marianne Janik, directora ejecutiva de Microsoft Alemania.

Es un escenario plausible. Como sucede con numerosos programas, se precisa un asistente para utilizarla.

Por poner un ejemplo, los comercios electrónicos se nutren de Google Analytics, un software que analiza las visitas, compras y demás datos relacionados de los usuarios en su página de forma gratuita. Sin embargo, su existencia ha creado numerosos puestos de trabajo de analistas e informáticos que se encargan de extraer y analizar esos datos.

Los creadores de Open AI, visto el pánico suscitado por sus últimos desarrollos, lo dejan claro: si bien sustituirá algunas tareas, y por consiguiente, algunos empleos, se necesitarán tantos otros que validen e integren la información aportada por GPT-4.

¿Habrá un nuevo Chat GPT?

Sí, aunque aún no se conocen las fechas de estreno. Open AI afirma que están “lanzando la capacidad de entrada de texto de GPT-4 a través de ChatGPT y la API, con una lista de espera.

Los primeros en explotar sus capacidades serán los suscriptores Plus, aunque progresivamente se abrirán parte de sus funcionalidades al público en general.

En cuanto a sus carencias, Open AI afirma que GPT-4 no está exento de fallos y errores. Para identificarlos, ha puesto a disposición de los usuarios un buzón de sugerencias y problemas, denominado OpenAI Evals.

Al final del comunicado de prensa, los creadores se disculpan, aludiendo al sesgo en el que incurre la inteligencia artificial. Un ejemplo es que han rechazado entradas en las que explique cómo sintetizar droga. Aparentemente, no solo los estudiantes y profesionales se han servido de esta tecnología. 

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.