Así pretende Google alcanzar a ChatGPT con su Gemini 1.5 Pro

19 feb. 2024 15:00h.

Google vuelve a sorprender con otro avance de su IA, Gemini 1.5 Pro.
Tras el fin de Bard, con su nueva evolución de Gemini por fin pretende alcanzar a ChatGPT.

Cuando apenas han pasado unos días desde la aparición de Gemini y Gemini Ultra, de repente Google ha vuelto a sorprender con otra evolución: Gemini 1.5 Pro, donde el gigante tecnológica quiere por fin alcanzar a ChatGPT de OpenAI. La pregunta es si supone una táctica de hacer olvidar la decepción de Gemini o bien en su desarrollo han roto rápidamente un techo que no esperaban y que les ha sorprendido.

Seguro que no paras de leer y escuchar lo de la increíble evolución que tendrá la inteligencia artificial (IA) a lo largo de 2024: que si ChatGPT 5, que si la inteligencia artificial general (AGI), que si la IA de los grandes (Microsoft, Google, Apple y Meta)... Pero se hablaba de finales de año; pues bien, no ha terminado febrero y los cambios y evoluciones casi surgen a diario. A este ritmo, ¿en qué punto estará la IA en diciembre de 2024?

Una lucha encarnizada para ser referentes de la IA

Hasta ahora OpenAI y su ChatGPT 4 no tienen rival, ni por parte de las grandes ni por los innumerables proyectos de código abierto. Es más, estos últimos, con muchos menos recursos, parecen haberse acercado más.

Tras el fiasco de Bard y la decepción de Gemini, Google ha sorprendido anunciando en el post de su blog lo que puede ser la siguiente revolución de la IA. A tenor de los datos fríos, puede ser disruptivo, pero pocos se fían tras lo que pasó con sus pruebas editadas y bajo circunstancias no reales de usuario. El artículo está firmado por Sundar Pichai, el CEO de Google y Alphabet, y Demis Hassabis, CEO de Google DeepMind.

¿Gemini 1.5 o Gemini 1.5 Pro?

En esto hay confusión. ¿No salió el 1.5 y ya hay 1.5 Pro? Google lo explica en el post: "El primer modelo Gemini 1.5 que lanzaremos para pruebas iniciales es Gemini 1.5 Pro. Es un modelo multimodal de tamaño mediano, optimizado para escalar en una amplia gama de tareas y funciona a un nivel similar al 1.0 Ultra, nuestro modelo más grande hasta la fecha. También introduce una característica experimental innovadora en la comprensión de contextos prolongados."

La presentación de Gemini 1.5 Pro

Esta actualización no es solo una mejora incremental. Representa una reinvención de las capacidades de IA con su nueva arquitectura Mixture-of-Experts (MoE). Este enfoque divide el modelo en redes neuronales más pequeñas, especializadas en diferentes tareas, permitiendo una comprensión y aprendizaje más eficientes de contextos complejos.

Google está convencida de que ahora es OpenAI la que tiene la pelota en su tejado y está obligada a presentar su esperado ChatGPT 5 igualando al menos la apuesta. Solo una comparación: ChatGPT 4 emplea en su funcionamiento unos 35.000 tokens; Gemini 1.5 alcanza hasta el millón de tokens. Lo del crecimiento exponencial de la IA se reflejan en datos así.

¿Qué son los tokens en este caso? En el artículo lo explican como una "los componentes básicos utilizados para procesar la información. Los tokens pueden ser partes enteras o subsecciones de palabras, imágenes, vídeos, audio o código. Cuanto más grande sea la ventana de contexto de un modelo, más información podrá absorber y procesar en un mensaje determinado, lo que hará que su resultado sea más consistente, relevante y útil".

Capacidades mejoradas

Las capacidades de Gemini 1.5 Pro — Google

La capacidad de Gemini 1.5 Pro para procesar cantidades masivas de información es impresionante: una hora de vídeo, once horas de audio, 30.000 líneas de código y más de 700.000 palabras en una sola instancia. Es el primer sistema entrenado en multimodalidad pero a la vez, ya que ChatGPT se entrenó también multimodal, pero con texto, audio y vídeo por separado.

Imagina un asistente virtual que no solo responda a tus preguntas de texto, sino que también pueda analizar fotos, traducir idiomas en tiempo real o incluso generar código a partir de instrucciones verbales. Su versatilidad incluye:

Generación de contenido de alta calidad: puede crear textos informativos, traducir idiomas con precisión, redactar distintos tipos de contenido creativo y responder a preguntas de manera completa y relevante.
Aprendizaje continuo: se actualiza constantemente con nueva información, evolucionando y mejorando sus capacidades gracias a la interacción con los usuarios.
Escalabilidad y optimización: está diseñado para funcionar en una amplia gama de dispositivos y aplicaciones, desde smartphones hasta supercomputadoras, adaptándose de manera eficiente a sus necesidades.

Este avance no solo mejora la eficiencia en el procesamiento de datos, sino que también abre nuevas posibilidades para aplicaciones en diversos campos, desde la programación hasta el análisis de contenido multimedia. Eso sí, OpenAI estará pensando que Google no puede renunciar a su modelo de negocio principal, el buscador, que no es tan compatible con una IA general, mientras que OpenAI se puede centrar en el modelo IA puro y con el respaldo económico de Microsoft.

Comprensión de contextos largos

Uno de los desafíos más significativos en el desarrollo de IA ha sido la comprensión de contextos largos y complejos. Gemini 1.5 Pro aborda este reto de manera innovadora, equipando al modelo con una ventana de contexto estándar de 128.000 tokens, y para un grupo selecto de desarrolladores, la posibilidad de expandirse hasta un millón de tokens.

Esta capacidad permite una comprensión profunda y detallada de los textos, superando las limitaciones previas y estableciendo un nuevo estándar en el procesamiento del lenguaje natural.

Pero lo que te puede volar la cabeza es el vídeo demostrativo que puedes ver en el post, donde le preguntas a Gemini qué pasa en un momento concreto de un vídeo de 44 minutos, bien con texto o incluso con un dibujo, y la IA te da el fotograma exacto.

El vídeo es en realidad una película muda de Buster Keaton, con lo que ya se ha hablado como posible aplicación para expertos en cine y realizar críticas de películas. De cualquier forma, otros apuntan en foros que para qué sirve que una IA te diga en qué segundo de la película o fotograma ocurre algo en concreto: o bien ves la película o bien le pides que te haga un resumen de la misma. Pero el meollo del asunto es tecnológico, no práctico, y que acciones aparentemente inservibles, suponen un avance significativo para futuras aplicaciones, en este caso con el reto que suponía para este año que la IA fuera eficiente con el vídeo, tras el éxito de texto e imagen.

El futuro con Gemini 1.5 Pro: ¿y ahora qué?

Te preguntarás si ya puedes probarlo, ya sea gratis o de pago. Ya está disponible para los clientes de Google Cloud, lo que significa que empresas de todo el mundo pueden aprovechar su potencial. Se espera que Google integre Gemini 1.5 en una amplia gama de sus productos.

¿Gemini 1.5 Pro puede marcar el inicio de una nueva era en el desarrollo de inteligencia artificial, es un paso más para destronar a OpenAI o al final no será para tanto? Por ahora, ha conseguido la capacidad para procesar y comprender grandes cantidades de información de manera eficiente.

Estamos en febrero y parece que han pasado meses desde que comenzara 2024 en cuanto a la lucha que se esperaba por la evolución de la IA y quién tendría la hegemonía en el sector. Ahora quedan los pasos que darán Apple, Meta, Microsoft y sobre todo OpenAI, con el esperado ChatGPT 5.

Otros artículos interesantes:

Descubre más sobre Félix Esteban, autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.

Etiquetas: