Google lanza Gemini, IA generativa multimodal: su mayor apuesta para competir con OpenAI

Sundar Pichai, CEO de Google.
Sundar Pichai, CEO de Google.

Google

  • Google ha presentado este miércoles Gemini, su modelo de IA generativa.
  • El gigante tecnológico ha realizado un gran esfuerzo interno para sacar Gemini este año.
  • Bard recibirá Gemini de inmediato, pero un modelo más avanzado no llegará hasta 2024.

Tras meses de señuelos, Google está empezando a desplegar su modelo de inteligencia artificial generativa, Gemini.

El nuevo modelo, que se lanzará por fases, es la oportunidad de Google para desbaratar la narrativa de que se ha quedado atrás frente a rivales como OpenAI.

Sin embargo, aunque los usuarios tendrán acceso a Gemini este mes, la versión más avanzada del modelo no llegará hasta principios del año que viene.

Gemini tiene tres "tamaños" que estarán disponibles por etapas: Ultra, Pro y Nano, el último de los cuales está diseñado para ejecutarse localmente en dispositivos como smartphones.

Google está dando acceso a los usuarios a la versión Pro este miércoles 6 a través de su chatbot Bard, y lo hará con los clientes de Cloud en los próximos días, pero afirma que el modelo Ultra —el más grande y técnicamente más avanzado de los tres— todavía está en fase de pruebas internas, y no se lanzará hasta principios de 2024.

Google tiene previsto incorporar Gemini a sus productos más populares a lo largo del tiempo. También lanzará Gemini Ultra a una nueva versión de Bard llamada Bard Advanced el año que viene. Sissie Hsiao, vicepresidenta y directora general de Bard y Assistant de Google, no ha querido aclarar si el uso de Bard Advanced costará dinero, pero no ha negado que sea una posibilidad.

En estos momentos, Google está sometido a una gran presión para demostrar que sigue siendo el líder del sector de la IA con Gemini, que ha sido entrenada para ser multimodal, lo que significa que puede procesar diferentes tipos de medios como texto, imágenes, vídeo y audio. Sin embargo, Google presume de que Gemini es también su modelo "más flexible", capaz de funcionar en una amplia gama de fuentes, desde centros de datos hasta smartphones.

¿Pagar por los datos para entrenar a la IA? Sería la ruina para gigantes como Meta

En una mesa redonda con periodistas celebrada esta semana, los ejecutivos de Google han afirmado que el modelo Ultra de Gemini es el primero que supera a los expertos humanos en MMLU (comprensión masiva del lenguaje multitarea, por sus siglas en inglés), una medición que pone a prueba materias como matemáticas, historia, derecho y ética. El modelo ha obtenido una puntuación del 90,0%, superando el 86,4% de GPT-4, de OpenAI.

Todo eso suena muy bien, pero aún no se podrán probar todas las capacidades de Gemini (también hay otros puntos de referencia con los que examinar Gemini). 

Google afirma que el modelo Pro ha superado a GPT-3.5, la versión gratuita de ChatGPT, y que los usuarios podrán probar una versión mejorada para Bard a partir del miércoles (al principio solo en inglés, según Google, y no en el Reino Unido). No obstante, cuando se les ha preguntado cómo se compara Gemini con GPT-4 en general, los ejecutivos han declinado hacer comentarios.

Públicamente, Google ha rechazado las sugerencias de que ha estado luchando para perseguir a la competencia, pero las cosas han parecido muy diferentes dentro de la empresa, ya que se ha apresurado a sacar Gemini e infundir IA en todos sus productos clave.

A principios de este año, el consejero delegado Sundar Pichai fusionó la preciada unidad DeepMind de Alphabet con su grupo interno de IA, Brain, para acelerar el trabajo en Gemini. Al personal también se le dijo que Google reduciría la cantidad de investigación que publica para limitar a los rivales la comercialización de sus ideas, como ha informado Business Insider.

Google cree que Gemini aventaja a la competencia en lo que denomina "razonamiento sofisticado", es decir, la forma en que el modelo procesa información compleja en distintos tipos de medios.

En una demostración mostrada a la prensa, los investigadores de DeepMind han utilizado Gemini para examinar cientos de miles de artículos de investigación y extraer tipos específicos de datos. Según Google, Gemini ha sido capaz de distinguir entre los artículos relevantes para el estudio y los que no lo eran. Y, lo que es más interesante, han podido mostrar a Gemini un gráfico con datos antiguos y obtener una versión actualizada con los nuevos datos.

 

Aunque Gemini puede procesar diferentes tipos de medios, Eli Collins, vicepresidente de producto de DeepMind, ha declarado que los modelos iniciales de Gemini no podrán generar imágenes y vídeos, pero ha sugerido que esto es algo que se incluirá más adelante en otros modelos.

Collins ha añadido que Google ha visto algunas capacidades "novedosas" en Gemini que podrían darle una ventaja sobre los modelos rivales, pero no ha querido dar más detalles sobre cuáles podrían ser.

Gemini se ha entrenado y funciona con unidades de procesamiento tensorial (TPU, por sus siglas en inglés), y Google está aprovechando el lanzamiento de Gemini para anunciar su nueva Cloud TPU v5p y un nuevo hiperordenador de IA, que se utilizará para mejorar el entrenamiento y la entrega de inteligencia artificial. Curiosamente, Amin Vahdat, vicepresidente de Google Cloud AI, ha afirmado que Gemini funcionará tanto con GPU como con TPU en el futuro, pero no ha compartido más detalles.

Google sostiene que pondrá Gemini Pro a disposición de los clientes empresariales a través de su programa Vertex AI, y para los desarrolladores en AI Studio, el 13 de diciembre.

En cuanto a sus productos de consumo más allá de Bard, Google lanzará Gemini Nano en el smartphone Pixel 8 Pro el miércoles; este permitirá funciones como resumir el contenido de las grabaciones de voz.

Google también ha señalado que planea añadir Gemini a SGE, su versión de Search impulsada por IA generativa, así como a Chrome, Duet AI y otros productos, en los próximos meses.

Conoce cómo trabajamos en Business Insider.