Dos meses después del lanzamiento inicial de su modelo de IA generativa Gemini, Google ha comenzado a implementar una versión actualizada de su modelo multimodal para interacciones de texto, imágenes y audio.
Disponible en tres variantes, Nano, Pro y Ultra, Gemini 1.5 Pro es el primer modelo que Google ofrece para pruebas tempranas.
Descrito como "un modelo multimodal de tamaño mediano optimizado para escalar en una amplia gama de tareas", la compañía dijo que el nuevo modelo 1.5 Pro muestra "mejoras dramáticas en varias dimensiones" en comparación con 1.0 Ultra, superando a 1.0 Pro en un 87 por ciento de los puntos de referencia utilizados por Google para desarrollar sus LLM, todo ello requiriendo menos computación.
La compañía lanzó Gemini 1.0 Ultra la semana pasada, impulsando el chatbot Bard de Google, que ahora también se conocerá como Gemini. La versión del chatbot impulsado por Ultra ha sido denominada Gemini Advanced.
El modelo 1.5 Pro también se creó utilizando una arquitectura de mezcla de expertos (MoE), una arquitectura de modelo que combina múltiples subconjuntos de parámetros o "modelos expertos" para generar resultados. Google dice que esto hace que el modelo sea más rápido y eficiente de ejecutar.
En el lanzamiento, Gemini 1.5 Pro viene con una ventana de contexto estándar de 128.000 tokens, y un grupo limitado de desarrolladores y clientes empresariales pueden probarlo con una ventana de contexto de hasta un millón de tokens a través de AI Studio y Vertex AI en vista previa privada.
Los tokens que incluyen partes enteras o subsecciones de palabras, imágenes, videos, audio o código, y una ventana de contexto completa de un millón de tokens, estarán disponibles de manera general en una fecha posterior no especificada. En comparación, Gemini 1.0 tenía una ventana de contexto de 32.000 tokens.
“Gemini 1.5 ofrece un rendimiento dramáticamente mejorado. Representa un cambio radical en nuestro enfoque, basándose en innovaciones de investigación e ingeniería en casi todas las partes de nuestra infraestructura y desarrollo de modelos básicos”, dijo Demis Hassabis, director ejecutivo de Google DeepMind, en una publicación de blog anunciando Gemini 1.5.
"Estos avances continuos en nuestros modelos de próxima generación abrirán nuevas posibilidades para que las personas, los desarrolladores y las empresas creen, descubran y construyan utilizando la IA", afirmó.