Dois meses depois do lançamento inicial de seu modelo de IA generativa Gemini, o Google começou a implementar uma versão atualizada de seu modelo multimodal para interações de texto, imagens e áudio.

Disponível em três variáveis, Nano, Pro e Ultra, o Gemini 1.5 Pro é o primeiro modelo que o Google oferece para testes iniciais.

Descrito como “um modelo multimodal de tamanho médio otimizado para escalar em uma ampla gama de tarefas”, “a empresa disse que o novo modelo 1.5 Pro mostra “melhorias dramáticas” em várias dimensões” em comparação com o 1.0 Ultra, superando o 1.0 Pro em 87% dos pontos de referência utilizados pelo Google para desenvolver seus LLM, tudo isso necessitando de menos capacidade de computação.

A empresa lançou o Gemini 1.0 Ultra na semana passada, impulsionando o chatbot Bard do Google, que agora também será conhecido como Gemini. A versão do chatbot impulsionado pelo Ultra foi chamada de Gemini Advanced.

O modelo 1.5 Pro também foi criado utilizando uma arquitetura de mescla de especialistas (MoE), uma arquitetura de modelo que combina múltiplos subconjuntos de parâmetros ou “modelos especialistas” para gerar resultados. O Google diz que isso faz com que o modelo seja mais rápido e eficiente de ser executado.

No lançamento, o Gemini 1.5 Pro vem com uma janela de contexto padrão de 128.000 tokens, e um grupo limitado de desenvolvedores e clientes empresariais podem testá-lo com uma janela de contexto de até um milhão de tokens através do AI Studio e Vertex AI em vista prévia privada.

Os tokens que incluem partes inteiras e subseções de palavras, imagens, vídeos, áudio e código, e uma janela de contexto completa de um milhão de tokens, estarão disponíveis de maneira geral em uma data posterior não especificada. Em comparação, o Gemini 1.0 tinha uma janela de contexto de 32.000 tokens.

“O Gemini 1.5 oferece um rendimento dramaticamente melhorado. Representa uma mudança radical em nosso enfoque, baseado em inovações de pesquisa e engenharia em quase todas as partes de nossa infraestrutura e desenvolvimento de modelos básicos”, disse Demis Hassabis, diretor executivo do Google DeepMind, em uma publicação de blog anunciando o Gemini 1.5.

“Esses avanços contínuos em nosso modelos de próxima geração abrirão novas possibilidades para que as pessoas, os desenvolvedores e as empresas criem, descubram e construam utilizando a IA”, afirmou.