O Google anunciou nesta quarta-feira, 11, a chegada do Gemini 2.0, seu novo modelo multimodal de inteligência artificial generativa, que consegue compreender e gerar texto, áudio e imagem, além de trabalhar com múltiplas línguas simultaneamente. O novo modelo está sendo utilizado como base para vários outros modelos e produtos, incluindo um protótipo de assistente universal da empresa, batizado provisoriamente como Projeto Astra.
Um modelo mais enxuto chamado Gemini 2.0 Flash foi construído com o Gemini 2.0 com o objetivo de garantir baixa latência e larga escala. Ele já está disponível dentro do Gemini em computadores e dispositvos móveis do mundo inteiro e em breve chegará ao app homônimo. Além disso, está acessível por API para desenvolvedores no Google AI Studio e Vertex AI.
“A nova versão (Gemini Flash 2.0) oferece desempenho ainda mais robusto e, em muitos casos, supera o 1.5 Pro em padrões de desempenho importantes, mantendo o dobro de velocidade. Entre os novos recursos, estão o suporte a entradas multimodais, como imagens, vídeos e áudio, além da geração de saídas multimodais, incluindo imagens nativas combinadas com texto e áudio multilíngue ajustável por meio de texto-para-fala (TTS)”, explica Demis Hassabis, CEO da Google DeepMind, em texto publicado no blog da empresa.
O Gemini 2.0 deve ser incorporado às buscas do Google no começo de 2025 e depois em outros serviços da empresa.
Gemini 2.0 no Projeto Astra
O Gemini 2.0 está por trás do Projeto Astra, um agente universal em desenvolvimento pelo Google. Ele consegue entender o ambiente em volta do usuário pela câmera e pelo microfone do smartphone, cruzando dados contidos no aparelho e coletados da Internet em tempo real. Ele tem uma memória multimodal, ou seja, consegue se lembrar de informações às quais teve acesso na forma de texto, imagem ou áudio.
Em um vídeo (veja abaixo), o Google demonstra algumas das capacidades do Astra, todas elas combinando interface visual (câmera do smartphone) e sonora (comandos e respostas em voz), através do smartphone e também de um protótipo de óculos conectado. Alguns exemplos demonstrados no vídeo:
. Memorizar uma informação encontrada em um email do usuário e lembrá-la horas depois, a seu pedido
. Explicar como uma uma roupa deve ser lavada a partir da imagem da sua etiqueta
. Ensinar passo a passo como operar uma máquina de lavar para realizar o referido tipo de lavagem a partir da imagem dos botões do equipamento
. Analisar o gosto de leitura de uma pessoa pela lista de livros que curtiu em uma rede social e indicar novos títulos com base nisso
. Prover informações sobre espécies de plantas, monumentos ou pontos turísticos captados pela câmera do celular
Projeto Mariner
Outro modelo em desenvolvimento com Gemini 2.0 é o Projeto Mariner. Trata-se de uma solução para navegar na web e realizar ações em sites a partir de comandos do usuário. É possível, por exemplo, mostrar uma lista de empresas em uma planilha do Google e pedir para o Mariner encontrar na Internet os emails de contatos de todas elas.
Todo o caminho trilhado pelo Mariner é apresentado na tela, para que o usuário saiba exatamente o que o agente está fazendo. Nada acontece escondido. Ações mais sensíveis, como concluir uma compra, ainda precisam de aprovação humana. O Google está trabalhando também para que o Mariner não seja enganado em sites maliciosos, evitando clicar em links que injetem vírus no computador.
Agentes em videogames
O Google também está testando agentes com Gemini 2.0 que possam auxiliar jogadores durante partidas de videogames, em tempo real. O assistente é capaz de entender o que aparece na tela, interpretar as regras e responder aos pedidos ou tirar dúvidas do jogador.
Análise
Desde que o ChatGPT foi lançado ao público, há dois anos, o Google está correndo para não ficar para trás da OpenAI na onda da IA generativa. Contudo, suas primeiras reações foram alvo de críticas por conta de falhas encontradas. O chatbot Bard (cujo nome mais tarde seria trocado para Gemini) deu informações equivocadas sobre astronomia durante seu evento de lançamento. E meses depois o Google suspendeu a geração de imagens do Gemini porque a ferramenta apresentava falhas ao tentar reproduzir figuras históricas.
Aparentemente, a empresa lançou seus primeiros produtos de IA generativa de forma apressada, para acalmar investidores e analistas.
Os erros não a abalaram. O Gemini foi aperfeiçoado e tem apresentado uma performance robusta. A versão 2.0 parece ser um avanço importante – mas eventuais falhas só serão notadas depois que for totalmente liberada para o público.
Enquanto isso, por outro lado, a OpenAI continua um passo à frente. Na mesma semana do anúncio do Gemini 2.0, a criadora do ChatGPT lançou seu serviço de criação de vídeos com IA generativa, o Sora.
De todo modo, nessa disputa o Google conta com algumas vantagens que devem fazer diferença a seu favor no longo prazo: 1) uma grande variedade de produtos e serviços digitais de uso massificado que podem incorporar modelos de IA e ajudar na sua distribuição, como sua ferramenta de busca e o sistema operacional Android; 2) acesso a uma monumental base de dados históricos da Internet; 3) uma grande e experiente equipe de engenheiros; 4) uma empresa lucrativa, com modelo de negócios bem-sucedido, e inúmeras fontes de receita que pode ser reaplicada em pesquisa e desenvolvimento de IA generativa.