Durante o Google I/O, nesta terça-feira, 14, a empresa apresentou avanços em sua inteligência artificial com o Gemini 1.5 Pro e a versão 1.5 Flash do modelo de linguagem. Enquanto a primeira é capaz de lidar com conteúdo em larga escala – a ferramenta pode resumir 1,5 mil páginas de texto enviadas por um usuário, por exemplo –, a segunda é uma versão mais leve, econômica e para funções mais simples.
Durante o evento, Sundar Pichai, CEO do Google, também destacou melhorias nas traduções do Gemini. A IA generativa da empresa estará disponível para todos os desenvolvedores em todo o mundo em 35 idiomas.
Dentro do Gmail, o Gemini 1.5 Pro analisará PDFs e vídeos anexados, fornecendo resumos, entre outras funcionalidades. Na prática, caso uma pessoa precise averiguar um email, o Gemini poderá resumi-lo, inclusive os anexos.
O Gemini também deve facilitar as pesquisas dentro do Gmail. Entre o exemplo dado pela empresa está a comparação de preços de diferentes empreiteiros que mandaram emails com seus orçamentos para consertar um telhado. No caso, a IA generativa poderá resumir as cotações, mostrar as datas de início previstas por cada um dos profissionais, por exemplo.
Android
Aos poucos, a ideia do Google é que o Gemini substitua o Google Assistente nos smartphones Android.
Veo
No evento, o Google também apresentou o Veo, modelo de IA para geração de vídeo de alta definição, a versão de Sora, da OpenAI, e também o Imagen 3, seu modelo de texto para imagem, que promete imagens realistas.
As ferramentas estarão disponíveis para um grupo de desenvolvedores na próxima segunda-feira, 20, e chegarão ao Vertex AI, a plataforma de aprendizado de máquina do Google que permite aos desenvolvedores treinar e implantar aplicativos de IA. Até lá, haverá uma lista de espera.
Music AI Sandbox
A empresa também apresentou o “Music AI Sandbox”, uma gama de ferramentas generativas de IA para criar músicas e sons do zero, com base nas instruções do usuário.
Projeto Astra
O Projeto Astra também recebeu atualizações durante o Google I/O. A versão do assistente de IA desenvolvido pela unidade DeepMind ainda é um protótipo, mas a empresa espera lançá-lo oficialmente ainda este ano.
O Projeto Astra permite que, com áudio e vídeo, o bot interaja com o usuário, respondendo suas perguntas. No vídeo de apresentação da ferramenta, a pessoa fez um passeio com a câmera do celular e fazia perguntas aleatórias para o assistente virtual, como sobre o código desenvolvido em uma tela do computador, em que bairro ela estava – ao apontar a câmera para a janela; pediu um nome para uma dupla inusitada – um cachorro Golden Retriever e uma pelúcia de tigre (a sugestão foi Golden Stripes). No fim, é perguntado ao bot onde ela tinha deixado os óculos e ele responde exatamente onde eles estavam, graças à câmera que tudo “via”.
A conversa no vídeo de demonstração aconteceu em tempo real, sem atrasos.
No palco do Google I/O, Demis Hassabis, o CEO da DeepMind, disse que “reduzir o tempo de resposta para algo conversacional é um difícil desafio de engenharia”.
Confira abaixo o vídeo da apresentação:
Imagem: Demis Hassabis, o CEO da DeepMind. Crédito: reprodução de vídeo/Google I/O