A OpenAI apresentou a atualização do ChatGPT, batizada como GPT-4o (se pronuncia “Four O”). O serviço foi mostrado como o ‘flagship’ da companhia e é omnimodal, uma vez que a IA suporta diversos tipos de mídia, como áudio, vídeo e imagens.

A nova versão da aplicação pode responder ao usuário em tempo real a partir de imagens que são adicionadas ao prompt da conversa, fazer buscas na web, analisar dados e criar tabelas. Uma novidade importante é o modo de voz (Voice Mode, no original em inglês) que permite uma conversa mais fluída e natural entre usuários e o modelo de IA.

Nos testes apresentados pela empresa, o GPT-4o atuava mais como uma assistente virtual, ao responder em tempo real e com uma voz feminina sobre questões dos analistas da OpenAI. Inclusive, a tecnologia reconhecia o humor em imagem e voz, traduziu idiomas em tempo real (italiano para o inglês) e gerou conteúdo em diversos tons de voz.

De acordo com a OpenAI, as respostas são mais rápidas: em média levam 232 milissegundos contra a média de 320 milissegundos do ser humano. Além disso, o usuário pode interromper a qualquer momento a assistente no modo de voz.

Em idiomas não ingleses, o modelo consome 50% menos a API. Por exemplo, a frase em português ‘olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!’ consome 10% menos a API, de 30 para 27 tokens, se comparar o GPT 4o com o GPT-4 Turbo.

GPT-4o também pode ajudar a desenvolvedores a ajustarem seus códigos.

Disponibilidade e PC

Inicialmente, a OpenAI está liberando apenas o GPT-4o com as ferramentas de texto e imagens a partir desta segunda-feira. Por sua vez, as vozes serão limitadas a uma seleção de predefinida e obedecerão às políticas de segurança existentes da companhia.

A empresa reconhece que os modelos de áudio apresentados podem trazer diversos riscos, e, nos próximos meses, a OpenAI trabalhará em um arcabouço técnico com “usabilidade via pós-treinamento e segurança necessária” para lançar a solução.

A companhia reafirma que o papel da OpenAI é oferecer “amplamente” o acesso das pessoas à sua tecnologia. Tanto que o GPT-4o ganha uma versão para desktop e está liberado para os usuários que acessam a versão gratuita. A diferença ante a versão paga ChatGPT Plus é a velocidade (em média cinco vezes mais rápido) e  o Voice Mode, que chega em modo de testes (alpha).

Para os desenvolvedores, o acesso também está liberado para as funções de texto e imagem. Suporte para áudio e vídeo será liberado nas próximas semanas para um pequeno grupo de parceiros.

Peculiaridades do evento

Os lançamentos da OpenAI nesta segunda-feira, 13, têm três pontos peculiares:

– A companhia apresentou suas novidades de IA um dia antes do Google I/O;

– Todos os devices usados no evento para demonstrar as tecnologias eram da Apple;

– Os modelos foram treinados com GPUs da NVIDIA.

Imagem principal: Analistas da OpenAI apresentam correção de código com o GPT 4o (YouTube/OpenAI)