A Anthropic e a OpenAI apresentaram atualizações em suas plataformas de inteligência artificial generativa nesta quinta-feira, 20, sendo que a primeira empresa foca em buscas na web para os usuários no app Claude (Android, iOS) e a segunda, em novos modelos de áudio para desenvolvedores criarem agentes de voz no universo do GPT-4o e 4o mini.
OpenAI

Imagem de exemplo dos agentes de IA em atuação com modelos da OpenAI (divulgação)
A companhia do ChatGPT apresentou três novos modelos de áudio que estarão disponíveis para profissionais e empresas via APIs. Em seu perfil no Linkedin, Kevin Weil, CPO da OpenAI, explicou que a atualização permitirá construir agentes de voz com apenas algumas linhas de codificação.
Por exemplo, um agente de voz pode ser criado para falar como ‘um simpático agente de atendimento ao cliente’, a partir da instrução do desenvolvedor. Isso acontece devido a um dos novos modelos incluir a possibilidade de o desenvolvedor dar controle sobre tempo de resposta e emoção.
Os outros dois modelos lançados são de melhoria significativa de conversão de voz em texto (speech-to-text); mais avançados do que aqueles disponíveis no Whisper, o atual modelo de reconhecimento e transcrição de fala em voz da companhia.
Para os desenvolvedores e curiosos que desejam testar o potencial dos modelos, a OpenAI criou este site que permite escolher uma das onze vozes e um dos cinco timbres disponíveis para a narração. É possível trocar essas opções em qualquer momento e a narração muda em tempo real.
A página tem dois prompts, um para definir o tom do narrador, seu ritmo, a pronúncia, emoção colocada na voz, inflexão e escolha de palavras. E o outro quadro é para onde vai o discurso que o agente falará. Para ouvir, aperte o play. É possível compartilhar por áudio e baixar o áudio da narração.
Os três modelos de voz estão disponíveis a partir desta quinta-feira via API e no kit de desenvolvedor de agentes (Agents SDK).
Claude
A Anthropic informou que o seu aplicativo de inteligência artificial generativa, o Claude, ganha conexão com busca na web. O aplicativo recebe um motor de busca e passa a ter os resultados da web inseridos em suas respostas.
A partir desta atualização, os textos gerados pelo app ganham citações das fontes online. A ideia da companhia é que, no momento em que o app dá a sua resposta, o usuário verifica a fonte original delas. Na visão da companhia, a busca pode ajudar:
- Pesquisadores que precisam encontrar mais obras e tendências para validar seus trabalhos;
- Compradores que desejam comparar preços e produtos;
- Analistas de finanças que precisam de informações do mercado em tempo real.
Inicialmente, o motor de busca está sendo lançado para usuários pagantes do Claude nos Estados Unidos. Para os demais, o suporte está disponível aos usuários não pagantes e a pesquisa deve chegar para mais países em breve.
Imagem principal: Ilustração produzida por Mobile Time com IA