A voz é uma característica marcante de uma pessoa, tal como seu rosto, seus olhos etc. A adoção cada vez maior de robôs de voz em URAs cognitivas está fazendo com que as empresas também se preocupem em ter uma voz própria e única, que transmita em seu timbre e prosódia os atributos da marca. Para ajudá-las nessa busca, o CPQD acaba de concluir o desenvolvimento de uma solução que usa redes neurais para a produção de vozes personalizadas para assistentes virtuais. A utilização da chamada “síntese neural” acelera e barateia o processo. A novidade será apresentada durante o Super Bots Experience, na semana que vem, pelo pesquisador Mario Uliani Neto, do CPQD.
Vale lembrar que o CPQD tem longa experiência com síntese de fala em português, atuando há mais de uma década nessa área. E foi justamente com base nessa experiência que a nova solução foi criada. Ela utiliza um modelo universal construído a partir de mais de 200 horas de falas gravadas.
“Existe um trabalho a priori de criar um modelo universal com várias bases de fala que foram projetadas, construídas e treinadas ao longo do tempo no CPQD”, explica Uliani, do CPQD.
Cada marca indica seu locutor ou locutora, que precisa gravar em estúdio algumas frases com riqueza fonética pré-estabelecidas pelo CPQD. São necessárias cerca de três horas de gravação, mas apenas aproximadamente 30 minutos são efetivamente aproveitados para a síntese neural da fala do assistente virtual. A partir da gravação e de sua aplicação ao referido modelo universal do CPQD, a solução consegue sintetizar a fala daquele locutor de maneira natural, tornando possível que diga qualquer nova palavra ou frase que for determinada, preservando o timbre e a prosódia originais do locutor.
São usadas duas redes neurais. Uma, chamada de modelo acústico, recebe o texto e gera a representação acústica do sinal de fala. E a segunda recebe a entrada acústica e gera o sinal de fala, já com o áudio propriamente dito, construído a partir das amostras gravadas.
Antes do uso de redes neurais, a solução anterior do CPQD para a síntese de fala demandava cerca de 100 horas de estúdio, das quais se aproveitavam de 10 a 15 horas de fala. Era um trabalho que levava aproximadamente seis meses e que agora foi reduzido de maneira significativa.
Uliani apresentará em mais detalhes a nova solução durante o Super Bots Experience, no dia 16 de setembro. E a diretora de marketing e vendas do CPQD, Sirlene Honório, participará de painel sobre assistentes de voz e voice bots no mesmo evento, mas no dia 17 de setembro.
Super Bots Experience
O Super Bots Experience trará também palestras individuais, cases e outros painéis com temas como: os desafios na curadoria de bots; a importância de criar uma lei sobre inteligência artificial no Brasil; o mercado brasileiro de plataformas de construção de bots; e a importância da diversidade e da linguagem inclusiva no desenvolvimento de bots.
A programação completa e mais informações estão disponíveis no site www.botsexperience.com.br ou com a equipe de eventos do Mobile Time: [email protected] / 11-96619-5888 / 11-3138-4619 (WhatsApp).