A Meta anunciou nesta sexta-feira, 16, o Voicebox, um modelo de inteligência artificial (IA) que pode executar tarefas de geração de fala. Ele é capaz de produzir clipes de áudio de alta qualidade em diversos estilos, a partir de texto, e editar um áudio pré-gravado, removendo buzinas de carros ou latidos de cães, preservando o estilo e conteúdo.
Usando uma amostra de áudio de apenas dois segundos, o Voicebox consegue identificar o estilo do áudio e usá-lo para gerar um outro áudio a partir de texto. Ele também pode recriar uma parte da fala que foi interrompida por ruído ou substituir palavras mal pronunciadas, sem a necessidade de regravá-la. Um trecho de um discurso que foi interrompido pelo latido de um cachorro, por exemplo, pode ser gerado novamente sem esse latido. É “como uma borracha para edição de áudio”, explicou a Meta.
Utilizando uma amostra de áudio da fala de alguém e o trecho de um texto em português, inglês, francês, alemão, espanhol ou polonês o Voicebox consegue produzir uma leitura do texto em qualquer um desses idiomas, mesmo que a amostra da fala e o texto estejam em línguas diferentes. A companhia diz que o recurso poderá ser usado no futuro para ajudar pessoas a se comunicarem mesmo sem falar o mesmo idioma.
Apesar de não ter dado detalhes sobre um possível lançamento público, a Meta destacou que, futuramente, modelos de IA generativa multiuso, como o Voicebox, poderão ser usados para dar voz com som natural a assistentes virtuais e personagens não-jogáveis no metaverso. Além disso, permitirão que pessoas com deficiência visual ouçam mensagens de outras pessoas lidas nas vozes originais destas. Ela poderá ser usada por ferramentas para criar e editar facilmente conteúdos de áudio para vídeos, entre outras.