Depois de uma série de comentários criticando a voz da assistente do ChatGPT-4o (“four-o”), com timbre semelhante ao da atriz Scarlet Johansson, a OpenAI se defendeu das críticas nesta segunda-feira, 20, ao dizer que a voz apresentada na solução não é uma clonagem. Mas a atriz foi à imprensa, subiu o tom e, em comunicado à imprensa, mostrou desconfiança com relação à conduta da empresa e seu CEO, Sam Altman.

Mas a história ficou mais complicada na noite desta segunda-feira, 20, com uma nota enviada por Johansson à imprensa norte-americana. No material republicado por jornalistas no X, a atriz explicou que negociou com o CEO da OpenAI em setembro do ano passado para ser a “voz do atual sistema ChatGPT 4o”. Mas após refletir e “por razões pessoais” negou o convite.

Dois dias antes do lançamento, Altman procurou o estafe da atriz para reconsiderar a proposta, mas antes que ela pudesse responder, a demonstração foi apresentada. Johansson ficou surpreendida ao ver uma voz muito similar na demonstração ChatGPT-4o na última segunda-feira, 14. Como resultado, Johansson acionou seus advogados que escreveram duas cartas para que OpenAI e Sam Altman expliquem como fizeram a voz da Sky, detalhadamente. “Consequentemente, a OpenAI concordou em tirar a voz de Sky”, escreveu a atriz.

Em publicação no seu blog e no LinkedIn, a companhia afirmou que das 14 vozes presentes no GPT-4o, cinco são de atores contratados. A empresa também afirmou que planeja lançar “vozes adicionais” à solução para dar opção a seus usuários. Porém, a OpenAI afirmou que não divulgaria os nomes dos atores para proteger suas respectivas privacidades.

“Em tempos que estamos sofrendo com deepfakes e a proteção dos nossos próprios gostos, trabalho e identidades, eu acredito que que essas são questões (sobre a Sky) que merecem o devido esclarecimento. Eu espero uma resolução de forma transparente e que exista uma devida legislação para garantir que a liberdade individual seja protegida”, escreveu Johansson.

Entenda

A OpenAI apresentou na última semana o GPT-4o e suas novas soluções de IA generativa, sendo uma delas uma assistente de voz que podia ajudar com tarefas, como matemática e tradução em tempo real.

As pessoas que acompanharam o lançamento da atualização da IA disseram que havia uma semelhança com o timbre de voz da atriz Scarlet Johansson no filme ‘Ela’, em que interpretou uma assistente de voz pela qual o personagem de Joaquim Phoenix se apaixonava.

Vale dizer que a assistente do GPT também flertou com os engenheiros durante a apresentação, o que trouxe uma lembrança muito vívida da personagem. Além disso, a voz era bem similar.

Para piorar a situação, Altman publicou em sua conta no X, a palavra ‘Her’ logo após o lançamento. ‘Her’ significa ‘Ela’ em inglês, além de ser o nome original do filme dirigido por Spike Jonze, de 2013.


Escolhendo as vozes

Com isso, a OpenAI precisou esclarecer nesta segunda-feira que trabalha com critérios para o desenvolvimento das vozes Breeze, Cove, Ember, Juniper e Sky (essa última é o tema das críticas). Entre as regras para criar a voz da assistente estão:

  1. Atores com bagagem cultural ou que falem múltiplos idiomas;
  2. A voz precisa parecer atemporal, trazer confiança, natural e fácil de ouvir;
  3. A voz escolhida também precisa ser calorosa com carisma e tom rico, além de trazer confiança e gerar engajamento.

Esse trabalho começou ainda em maio de 2023 e teve mais de 400 inscrições. Ao final, a empresa escolheu 14 atores e reduziu para cinco no fim do processo de seleção. A empresa lembrou ainda que as vozes estão no ChatGPT desde setembro de 2023.

Análise

Ao retirar Sky do cardápio, a OpenAI não estava preocupada se a voz era parecida com a da atriz da franquia ‘Vingadores’, ‘Encontros e Desencontros’ e ‘Match Point’, além do próprio ‘Ela’. A preocupação inicial da empresa era com o mau uso da assistente de voz pelos seus usuários.

Tanto que enfatizou mais de uma vez que o lançamento da solução no GPT-4o está em modo de testes (alpha) para usuários do ChatGPT Plus. Também frisou no lançamento que trabalha com as partes envolvidas para evitar qualquer uso errado. Isso compreende um constante diálogo da OpenAI com governos, academias e sociedade civil.

Mas o fato é que grande parte da preocupação (e o motivo da empresa em se posicionar) está envolvida com a possibilidade de a plataforma da OpenAI clonar vozes. O que levaria a outros receios levantados, como sua base de dados para gerar esses conteúdos e, de novo, o uso por atores mal-intencionados – desde fraudadores em robocalls (vide a pesquisa da Juniper também divulgada hoje) até pessoas que querem mudar uma eleição.

Vale lembrar que a OpenAI faz parte de um supergrupo de empresas de tecnologias que decidiram se juntar para evitar o mau uso da IA nas eleições.

É importante também voltar à discussão de um ano atrás que gerou a greve de atores e roteiristas em Hollywood. Uma das principais preocupações dos talentos da indústria cinematográfica era o uso indiscriminado da IA para criar filmes, argumentos, artes, roteiros e até personagens. Quer dizer, qual o limite da IA generativa? Daria para recriar a voz de Marlon Brandon e fazer o Poderoso Chefão IV? Pegar o database de Elia Kazan para criar filmes épicos, como fez nos anos 1950 e 1960?

Por tudo isso, a OpenAI precisou dizer que não fez clonagem de voz e que possui regras para o desenvolvimento de vozes. Em teoria, não muito diferente daquilo que Apple fez com Siri e Google com Waze, por exemplo, de contratar atrizes. Mas se realmente mimetizou a voz da atriz, a companhia voltará ao centro de todas as discussões.

Imagem principal: Analistas da OpenAI conversando com a assistente Sky no lançamento do GPT 4o (YouTube/OpenAI)