A OpenAI integrou o Sora, seu gerador de vídeos e imagens, ao GPT-4o. Em um primeiro momento, o lançamento foca somente na criação de imagens e estará disponível para os planos ChatGPT Plus, Pro, Team e Free a partir desta terça-feira. Usuários Enterprise e Edu terão acesso “em breve”. A ferramenta também está disponível no Sora. O limite de uso da versão gratuita “será o mesmo do DALL-E”, o que, segundo o FAQ do ChatGPT (Android, iOS), significa gerar três imagens por dia. O anúncio aconteceu nesta terça-feira, 25, e o recurso pode ser encontrado como “Imagens no ChatGPT”.

A integração do Sora no GPT-4o permitirá gerar diferentes tipos de arquivos, como imagens, texto, áudio e vídeo, inclusive misturando as possibilidades.

OpenAI; GPT-4o

Aparentemente, a geração de mãos melhorou. Crédito: divulgação

Entre as melhorias apontadas pela OpenAI está o conceito de “binding” (associação), que se refere à capacidade dos geradores de imagem de IA de manter relações corretas entre atributos e objetos. Um modelo com fraca associação, por exemplo, pode interpretar erroneamente um comando para gerar uma estrela azul e um triângulo vermelho, criando, em vez disso, uma estrela vermelha e nenhum triângulo. A nova ferramenta de geração de imagens pode associar corretamente atributos a 15 ou 20 objetos sem confusão, representando um avanço significativo em precisão e confiabilidade, garante a empresa.

A renderização do texto também recebeu melhorias, permitindo gerar um texto coerente sem erros tipográficos em uma imagem.

A nova versão do Sora integrado ao GPT-4o usa uma abordagem autorregressiva — gerando imagens da esquerda para a direita e de cima para baixo, semelhante à forma como um texto é escrito — em vez da técnica de modelo de difusão usada pela maioria dos geradores de imagem (como o DALL-E), que criam a imagem inteira de uma só vez.

Segurança do GPT-4o

De acordo com a OpenAI o modelo oferece salvaguardas para evitar a geração de deepfakes, como aquelas geradas por outros modelos – como Kamala Harris segurando uma arma, pelo Grok, ou Taylor Swift nua, por modelo da Microsoft, ou a retirada de marcas d’água pelo Gemini. A empresa afirma que a ferramenta impede a remoção de marcas d’água, bloqueia a geração de deepfakes sexuais e rejeita pedidos de geração de CSAM (Child Sexual Abuse Material).

Foto: Imagem criada para ser o menu de um jogo no qual o jogador vê seu personagem, seus equipamentos, missões e poderes. Crédito: divulgação/OpenAI

 

*********************************

Receba gratuitamente a newsletter do Mobile Time e fique bem informado sobre tecnologia móvel e negócios. Cadastre-se aqui!