Com o mundo de olho na DeepSeek, a chinesa Alibaba, dona da AliExpress, lançou seu mais novo modelo de inteligência artificial generativa, o Qwen 2.5-VL, capaz de realizar tarefas de análise de texto e de linguagem. Os modelos podem interpretar arquivos, entender vídeos e contar objetos em imagens, além de controlar um PC. Essa nova versão de código aberto possui capacidade de processar entradas de contexto longo e pode lidar com até 1 milhão de tokens.
De acordo com os benchmarks da equipe Qwen, o modelo mais avançado da série, Qwen 2.5-Max, supera o GPT-4o da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 2.0 Flash do Google em uma série de avaliações envolvendo matemática.
O Qwen 2.5-VL está disponível para testes no Qwen Chat, da Alibaba, e promete analisar gráficos e tabelas, extrair dados de digitalizações de faturas e formulários e “compreender” vídeos com várias horas de duração.
Vale dizer que a data de corte da IA generativa da Alibaba é dezembro de 2024.
Qwen 2.5-VL manipula PCs e dispositivos móveis
Uma das funções do Qwen 2.5-VL é sua capacidade de interagir com softwares, tanto em PCs quanto em dispositivos móveis.
Em um vídeo postado no X por Philipp Schmid, líder técnico da Hugging Face, o modelo foi mostrado abrindo o aplicativo Booking.com no Android e reservando um voo de Chongqing para Pequim.
Licenciamento e disponibilidade
Os dois modelos menores e menos sofisticados da série, Qwen 2.5-VL-3B e Qwen 2.5-VL-7B, estão disponíveis sob uma licença permissiva.
E o modelo principal, Qwen 2.5-VL-72B, está sob licença personalizada da Alibaba, que exige que empresas e desenvolvedores com mais de 100 milhões de usuários ativos mensais solicitem permissão à companhia chinesa antes de usá-lo comercialmente.
Números da nova versão do Qwen 2.5
A nova versão inclui dois modelos ajustados para instruções, o Qwen 2.5-7B-Instruct-1M e o Qwen 2.5-14B-Instruct-1M, com 7 bilhões e 14 bilhões de parâmetros, respectivamente.
Além disso, a Alibaba Cloud lançou um framework de inferência correspondente para processamento de contextos longos no GitHub. Esse framework foi projetado para ajudar desenvolvedores a implantar a série Qwen 2.5 de maneira mais econômica. Segundo a empresa, ao usar técnicas como extrapolação de comprimento e atenção esparsa (sparse attention), o framework pode processar entradas de 1 milhão de tokens com velocidades de três a sete vezes superiores aos métodos tradicionais.