A Microsoft lançou recentemente uma nova ferramenta que permite que qualquer LLM atue como agente que controla o computador do usuário Windows e o navegador. Na prática, a pessoa descreve o que quer no prompt e o assistente virtual realiza a tarefa.

O OmniParser ‘tokeniza’ capturas de tela da interface do usuário, transformando o espaço de pixels em elementos estruturados que podem ser interpretados pelos LLMs. Ou seja, ele é capaz de analisar a tela e converter capturas de tela da UI (interface do usuário) em elementos estruturados. Isso permite que os grandes modelos de linguagem realizem a previsão da próxima ação com base na recuperação de elementos interativos previamente analisados.

De acordo com estudos da Microsoft, o OmniParser V2 atinge maior precisão na detecção de pequenos elementos interativos na tela, na comparação com a versão anterior, e oferece interferência mais veloz. Neste caso, ele acaba se tornando uma ferramenta para a automação de interfaces gráficas de usuário (GUI).

Exemplos do OmniParser V2

Em um dos vídeos apresentados, é possível ver o agente de IA acessar o navegador e comprar leite; clonar o repositório do GitHub via navegador; verificar o espaço em disco do computador ; e checar atualizações do Windows.

Em um outro vídeo, o agente converte a interface de usuário em “caixas”, identifica essas caixas com rótulo, identifica o código código, entre outras atividades.

O OmniParser V2 foi treinado com um conjunto maior de dados para detecção de elementos interativos e para legendagem funcional de ícones. Ao reduzir o tamanho da imagem do modelo de legendagem de ícones, o OmniParser V2 diminui a latência em 60% em relação à versão anterior. A combinação OmniParser + GPT-4o atingiu uma precisão média de ponta de 39,6 em um novo benchmark de ancoragem, o ScreenSpot Pro, que apresenta telas de alta resolução e ícones-alvo minúsculos. Isso representa uma melhoria substancial em relação à pontuação original do GPT-4o, que era de 0,8.

O OmniParser pode ser utilizado com diversos LLMs: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) e Anthropic (Sonnet), combinando as etapas de compreensão de tela, ancoragem, planejamento de ações e execução.

Mitigação de riscos

A Microsoft fez a mitigação de riscos treinando o modelo de legendagem de ícones com dados de IA Responsável, ajudando a evitar que o modelo infira atributos sensíveis (como raça, religião etc.) de indivíduos que, por acaso, apareçam em imagens de ícones. Além disso, a empresa incentiva os usuários a aplicar o OmniParser apenas em capturas de tela que não contenham conteúdo prejudicial. A empresa, de todo modo, recomenda a supervisão de um humano para mitigar os riscos.

Disponibilidade

A Microsoft disponibilizou o OmniParser publicamente no GitHub, juntamente com um relatório sobre o procedimento de treinamento, para incentivar pesquisas sobre a criação de agentes que possam operar em diferentes aplicativos e ambientes.

 

*********************************

Receba gratuitamente a newsletter do Mobile Time e fique bem informado sobre tecnologia móvel e negócios. Cadastre-se aqui!