O CEO da Scale AI, Alexandr Wang, reconhece que o mercado de inteligência artificial exauriu o uso de dados públicos e agora precisam de novas fontes de dados para treinar modelos de IA, algo que é um dos temas mais fortes no segmento da tecnologia hoje.
Durante o Cisco AI Summit nesta quarta-feira, 22, o executivo da empresa que fornece conjunto de dados para treino e inflexão de IA lembrou que o tema foi apresentado pela primeira vez no final do ano por Ilya Sutskever, cofundador da SSI e ex-cientista-chefe da OpenAI, que alertou para o fim da base de dados públicos em um fórum no final de 2024.
Com isso, o executivo da empresa acredita que o caminho está voltado para:
- O uso de dados primários de empresas e governos para o treinamento e inflexão de IA;
- O uso de conjunto de dados mais avançados que não estão ao acesso do público.
“Um conjunto de dados mais avançados que temos trabalhado é, por exemplo, ao pegar as anotações de um cientista líder em biotecnologia ou biologia. Ou seja, nós pegamos literalmente os dados brutos dos experimentos do trabalho em laboratório e tentamos treinar um modelo para derivar todos os insights e descobertas que um cientista com 40 anos de mercado seria capaz de identificar”, disse Wang.
“Estamos começando a empurrar os limites e as fronteiras. A traçar o caminho com dados para permitir que a IA avance na ciência, tecnologia e nos negócios. Mas obviamente, esses dados (avançados e/ou primários) não estariam disponíveis publicamente na Internet”, completou.
O CEO da Scale AI acredita que é válido o uso dados sintéticos (dados que não foram criados por humanos e que imitam dados do mundo real). Mas não devem ser vistos como uma “panaceia” ou “uma pedra filosofal” que vão resolver todos os problemas de falta de dados. Em sua visão, os dados reais (aferidos por humanos) valem ouro e os dados sintéticos podem ser uma estratégia para incrementar os dados reais para gerar resultados, algo que vê com seus clientes.
IA nas empresas
Outra questão que Wang alerta para as empresas que desejam investir em inteligência artificial é que a habilidade de medição do progresso da tecnologia está “limitada”, uma vez que as referências sobre inteligência artificial são de cinco anos atrás e precisam ser atualizadas. Também acredita que a dinâmica do mercado de IA está bem mais diferente que dois anos atrás, devido à alta competitividade.
“No começo do ano, nós dizíamos que GPT-4 era o modelo mais avançado existente, mas vimos crescer Google, Anthropic e Grok em poucos meses. O que é bom para o ecossistema. Por isso, o avanço em IA recai em como executar e pesquisar quais modelos são melhores no dia a dia”, disse.
O CEO da Scale AI acredita que as empresas precisam:
- Pensar que o setor é competitivo e que qualquer modelo pode ser bom em uma tarefa e outro modelo bom em outras.
- Considerar que viveremos em um mundo com multimodelos de IA nas empresas;
- e considerar que o mundo da IA será multimodal, a vantagem competitiva de uma empresa são os dados;
- Por isso, as empresas precisam avaliar como juntar o mercado competitivo de IA, os modelos que serão oferecidos em um marketplace e como colocar esse modelo em camada com meus dados e os meus problemas.
“Nós vemos que a jornada para a maioria das empresas olha para o curto ou longo prazo. Mas, no geral, eles tentam colocar modelos públicos e não funcionam. Isso acontece porque as empresas de modelos não sabem como o seu dado funciona”, disse, ao explicar que isso não é culpa dos LLMs, pois Google, OpenAI e Anthropic não sabem os dados de uma empresa, seus problemas e nem devem saber. “O que precisa acontecer é que cada empresa precisa entrar no seguinte loop: usar os dados próprios, treinar o modelo e colocar a aplicação em produção”.
Vale dizer, a Scale AI começou seus trabalhos como uma plataforma que juntava dados para treinamento de carros autônomos, mas avançou para o mercado de IA generativa em especial as plataformas de grandes modelos de linguagem (LLM), em especial a OpenAI desde o GPT-2 em 2019. Mais recentemente começou a trabalhar com grandes companhias que precisam organizar seus datasets, como a Cisco.
Imagem principal: Jeetu Patel, VP da Cisco (esq.) e Alexandr Wang, CEO da Scale AI (reprodução: Cisco AI Summit)