Um projeto conjunto da USP, por meio do Centro de Inteligência Artificial (C4AI) e da IBM Research, está sendo desenvolvido com o uso da inteligência artificial (IA) para preservar e fortalecer as línguas indígenas brasileiras. Ainda em fase inicial, o objetivo é criar e desenvolver ferramentas com suporte da tecnologia que auxiliem a documentação, a preservação e o uso desses idiomas, em parceria com as comunidades de povos indígenas.
A partir de um contato pessoal que o vice-diretor do C4AI, Claudio Pinhanez, tinha com a comunidade indígena da Terra Indígena Tenonde Porã, no sul da cidade de São Paulo, a ideia do projeto foi iniciada há cerca de um ano, dentro da IBM Research. O professor, um dos líderes do projeto junto com a professora Luciana Storto, da Faculdade de Filosofia, Letras e Ciências Humanas (FFLCH) da USP, conta que viram na comunidade um lugar interessante para terem esse diálogo com a tecnologia.
“Como é que a gente mantém vivas essas línguas? No Brasil, a gente tem em torno de 200 línguas faladas hoje, e metade tem chance de desaparecer nos próximos 20 a 50 anos. Cada língua que se perde é como se tratorasse um sítio arqueológico. É a imagem que tem que fazer. Imagina que você tem um sítio arqueológico onde existe uma cultura e alguém passa o trator lá em cima. Isso é perder uma língua, é perder um jeito de pensar, um jeito de ver o mundo, o conhecimento sobre o mundo etc”, questiona Pinhanez.
Ele afirma que a língua morre quando os jovens param de falá-la. Esse projeto consegue ajudar, juntamente com a tecnologia, as línguas indígenas a se fortalecerem, a serem mais faladas, e pode ajudar linguistas a documentar aquelas que já estão em um processo mais avançado de extinção de uma maneira mais eficiente.
Parceria
Por isso, o projeto fez uma parceria com escolas dentro da comunidade da Terra Indígena Tenonde Porã. Embora as crianças e jovens da comunidade falem fluentemente a língua guarani mbya, e seja a língua primária deles, eles ainda apresentam dificuldades na parte escrita.
Dessa maneira, a comunidade e o centro de pesquisa decidiram fazer oficinas semanais de uma a duas horas com os estudantes e professores do ensino médio para desenvolver a escrita e o processo de documentação. “Eles entendem as nossas dificuldades, dão sugestões. É um processo que a gente está desenvolvendo. Temos um protótipo, ainda inicial, com funções básicas, mas a gente entende que ‘isso tem que estar no celular, isso tem que estar no computador'”, explica o vice-diretor do C4AI.
“Jovens de muitas dessas línguas estão na internet, a gente também tem que pensar como eles vão falar no WhatsApp, como eles vão falar essa língua nos vídeos deles no YouTube e assim por diante. Um deles é influencer no TikTok, o outro faz rap, tem rap em guarani no YouTube”, conta. Segundo ele, a internet não é acolhedora para uma linguagem indígena, porque a função de busca não funciona para a língua deles. “Fazer uma busca no YouTube não funciona, ele acha que é árabe, não acha que é a língua deles. Na hora de escrever, o WhatsApp fica tentando completar em português, em árabe, tudo menos na língua dele”, informa Pinhanez.
Inteligência Artificial
A inteligência artificial, por meio da área de Processamento de Linguagem Natural (PLN), auxiliará na construção de sistemas de conversão de fala para texto e vice-versa, no desenvolvimento de ferramentas de tradução e expansão de vocabulário, na melhoria de programas de coleta e análise linguística, como sistemas de transcrição fonética, tradução automática, análise gramatical e criação de dicionários digitais, além de utilizar essas línguas nas redes sociais e em conjunto com chatbots voltados para a educação dos povos indígenas e outros avanços tecnológicos que podem ser aplicados para a preservação das línguas nativas.
Ele destaca que tem um projeto bem ativo na área de processamento de texto e estão começando um projeto na área de síntese de texto para voz. “Quando a gente fala síntese de texto para voz, a gente está tentando levar o uso de computadores para as pessoas que falam a língua, mas não leem. Então, por exemplo, eu recebo uma mensagem de WhatsApp escrita, mas eu não leio, eu falo. Aperto o botão, transcreve naquela língua de texto para voz, ou para o menu de um computador, menu de um aplicativo ou website, porque isso é também um problema comum, em que metade das línguas no Brasil tem uma escrita relativamente estabelecida, mas a quantidade de indígenas que conseguem ler e escrever na sua própria língua é reduzido”, reforça o cientista.
A equipe do projeto está desenvolvendo um corretor ortográfico, completador de palavra, de sentença e tradutor, dado um modelo calibrado de IA, através de grandes modelos que foram tratados com milhões de frases de muitas línguas, além de calibrar com outros materiais que procuram no dicionário, nos websites e textos. “Eles riem do tradutor, brincam, ‘mas olha, acertou ali’. A gente vai encontrando a maneira, não é só a tecnologia, é como colocar essa tecnologia na mão desses jovens e depois de toda a comunidade”.
Próximos passos
Pinhanez observa que o site da FUNAI não é traduzido em nenhuma língua indígena, nem mesmo a Constituição Brasileira ou o Estatuto do Índio. “Não dá para falar em preservar uma língua, manter e fortalecer, sem criar instrumentos na internet, no mundo digital”, aponta. Além disso, ele espera que o próximo passo, que ainda não começaram a produzir, seja que essas comunidades continuem se desenvolvendo e, para isso, é preciso investigar como levar computação até eles, como treinar os jovens dessas comunidades a manterem as suas próprias ferramentas linguísticas, aprendendo computação.
“A ideia básica é fazer com que essas línguas fiquem mais fortes, ou seja, mais gente fale essas línguas. É lógico que o espectro das comunidades indígenas é muito grande, vai desde povos que tiveram pouquíssimo contato até povos que estão em ambientes urbanos, como esses guaranis, mas o caminho é sempre fortalecer. Não vamos deixar esse patrimônio se perder”, expõe.
Ele relembra um trecho da música do cantor e compositor Caetano Veloso, “Língua”, “só é possível filosofar em alemão”, fazendo uma comparação ao projeto. “A gente não sabe se alguma dessas línguas têm mecanismos, têm jeitos de representar as coisas que, por exemplo, ajude a gente a entender depressão, entender autismo, entender uma série de processos mentais. Pode ser que tenham jeitos melhores de pensar para certas situações da vida”, sugere.
O projeto percorrerá ainda um ou dois anos, estima o cientista, e os primeiros protótipos de pesquisa poderão ser testados no segundo semestre de 2023. Ele pretende usar desse trabalho para, futuramente, pensar em modelos de open source, para que outras comunidades repliquem para outras línguas no Brasil. Inicialmente, estão estudando outras localidades próximas a São Paulo e, por isso, não tem previsão de quantas e quais línguas serão incluídas dentro do projeto, além da língua guarani mbya.
A equipe é formada por pesquisadores, professores, alunos bolsistas, profissionais técnicos e estagiários. O projeto conta também com um bolsista de pós-doutorado, quatro bolsistas de graduação e um bolsista para auxílio técnico, apoiados por um projeto de pesquisa do C4AI, que conta com apoio da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp). Por parte da IBM Research, participam um engenheiro de software, um doutorando e dois estagiários de graduação.
Ele destaca que o C4AI e a IBM estão na busca ativa por mais pessoas que tenham interesse em integrar a equipe, entre elas: professores, profissionais, estudantes e alunos indígenas. A ideia é que o projeto conte com indígenas que atuem como professores, linguistas, programadores e profissionais de TI e tradutores.
Super Bots Experience
No evento Super Bots Experience, a contribuição do Brasil para o desenvolvimento de soluções de inteligência artificial será o tema de uma palestra especial de outro pesquisador do C4Ai, o professor Marcelo Finger, titular do departamento de Ciência da Computação do Instituto de Matemática e Estatística da USP. O Super Bots Experience acontecerá nos dias 1 e 2 de agosto, no WTC, em São Paulo. A agenda atualizada e mais informações estão disponíveis em www.botsexperience.com.br