Supervisão Fraca para Reconhecimento de Entidades Nomeadas em Domínio Jurídico Brasileiro
O uso de modelos modernos de aprendizado de máquina em aplicações reais é frequentemente limitado pela escassez de dados anotados. Esses modelos exigem grandes volumes de dados rotulados, que raramente estão disponíveis. Essa indisponibilidade decorre do fato de se tratar, em geral, de tarefas muito específicas, nas quais os dados nunca foram anotados ou, quando foram, não podem ser disponibilizados devido à natureza sensível de seu conteúdo. Como solução, o comum é recorrer à anotação manual de dados, que, para domínios específicos, requer um especialista de domínio (Subject-Matter Expert - SME). Este método consiste na análise individual de cada dado pelo SME, seguida da atribuição manual de rótulos, o que é um processo lento e repetitivo. Nesse contexto, a supervisão fraca tem ganhado relevância como uma alternativa para otimizar este processo. Nessa abordagem, o SME desenvolve um conjunto de funções de rotulagem programáveis, que votam em rótulos para cada dado. Esses votos são então agregados por um modelo probabilístico denominado Label model, gerando a base de dados anotados. Esta base de dados é utilizada para treinamento de um End model, que executa a tarefa final nas aplicações reais. No domínio jurídico, com o crescimento da digitalização dos processos, temos ampla disponibilidade de dados não anotados, cuja anotação viabiliza a criação de diversas ferramentas de IA para aplicações reais, visando à modernização e automação de processos que ainda consistem em trabalhos manuais repetitivos. Uma ferramenta que foi criada a partir de anotação manual e que já está disponível é o reconhecedor de entidades nomeadas jurídicas treinado com o conjunto de dados chamado LeNER-Br. Ele identifica entidades de jurisprudência (menções a outros casos jurídicos) e de legislação (referências a leis), além de entidades de pessoa, tempo, local e organização. Portanto, este trabalho demonstrou que a anotação do conjunto de dados LeNER-Br por meio da supervisão fraca apresentou, na média, um F1-score somente 12 pontos percentuais inferior quando comparada à anotação manual. Adicionalmente, este trabalho também apresentou outras contribuições significativas, como: um conjunto de 17 funções de rotulagem para a língua portuguesa, com base nas principais técnicas encontradas na literatura; uma análise comparativa entre modelos de IA generativa aplicados à tarefa de NER no contexto jurídico brasileiro.