Portal de Programas de Pós-Graduação (UFABC)

SIGAA - Sistema Integrado de Gestão de Atividades Acadêmicas

PPGCCM PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO FUNDAÇÃO UNIVERSIDADE FEDERAL DO ABC Telefone/Ramal: Não informado E-mail: poscomp@ufabc.edu.br http://propg.ufabc.edu.br/ppgccm

Banca de DEFESA: LUCAS KENZO KUROKAWA

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE : LUCAS KENZO KUROKAWA
DATA : 23/06/2025
HORA: 16:00
LOCAL: https://meet.google.com/ptw-oagg-ukp
TÍTULO:

Supervisão Fraca para Reconhecimento de Entidades Nomeadas em Domínio Jurídico Brasileiro

PÁGINAS: 125
RESUMO:

O uso de modelos modernos de aprendizado de máquina em aplicações reais é frequentemente limitado pela escassez de dados anotados. Esses modelos exigem grandes volumes de dados rotulados, que raramente estão disponíveis. Essa indisponibilidade decorre do fato de se tratar, em geral, de tarefas muito específicas, nas quais os dados nunca foram anotados ou, quando foram, não podem ser disponibilizados devido à natureza sensível de seu conteúdo. Como solução, o comum é recorrer à anotação manual de dados, que, para domínios específicos, requer um especialista de domínio (Subject-Matter Expert - SME). Este método consiste na análise individual de cada dado pelo SME, seguida da atribuição manual de rótulos, o que é um processo lento e repetitivo. Nesse contexto, a supervisão fraca tem ganhado relevância como uma alternativa para otimizar este processo. Nessa abordagem, o SME desenvolve um conjunto de funções de rotulagem programáveis, que votam em rótulos para cada dado. Esses votos são então agregados por um modelo probabilístico denominado Label model, gerando a base de dados anotados. Esta base de dados é utilizada para treinamento de um End model, que executa a tarefa final nas aplicações reais. No domínio jurídico, com o crescimento da digitalização dos processos, temos ampla disponibilidade de dados não anotados, cuja anotação viabiliza a criação de diversas ferramentas de IA para aplicações reais, visando à modernização e automação de processos que ainda consistem em trabalhos manuais repetitivos. Uma ferramenta que foi criada a partir de anotação manual e que já está disponível é o reconhecedor de entidades nomeadas jurídicas treinado com o conjunto de dados chamado LeNER-Br. Ele identifica entidades de jurisprudência (menções a outros casos jurídicos) e de legislação (referências a leis), além de entidades de pessoa, tempo, local e organização. Portanto, este trabalho demonstrou que a anotação do conjunto de dados LeNER-Br por meio da supervisão fraca apresentou, na média, um F1-score somente 12 pontos percentuais inferior quando comparada à anotação manual. Adicionalmente, este trabalho também apresentou outras contribuições significativas, como: um conjunto de 17 funções de rotulagem para a língua portuguesa, com base nas principais técnicas encontradas na literatura; uma análise comparativa entre modelos de IA generativa aplicados à tarefa de NER no contexto jurídico brasileiro.

MEMBROS DA BANCA:
Presidente - Interno ao Programa - 334.489.048-48 - THIAGO FERREIRA COVOES - UFABC
Membro Titular - Examinador(a) Interno ao Programa - 1918407 - DEBORA MARIA ROSSI DE MEDEIROS
Membro Titular - Examinador(a) Interno ao Programa - 1932365 - FABRICIO OLIVETTI DE FRANCA
Membro Titular - Examinador(a) Externo à Instituição - LUÍS PAULO FAINA GARCIA - UNB
Membro Suplente - Examinador(a) Interno ao Programa - 1934625 - JESUS PASCUAL MENA CHALCO
Membro Suplente - Examinador(a) Externo à Instituição - DENIS GUSTAVO FANTINATO - UNICAMP

Notícia cadastrada em: 06/06/2025 08:39