Representação de sentenças jurídicas no contexto de agrupamento automático
A digitalização de documentos no setor judiciário brasileiro facilita o acesso à informação de interesse público. No entanto, para que seja possível levantar métricas de interesse deste crescente repositório informacional, é fundamental que se organizem os documentos de maneira a facilitar a recuperação de informações relevantes, e técnicas de aprendizado de máquina podem diminuir o esforço humano na organização de um grande corpus. Este trabalho analisa diferentes técnicas de aprendizado de máquina frente à quão bem associam termos jurídicos segundo especialistas humanos. Para isso, foi estruturada uma base de dados extraída do portal e-Saj composta de 40.009 documentos. Em seguida, as técnicas Word2Vec, FastText e GloVe foram treinadas nestes documentos, e os modelos que elas produziram foram comparados com contrapartes treinadas no domínio geral da língua portuguesa. O Tesauro Jurídico da Língua Portuguesa foi usado como referência para o conhecimento especialista. Os experimentos preliminares mostram que a técnica FastText produziu os modelos cuja associação entre termos mais se parece com aquela observada no Tesauro, e que os modelos treinados no domínio geral da língua portuguesa obtiveram desempenho superior na maioria das categorias de termos, embora essa diferença seja pequena em algumas categorias. Tais resultados iniciais sugerem que o aumento de documentos do corpus jurídico pode ser necessário para que modelos treinados neste contexto apresentem desempenho superior ao observado nos modelos treinados no contexto geral da língua portuguesa, mesmo em um corpus jurídico menor que o usado no domínio geral.