Representação de sentenças jurídicas no contexto de agrupamento automático
A digitalização de documentos no setor judiciário brasileiro facilita o acesso à informação de interesse público. No entanto, para que seja possível levantar métricas de interesse deste crescente repositório informacional, é fundamental que se organizem os documentos de maneira a facilitar a recuperação de informações relevantes, e técnicas de aprendizado de máquina podem diminuir o esforço humano na organização de um grande corpus. Este trabalho analisou diferentes técnicas de aprendizado de máquina frente à quão bem associam termos jurídicos segundo especialistas humanos. Para isso, desenvolvemos um web scraper, software que consolida conteúdos online, para criar um corpus de sentenças jurídicas de primeira instância. Este corpus é composto de 40.009 documentos, o que totaliza 24.139.185 tokens. As técnicas FastText, GloVe e Word2Vec foram avaliadas frente à sua capacidade de associar termos de acordo com o Tesauro Jurídico do Supremo Tribunal Federal (TSTF). Elas foram comparadas quando treinadas tanto no domínio geral da língua portuguesa, quanto no domínio jurídico. O modelo FastText de domínio geral foi o que apresentou a maior similaridade entre os termos associados segundo o TSTF. Apesar disso, o FastText de domínio jurídico apresentou desempenhos comparáveis ou superiores aos modelos GloVe e Word2Vec de domínio geral. Avaliamos também as técnicas FastText, GloVe, Word2Vec, Doc2Vec e hashing trick na tarefa de agrupamento de sentenças jurídicas de primeira instância frente ao assunto a que pertencem. Comparamos os modelos treinados tanto no domínio geral quanto no domínio jurídico usando a V-Measure média e seu desvio-padrão. Concluímos que o FastText de domínio jurídico treinado em 300 dimensões apresentou resultados equivalentes ou superiores aos modelos de domínio geral. Observamos também que a escolha da técnica possui influência maior do que a escolha de hiper-parâmetros na determinação do desempenho. Outro fator analisado neste trabalho foi a semelhança dos documentos de diferentes assuntos. Usamos nesta análise o melhor modelo produzido no domínio jurídico: o FastText de 300 dimensões. Concluímos que apesar da incerteza da própria representação criada pelo modelo, parecem haver documentos de diferentes assuntos que são muito similares entre si. Avaliamos ainda o aumento de desempenho conferido pelo volume de documentos jurídicos no processo de treinamento, e verificamos que a partir de aproximadamente 800.000 tokens, que equivalem a aproximadamente de 1500 sentenças, os aumentos de desempenho marginal do FastText de 300 dimensões é decrescente. A adição de mais documentos do mesmo corpus confere ganhos de desempenho incrementalmente muito pequenos, sendo que o custo computacional parece crescer mais rápido que a V-Measure.