Estratégias de Combinação de Múltiplas Representações de Texto para Melhorar a Classificação de Documentos
Algoritmos de aprendizado de máquina e processamento de linguagem natural são capazes de aprender padrões em textos e extrair informação. Contudo, eles dependem da forma em que os textos são representados computacionalmente para poderem ser processados. Circunstância na qual pode ser um problema se o método utilizado para representar os documentos não for capaz de condensar todas as características contidas no texto. Por outro lado, o aprendizado com múltiplas visões, para problemas de classificação de textos, tem como objetivo explorar as informações contidas nas diferentes formas de representar um documento, partindo do princípio que cada uma delas consegue extrair uma ou mais características de um documento. Entretanto, explorar de forma eficiente as informações complementares entre diferentes visões apresenta um desafio para a área de aprendizado com múltiplas visões tanto em termos de eficiência computacional quanto de capacidade de aquisição de informação. Utilizando algoritmos de otimização de combinações, é possível identificar que existem combinações de diferentes visões com capacidade de aumentar a acurácia da classificação de textos. Desta forma, surge o seguinte questionamento: O que faz com que visões diferentes sejam complementares? Como duas visões podem contribuir para um aumento de acurácia? Sendo assim, o presente trabalho propõe estratégias de identificação de combinação de múltiplas visões, com intuído de melhorar a acurácia da classificação de textos.