Detecção de estruturas implícitas textuais por agrupamento hard
Com o grande aumento na disponibilidade de dados de várias áreas, há um interesse crescente na pesquisa de padrões em conjuntos de dados. Esses padrões podem ser usados para executar tarefas como agrupamento e classificação. A área de pesquisa de Aprendizado de Máquina (AM) apresenta vários algoritmos com o objetivo de realizar essas tarefas. No entanto, algumas fontes destes dados podem trazer variáveis (ou atributos) desnecessárias que podem comprometer a qualidade dos padrões extraídos e podem, por exemplo, prejudicar em tarefas de classificação, interferindo no valor de acurácia obtido pelo classificador. Neste trabalho é proposta uma representação de dados textuais incorporando taxas de ocorrências de palavras associadas a suas funções sintáticas utilizando tarefas de Processamento de Linguagem Natural (PLN), como o POS-Tagging. A partir dessa estrutura de dados obtida é proposta a atribuição de importância a grupos desses atributos para representar os textos. Utilizando primeiramente Aprendizado Não-supervisionado, é realizado o agrupamento hard das palavras com o algoritmo K-médias, reduzindo a complexidade da base de dados sem que informações importantes sejam perdidas, e após a definição do número de grupos ideal, pesos são atribuídos aos grupos de palavras. Com a abordagem de Aprendizado Supervisionado, é aplicada classificação nos textos, inicialmente com os atributos sendo as palavras previamente taggeadas, havendo uma etapa de otimização dos pesos dos atributos com o auxílio de um algoritmo de otimização baseada em população. Os resultados mostram que com esta estrutura de dados e com a abordagem de atribuição de pesos aos atributos houve uma melhora significativa em relação ao valor da acurácia na tarefa de classificação.