Agrupamento de Questões do ENEM Usando Técnicas de Processamento de Linguagem Natura
Desde a sua concepção, o Processamento de Linguagem Natural (PLN) desempenha um papel fundamental ao permitir que computadores interpretem textos. Nas últimas décadas, a demanda por essa capacidade tem crescido exponencialmente devido ao imenso volume de informações digitais disponíveis. Diante desse contexto, o objetivo deste estudo é agrupar questões de múltipla escolha, garantindo a sua universalidade. Para isso, optou-se por utilizar as provas do Exame Nacional do Ensino Médio (ENEM), as quais são aplicadas em todo o país, abrangendo candidatos de diversas regiões e culturas. Vale ressaltar que as questões devem ser compreensíveis tanto para candidatos em áreas remotas da Região Norte quanto para aqueles em bairros nobres de São Paulo. Para validar o método proposto, foram geradas questões parametrizadas e um conjunto de textos utilizando o ChatGPT. Essas bases foram então numerizadas utilizando técnicas como Word2Vec, Wang2Vec, FastText e GloVe, em 35 configurações distintas, e posteriormente agrupadas por meio dos algoritmos DBSCAN, K-means e Affinity Propagation (AP). A avaliação dos resultados foi realizada utilizando o método F1-Score, revelando que o método GloVe, com 100 ou 300 posições, associado ao algoritmo AP, apresentou um desempenho superior em relação aos demais, permitindo a representação e o agrupamento das questões do ENEM com uma acurácia de 64%, cumprindo assim o objetivo inicial deste estudo.