Desbalanceamento, Sobreposição e Classificação em Dados de Fraudes em Cartões de Crédito
As fraudes em cartões de crédito são um problema crescente na sociedade moderna, especialmente com o aumento das modalidades de compras e pagamentos online. Logo, há alta demanda para sistemas de prevenção e detecção de fraudes que sejam robustos e confiáveis. A tarefa de detecção de fraudes pode ser tratada como um problema de classificação e, neste contexto, múltiplos autores relatam dificuldades ao treinar os classificadores nos conjuntos de dados de fraudes, que possivelmente apresentam desbalanceamento e sobreposição entre as classes. Técnicas de pré-processamento de amostragem, como sobre-amostragem e sub-amostragem, são frequentemente utilizadas na fase de pré-processamento para tratar o problema do desbalanceamento. Por outro lado, métricas de avaliação como o \emph{R-Valor} e o \emph{R-Valor Aumentado} foram apresentadas nos últimos anos para medir o nível de sobreposição presente nos dados. Portanto, este trabalho se propõe a analisar os comportamentos de diferentes classificadores quando há utilização de técnicas de amostragem no conjunto de dados de fraudes em cartões de crédito, objetivamente medindo seus efeitos nas métricas acima mencionadas e também seus impactos no desempenho de classificação. Conforme trabalhos prévios com diversos conjuntos de dados demonstraram, a utilização da métrica \emph{R-Valor Aumentado} foi verificada como mais apropriada em cenário de dados desbalanceados em comparação a \emph{R-Valor}. Entretanto, este trabalho conclui que, para o conjunto de dados estudado, os resultados de classificação obtidos após a aplicação das técnicas escolhidas de amostragem não apresentaram diferenças significativas em relação a não aplicação das mesmas, reforçando ponto trazido por certos autores que, supostamente, o problema de sobreposição dos dados pode ser mais oneroso de lidar que o desbalanceamento. Além disso, aponta-se que os algoritmos de classificação baseados em árvores de decisão obtiveram resultados bons para este conjunto de dados, considerando as circunstâncias de alto desbalanceamento e classes sobrepostas significativamente.