Desbalanceamento, sobreposição e classificação de dados com aplicação em detecção de fraudes em cartões de crédito.
As fraudes em cartões de crédito são um problema crescente na sociedade moderna, especialmente com o aumento das modalidades de compras e pagamentos online. Logo, há alta demanda para sistemas de prevenção e detecção de fraudes que sejam robustos e confiáveis. A tarefa de detecção de fraudes pode ser tratada como um problema de classificação e, neste contexto, múltiplos autores relatam dificuldades ao treinar os classificadores nos conjuntos de dados de fraudes, que possivelmente apresentam desbalanceamento e sobreposição entre as classes. Técnicas de pré-processamento de amostragem, como sobre-amostragem e sub-amostragem, são frequentemente utilizadas na fase de pré-processamento para tratar o problema do desbalanceamento. Por outro lado, métricas de avaliação como o R-Valor e o R-Valor Aumentado foram apresentadas nos últimos anos para medir o nível de sobreposição presente nos dados. Portanto, este trabalho se propõe a analisar os comportamentos de diferentes classificadores quando há utilização de técnicas de amostragem em conjuntos de dados sintéticos desbalanceados e sobrepostos, além de efetuar este estudo em aplicação real, para um conjunto de dados de fraudes em cartões de crédito, objetivamente medindo os efeitos nas métricas acima mencionadas e também nos desempenhos de classificação. Este trabalho, bem como outros autores apontaram por meio de estudos em diversos conjuntos de dados, demonstra que a utilização da métrica R-Valor Aumentado é mais apropriada em cenário de dados desbalanceados em comparação ao R-Valor. Entretanto, este trabalho conclui que, para os conjuntos de dados estudados, os resultados de classificação obtidos após a aplicação das técnicas escolhidas de amostragem não apresentaram diferenças significativas em relação a não aplicação das mesmas, reforçando ponto trazido por certos autores que, supostamente, o problema de sobreposição dos dados pode ser mais oneroso de lidar que o desbalanceamento. Outra questão trazida a tona por este estudo é a relação entre a dispersão observada dos dados de cada classe em relação ao desempenho de classificação dos estimadores. Além disso, aponta-se que os algoritmos de classificação baseados em árvores de decisão obtiveram resultados bons para o conjunto de dados real de fraudes, considerando as circunstâncias de alto desbalanceamento e classes sobrepostas significativamente.