Medidas de complexidade sobre fluxos de dados com aplicação em desvio de conceito
O aprendizado de máquina tradicional é, muitas vezes, inviável para fluxos de dados devido a restrições de armazenamento e tempo de processamento. Nesses cenários, a distribuição dos dados pode mudar ao longo do tempo, um fenômeno conhecido como desvio de conceito, que afeta negativamente o desempenho dos modelos. Esta dissertação investiga o uso de medidas de complexidade, tradicionalmente aplicadas a dados estáticos, como uma abordagem para detectar desvios de conceito em fluxos de dados de maneira computacionalmente eficiente. Para isso, este trabalho propõe a adaptação e implementação de métricas de complexidade (F1, F2, F3, F4, Flv, N1, N2 e N3) para processamento em fluxo, utilizando abordagens de janela deslizante e incremental (online). São apresentados algoritmos eficientes para o cálculo de estatísticas descritivas em tempo real e uma arquitetura dinâmica baseada em Árvore Geradora Mínima Euclidiana (EMST) para as métricas de vizinhança. A validação da proposta será realizada por meio de experimentos em dados sintéticos e reais, comparando o desempenho da abordagem com métodos de detecção de desvio já estabelecidos, como DDM e ADWIN. A análise se concentrará na viabilidade computacional, avaliando o tempo de processamento e o uso de memória, e na eficácia da detecção.