Aprendizagem ativa em fluxo de dadoscom latência de verificação intermediária
Um fluxo de dados possui diversas características desafiadoras para os algoritmos
clássicos de aprendizagem de máquina tais como os fenômenos de mudança e evolução
de conceito, que são caracterizados pela mudança na distribuição dos dados e do
surgimento de novas classes ao longo do fluxo de dados respectivamente. Em diversas
aplicações de mineração de dados a obtenção dos rótulos verdadeiros é uma tarefa
custosa, e tal tarefa se torna ainda mais desafiadora em um fluxo de dados. A chegada
contínua de dados ao longo do fluxo produz uma enorme quantidade de exemplos e,
portanto, assumir que todos os exemplos terão seus respectivos rótulos disponibilizados
é irrealista. Além disso, considerando um cenário realista, nem sempre é factível que
os rótulos verdadeiros sejam disponibilizados de modo imediato, como é comumente
assumido na maioria das abordagens encontradas na literatura, levando a um atraso
na chegada dos rótulos verdadeiros com relação aos exemplos correspondentes, o
que é denominado verificação de latência intermediária. Portanto, um classicador
incremental imerso em tal ambiente, tem seu conhecimento denegrido ao longo do
fluxo de dados devido aos fenômenos de mudança e evolução de conceito e, portanto,
se torna necessária a sua atualização de tempos em tempos para a manutenção de sua
perfomance. Em meio a tais desafios, este trabalho tem por objetivo o desenvolvimento
de um framework que, para um classificador incremental especificado, seja capaz de
selecionar os exemplos oriundos do fluxo de dados, através de uma estratégia em
aprendizagem ativa, que tenham maior contribuição na atualização do conhecimento
de tal classificador incremental em um cenário de verificação de latência intermediária.