Aprendizado ativo para agrupamento de dados com restrições
O interesse em aprendizado semissupervisionado tem crescido devido ao alto custo de
rotular dados para análise. Paralelamente, o Aprendizado Ativo (AA) visa minimizar o
custo da construção de bases de dados rotuladas, buscando identificar quais dados são
mais relevantes para o aprendizado, considerando o que já se tem disponível. Neste projeto,
será analisada a combinação de AA com aprendizado semissupervisionado, em especial
com Agrupamento de Dados com Restrições (ADR). Neste último tipo de aprendizado, em
vez de termos disponíveis rótulos de classe para um conjunto de objetos, somos informados
se alguns pares de objetos devem estar no mesmo grupo ou em grupos diferentes. Em
algumas aplicações, a identificação desse tipo de restrições envolve um custo reduzido já
que consiste em menos informação do que um rótulo de classe. Inicialmente, avaliaremos a
combinação de diferentes abordagens de AA com o aprendizado de Modelos de Mistura de
Gaussianas. Adicionalmente à essa avaliação, desenvolveremos um estudo de caso relativo
ao problema de classificação de plâncton. Apesar do alto custo de rotulação, este problema
é abordado em poucos trabalhos no contexto de AA. O objetivo deste estudo de caso é
avaliar os métodos desenvolvidos em uma aplicação real.