Aprendizado de Máquina para Classificação de Portadores da Apolipoproteína E alelo ϵ4 em Idosos Saudáveis e com Doença de Alzheimer
A Doença de Alzheimer (DA) é predominantemente manifestada em idosos. Com o aumento da expectativa de vida, é esperado que a incidência da doença cresça com o tempo. Estudos mostram que a informação genética pode ser também um indicativo de tendência ao desenvolvimento da DA. Pessoas que são portadoras do alelo ε4 da Apolipoproteína E (APOE ε4) têm maior chance de desenvolverem DA. A Eletroencefalografia (EEG) é uma metodologia relativamente barata e não invasiva que pode ajudar no diagnóstico da doença. A análise de Potenciais Relacionados a Eventos (em inglês: Event-Related Potentials - ERP) é uma ferramenta de EEG amplamente difundida na literatura para auxiliar na identificação da DA. Recentemente, ela tem sido utilizada também para portadores do alelo APOE ε4, sejam pessoas com DA ou idosos saudáveis. Neste estudo, foi acrescentada a ferramenta de Perturbação Espectral Relacionada a Eventos (em inglês: Event-Related Spectral Perturbation - ERSP), inédita no que se refere a identificação de portadores do alelo APOE ε4. A extração das características de ERP e ERSP de um exame de EEG pode ser usada como atributos de classificadores com técnicas de Aprendizado de Máquina (em inglês: Machine Learning - ML). Este trabalho busca, através de dados coletados em estudo prévio, classificar indivíduos em diferentes grupos levando em conta se o mesmo tem ou não DA e é ou não portador do alelo APOE ε4. Utilizou-se a ferramenta EEGLAB para o pipeline de preparação de dados e extração das características (features), buscando diferenças estatisticamente significantes entre os grupos no teste auditory oddball a que foram submetidos. Também foi utilizado a linguagem de programação Python com auxílio da biblioteca scikit-learn, a fim de realizar rotinas de seleção de features e classificação dos indivíduos, com base nas features extraídas. Dos classificadores que utilizamos, identificamos uma maior precisão e vantagem técnica na utilização de Support Vector Machine (SVM), onde esse classificador alcançou melhores resultados na maioria das classificações se comparado aos outros dois algoritmos utilizados neste trabalho. Também trazemos como resultado a maior eficácia na utilização do ERSP em relação ao ERP quando se trata de precisão de ML. Quanto à seleção de features, podemos tirar conclusões sobre regiões cerebrais que mostram mais diferenças estatisticamente significantes nas classificações realizadas. Vimos que, tanto para ERP como para ERSP, os eletrodos de maior destaque são C3, PZ e O2. Um resultado interessante que esse trabalho também observou é que as diferenças estatisticamente significantes foram encontradas também no intervalo pré-estímulo (-500 a 0 ms), e não apenas no intervalo de 200 a 350 ms que é geralmente utilizado para estudos cognitivos. Também foi possível notar que, no ERSP, Alfa e Beta se destacaram como bandas que apresentaram a maioria das diferenças estatisticamente significantes entre os grupos estudados.