PPGINF PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO FUNDAÇÃO UNIVERSIDADE FEDERAL DO ABC Teléfono/Ramal: No informado http://propg.ufabc.edu.br/ppginfo

Banca de DEFESA: CAMILA DAS MERCÊS SILVA

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE : CAMILA DAS MERCÊS SILVA
DATA : 17/05/2024
HORA: 14:00
LOCAL: https://conferenciaweb.rnp.br/sala/andre-39
TÍTULO:

Classificação Automática e Análise de Explicabilidade para Especialidades Biomédicas em Artigos Científicos Sobre a COVID-19 em Português


PÁGINAS: 75
RESUMO:

Neste trabalho, estudamos a aplicação de cinco diferentes classificadores, sendo eles os classificadores Naive Bayes baseados nas distribuições multinomial e gaussiana, o Support Vector Classifier (SVC) e os modelos baseados em árvores de decisão Random Forest e eXtreme Gradient Boosting (XGBoost), para a classificação automática de artigos científicos de seis diferentes especialidades biomédicas em um corpus previamente adquirido sobre a COVID-19 em português brasileiro (CorpusCovid-19 UFABC). Estudamos também a explicabilidade global, com o uso do SHapley Additive exPlanations (SHAP), e a explicabilidade local, com o Local Interpretable Model-agnostic Explanations (LIME) para o algoritmo XGBoost. Esse corpus foi extraído da base PubMed com técnicas e métodos de Processamento de Linguagem Natural (PLN), e correspondem a textos científicos do início da pandemia. Os textos do corpus possuem especialidades biomédicas anotadas manualmente com base no título dos artigos, nome dos periódicos, palavras-chave e resumo. As features utilizadas foram o Term Frequency – Inverse Document Frequency (TF-IDF) de dois grupos diferentes: com todos os types dos textos em unigramas e bigramas, e com apenas os types biomédicos em suas raízes (stemming). Além disso, foram considerados os subgrupos para análise: todas as classes (CARDIOLOGIA, CIRURGIA, ENFERMAGEM, EPIDEMIOLOGIA, NEFROLOGIA e SAÚDE PÚBLICA), classes mais específicas (CARDIOLOGIA, CIRURGIA e NEFROLOGIA) e classes menos específicas (ENFERMAGEM, EPIDEMIOLOGIA e SAÚDE PÚBLICA). Os melhores resultados, para todos os grupos e subgrupos, foram obtidos pelo classificador XGBoost, que é o mais complexo do conjunto utilizado. Comparando os grupos, no geral, o uso de todos os types obteve maiores métricas em relação ao uso de apenas types biomédicos. Além disso, sobre os subgrupos, o melhor desempenho foi para as classes mais específicas, que são as de maior lexicalidade biomédica, seguido por todas as classes e o pior resultado foi para as classes menos específicas. Para a explicabilidade, os resultados sugerem que o XGBoost seja um bom classificador, em especial para classificação das especialidades CARDIOLOGIA, CIRURGIA e NEFROLOGIA, em que não há sobreposição das features mais importantes entre as classes e elas destacarem termos condizentes com as respectivas especialidades, em comparação às classes ENFERMAGEM, EPIDEMIOLOGIA e SAÚDE PÚBLICA, em que os atributos utilizados pelo classificador são preponderantemente não específicos de uma determinada especialidade ou são até mesmo da linguagem geral.



MEMBROS DA BANCA:
Presidente - Interno ao Programa - 2334927 - ANDRE KAZUO TAKAHATA
Membro Titular - Examinador(a) Interno ao Programa - 1761107 - RICARDO SUYAMA
Membro Titular - Examinador(a) Externo à Instituição - DENIS GUSTAVO FANTINATO - UNICAMP
Membro Suplente - Examinador(a) Interno ao Programa - 1544392 - ALINE DE OLIVEIRA NEVES PANAZIO
Membro Suplente - Examinador(a) Externo à Instituição - ANTONIO VALERIO NETTO
Notícia cadastrada em: 22/04/2024 10:36
SIGAA | UFABC - Núcleo de Tecnologia da Informação - ||||| | Copyright © 2006-2024 - UFRN - sigaa-1.ufabc.int.br.sigaa-1-prod