Classificação Automática e Análise de Explicabilidade para Especialidades Biomédicas em Artigos Científicos Sobre a COVID-19 em Português
Neste trabalho, estudamos a aplicação de cinco diferentes classificadores, sendo eles os classificadores Naive Bayes baseados nas distribuições multinomial e gaussiana, o Support Vector Classifier (SVC) e os modelos baseados em árvores de decisão Random Forest e eXtreme Gradient Boosting (XGBoost), para a classificação automática de artigos científicos de seis diferentes especialidades biomédicas em um corpus previamente adquirido sobre a COVID-19 em português brasileiro (CorpusCovid-19 UFABC). Estudamos também a explicabilidade global, com o uso do SHapley Additive exPlanations (SHAP), e a explicabilidade local, com o Local Interpretable Model-agnostic Explanations (LIME) para o algoritmo XGBoost. Esse corpus foi extraído da base PubMed com técnicas e métodos de Processamento de Linguagem Natural (PLN), e correspondem a textos científicos do início da pandemia. Os textos do corpus possuem especialidades biomédicas anotadas manualmente com base no título dos artigos, nome dos periódicos, palavras-chave e resumo. As features utilizadas foram o Term Frequency – Inverse Document Frequency (TF-IDF) de dois grupos diferentes: com todos os types dos textos em unigramas e bigramas, e com apenas os types biomédicos em suas raízes (stemming). Além disso, foram considerados os subgrupos para análise: todas as classes (CARDIOLOGIA, CIRURGIA, ENFERMAGEM, EPIDEMIOLOGIA, NEFROLOGIA e SAÚDE PÚBLICA), classes mais específicas (CARDIOLOGIA, CIRURGIA e NEFROLOGIA) e classes menos específicas (ENFERMAGEM, EPIDEMIOLOGIA e SAÚDE PÚBLICA). Os melhores resultados, para todos os grupos e subgrupos, foram obtidos pelo classificador XGBoost, que é o mais complexo do conjunto utilizado. Comparando os grupos, no geral, o uso de todos os types obteve maiores métricas em relação ao uso de apenas types biomédicos. Além disso, sobre os subgrupos, o melhor desempenho foi para as classes mais específicas, que são as de maior lexicalidade biomédica, seguido por todas as classes e o pior resultado foi para as classes menos específicas. Para a explicabilidade, os resultados sugerem que o XGBoost seja um bom classificador, em especial para classificação das especialidades CARDIOLOGIA, CIRURGIA e NEFROLOGIA, em que não há sobreposição das features mais importantes entre as classes e elas destacarem termos condizentes com as respectivas especialidades, em comparação às classes ENFERMAGEM, EPIDEMIOLOGIA e SAÚDE PÚBLICA, em que os atributos utilizados pelo classificador são preponderantemente não específicos de uma determinada especialidade ou são até mesmo da linguagem geral.