Classificação automática de especialidades médicas em artigos científicos sobre a COVID-19 em português brasileiro
Este trabalho propõe a classificação automática de artigos científicos por especialidades médicas num corpus sobre a COVID-19 em português brasileiro. O corpus foi previamente extraído da base Pubmed com técnicas e métodos de Processamento de Linguagem Natural (PNL) e traz especialidades anotadas manualmente nos textos com base em indicadores como: título dos artigos, nome dos periódicos, palavras-chaves e vocabulário dos abstracts. Classificadores bem avaliados podem não só reduzir este trabalho manual de anotação, como contribuir para atualizar o corpus. Foram testados cinco classificadores em textos das seis especialidades mais frequentes. Tiveram os melhores resultados o Support Vector Classifier (SVC) e o eXtreme Gradient Boosting (XGBoost).