FUNDAMENTAÇÃO E ELABORAÇÃO DE CORPUS DE LINGUAGEM ESPECIALIZADA PARA DOMÍNIO DA SAÚDE EM PORTUGUÊS BRASILEIRO SOBRE A COVID-19
Esta dissertação propõe-se a apresentar a fundamentação teórica e o processo metodológico que nortearam a elaboração do corpus COVID-19 UFABC. O corpus aqui proposto compõe-se de textos de linguagem especializada do domínio da saúde em língua portuguesa publicados entre os meses de março de 2020 a setembro de 2020, período inicial da pandemia. À época indicada, o conhecimento a respeito do coronavírus era inicialmente restrito à comunidade acadêmica especializada e, em consequência disso, a difusão de conhecimento acerca do COVID-19 e dos seus protocolos de prevenção, como o isolamento social, desempenhou papel de protagonismo no enfrentamento da pandemia. Dessa forma, os conteúdos veiculados nesse contexto continham termos importados de domínios especializados, contendo palavras complexas que trazem ao leitor leigo ou pouco familiarizado com o jargão médico dificuldade em decodificar tais informações. Essa dissertação, portanto, apresenta esforços de um primeiro estudo para elaboração de recursos para viabilizar pesquisas em tarefas de simplificação lexicais e identificação de palavras complexas no contexto de combate à COVID-19 por meio do desenvolvimento do Corpus proposto. A metodologia baseou-se na extração, compilação, armazenamento e categorização de textos da base de dados científicos Pubmed, resultando em 254 textos. O processo de categorização indicou prevalência de cerca de 30% para textos relacionados às áreas de Saúde Coletiva e Epidemiologia, em detrimento de outras especialidades médicas e áreas mais exploratórias de pesquisa que tratam de virologia ou genômica, refletindo os padrões de um recorte do comportamento da comunidade científica na pandemia, em especial no que concerne as publicações em língua portuguesa.