DETECÇÃO AUTOMÁTICA DE EXPRESSÕES COMPLEXAS EM TEXTOS NO DOMÍNIO DA SAÚDE EM LÍNGUA PORTUGUESA.
Esta pesquisa versa a respeito da detecção automática de expressões complexas em textos do domínio da Saúde em Língua Portuguesa. A detecção desses elementos lexicais compreende a primeira etapa do processo de simplificação lexical automática. O emprego de elementos lexicais desse tipo em conteúdos tende a potencializar os níveis de complexidade textual, acarretando impedimento de acesso ao conhecimento para uma parcela de leitores não especialista do domínio. Para tal fim, no decorrer da pesquisa, efetuou-se a comparação da amostra de corpora com diferentes gêneros textuais, sendo um relacionado ao gênero jornalístico e o seguinte relacionado ao gênero científico. A análise desses diferentes gêneros textuais, propiciou observar particularidades específicas e comuns a cada conjunto textual, bem como analisar quantitativamente a presença de determinados traços lexicais nesses contextos. Além do mais colaborou para a construção de um corpus biomédico, denominado nessa pesquisa como Covid-19 UFABC. A análise desses diferentes gêneros textuais com apoio da ferramenta NLTK submeteu-se a comparar textos sobre o Coronavírus. A elaboração da amostra dos corpora permitiu, também, extrair recursos que a posteriori alimentarão algoritmos de inteligência artificial no processo de detecção automática de expressões complexas.