Caracterização de Léxico Biomédico em um Corpus Sobre a COVID-19 em Língua Portuguesa
No presente estudo, buscamos compreender, do ponto de vista da língua de especialidade, o léxico biomédico de um corpus de textos científicos sobre COVID-19 em língua portuguesa. Além disso, o trabalho teve como objetivo fornecer subsídios que possibilitem identificar padrões na linguagem biomédica e que a posteriori poderão alimentar algoritmos de inteligência artificial no processo de detecção automática de padrões gramaticais e lexicais para auxiliar a máquina na identificação e diferenciação de conteúdo do domínio biomédico. Diante disso, na primeira fase do estudo, foi desenvolvido um novo indicador, Lex-BioMed (ASSIS et al., 2021), que se mostrou capaz de mensurar a distribuição das palavras de conteúdo biomédico por especialidade e gênero que compõem o corpus COVID-19 UFABC (LEITE et al., 2020). Durante o desenvolvimento do Lex-BioMed, identificamos uma alta frequência de sintagmas nominais com presença acumulada de modificadores adjetivais no corpus. Diante disso, iniciamos um estudo onde criamos um modelo estatístico capaz de mensurar a biomedicalidade contextual de um termo dentro do contexto em que está inserido. Na etapa final do trabalho, concluímos que o contexto em que os adjetivos (não biomédico neste caso) aparece é um fator importante na determinação da biomedicalidade, pois em nossos resultados se mostrou difusa se espalhando por todo eixo sintagmático, tornando esses contextos de exceção vinculados a estruturas de dependências. Para os adjetivos classificados como Intrínsecos neste estudo, observamos que prevaleceu a linearidade, o que já era esperado, pois a linguagem biomédica é considerada uma linguagem mais objetiva, com frases mais curtas, onde temos um compromisso maior de linearidade.