Avaliação de desempenho de LLMs multimodais ao identificar discurso ofensivo
Atualmente, grandes modelos de linguagem (LLMs, do inglês large language models) estão sendo empregados em diversos contextos relacionados a processamento de linguagem natural (PLN). Embora hajam trabalhos dedicados à identificação de discurso de ofensivo em conteúdo textual utilizando LLMs, a aplicação de modelos multimodais baseados em LLMs para realizar a tarefa de classificação em imagens ainda foi pouco explorada. Desta forma, é
proposta a construção de uma base de dados de imagens classificadas como neutras ou como “discurso ofensivo” e utilizá-la para avaliar o desempenho de modelos multimodais baseados em LLMs em tarefas de classificação de discurso ofensivo, traçando um comparativo entre os resultados obtidos, tanto por meio da classificação direta, utilizando apenas o modelo com capacidade de visão computacional (processamento de imagens), quanto por meio da conversão de imagem em texto e posterior classificação do conteúdo textual utilizando somente o modelo de linguagem mais simples.