Benefícios da utilização de large language models em português brasileiro para tarefas de natural language processing
Este trabalho traz uma abordagem de metrificação de alinhamento cultural dos grandes modelos de linguagem (LLMs, do inglês Large Language Models), no contexto português brasileiro, por meio de uma análise comparativa entre diversos modelos de LLM especializados em português Brasileiros e os LLMs mais conhecidos e utilizados. Para isso, são utilizadas as seis dimensões culturais do modelo de Hofstede, aplicando 24 perguntas para os modelos e solicitando que eles criassem uma persona brasileira para responder às perguntas, de modo que fosse possível comparar as respostas do modelo com a de uma pessoa real. Para essa comparação foram utilizadas métricas como o RMSE e a distância euclidiana. Os resultados mostram que, apesar da disparidade entre os investimentos e a capacidade computacional, o Sabiá 3.1 trouxe resultados mais próximos com os valores culturais brasileiros, sendo um forte indicativo de que o uso de dados locais pode favorecer o alinhamento cultural em LLMs.