Métodos baseados em Deep Learning para Síntese e Conversão de Voz
Em Síntese de Fala por conversão Texto-Fala é desejável que os sinais de fala sintetizados sejam naturais e inteligíveis. Já foram alcançados grandes avanços e propostas soluções capazes de sintetizar sinais de fala com expressividade, em especial, contendo emoção. No entanto, ainda existe dificuldade para fazer conversão de voz com informações como emoções, havendo problemas como confusão das emoções sintetizadas, e dificuldade para
transferir emoções sem que sejam enviadas, em conjunto, características pessoais do locutor. Uma solução recente para estes problemas foi proposta por Li T. et al. buscando aumentar a capacidade de diferenciação das emoções. No entanto em Li T. et al. 2020 foi utilizada uma base de dados própria, dificultando a reprodutibilidade de estudos relacionados a este tema. Além disso, requer o treino de um modelo de síntese, pois não é possível inserir as informações de estilo em modelos já treinados. Assim, neste trabalho são apresentadas algumas análises para esta solução utilizando bases de dados conhecidas, como a RAVDESS e a CREMA-D, e o uso do modelo já treinado Mellotron, que consegue utilizar informações explícitas da fala, as quais podem ser úteis para as tarefas analisadas.