PPGINF PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO FUNDAÇÃO UNIVERSIDADE FEDERAL DO ABC Telefone/Ramal: Não informado http://propg.ufabc.edu.br/ppginfo

Banca de DEFESA: EDUARDO HENRIQUE DOS SANTOS MARQUES

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE : EDUARDO HENRIQUE DOS SANTOS MARQUES
DATA : 29/05/2024
HORA: 10:00
LOCAL: Híbrido: Sala R701-1 e link: https://meet.google.com/onc-krbe-ers
TÍTULO:

Metodologia de baixo custo para Transferência de Estilo em Sistemas TTS


PÁGINAS: 85
RESUMO:

Em Síntese de Fala por conversão Texto-Fala já foram alcançados grandes avanços e propostas soluções capazes de sintetizar sinais de fala com expressividade, em especial, contendo emoção. No entanto, quando consideramos métodos baseados em conversão de voz, ainda existem problemas como confusão entre classes de emoção na fala sintetizada, e dificuldade para transferir emoções sem que sejam conjuntamente enviadas informações do locutor. Uma solução recente para estes problemas, proposta por Li T. et al., foi aumentar a capacidade de diferenciação das emoções através de um classificador de emoção adicionado ao encoder. No entanto, foi utilizado uma base de dados própria, em língua chinesa, dificultando a reprodutibilidade de estudos relacionados a este tema. Além disso, no cenário apresentado seria necessário o treino de um modelo de síntese, pois não é possível inserir as informações de estilo em modelos já treinados. Assim, neste trabalho são apresentadas algumas análises para esta solução utilizando bases de dados conhecidas, como as bases de dados TESS, RAVDESS e CREMA-D, em língua inglesa, e o uso do modelo Mellotron, pré-treinado, que, além disso, consegue utilizar informações explícitas da fala, as quais podem ser úteis para as tarefas analisadas. Deste modo, foram realizados testes adicionando ao modelo pré-treinado um encoder para emoções, e ajustando-o para a tarefa de conversão de voz com emoções, a partir das bases de dados TESS, RAVDESS e CREMA-D. Em seguida foi verificada a capacidade de transferência de emoção por meio de um classificador de emoção e da visualização, em espaço de características, das classes de emoção presentes. Para esta tarefa nas base de dados TESS e RAVDESS foi obtida uma acurácia em torno de 35% para um subconjunto de 4 classes, mostrando que é possível realizar a tarefa, embora o desempenho alcançado não seja satisfatório. Por sua vez, na base de dados CREMA-D foi obtido um valor de acurácia em torno 25%, portanto não garantindo a efetividade do método. Uma explicação para o baixo desempenho é o equilíbrio necessário entre inteligibilidade e acurácia na classificação de emoção sintetizada.


MEMBROS DA BANCA:
Presidente - Interno ao Programa - 2356637 - KENJI NOSE FILHO
Membro Titular - Examinador(a) Interno ao Programa - 1761107 - RICARDO SUYAMA
Membro Titular - Examinador(a) Externo à Instituição - ROMIS RIBEIRO DE FAISSOL ATTUX - UNICAMP
Membro Suplente - Examinador(a) Interno ao Programa - 1671282 - CLAUDIO JOSE BORDIN JUNIOR
Membro Suplente - Examinador(a) Externo ao Programa - 1671396 - IRINEU ANTUNES JUNIOR
Notícia cadastrada em: 09/05/2024 14:56
SIGAA | UFABC - Núcleo de Tecnologia da Informação - ||||| | Copyright © 2006-2024 - UFRN - sigaa-1.ufabc.int.br.sigaa-1-prod