Erro perceptivo-auditivo de vozes humanas e sintetizadas

Erro perceptivo-auditivo de vozes humanas e sintetizadas

Autor Englert, Marina Taborda Autor UNIFESP Google Scholar
Orientador Behlau, Mara Suzana Behlau Autor UNIFESP Google Scholar
Instituição Universidade Federal de São Paulo (UNIFESP)
Pós-graduação Distúrbios da Comunicação Humana (Fonoaudiologia)
Resumo Introdução: A análise perceptivo-auditiva é considerada padrão ouro para avaliação das disfonias, apesar da reconhecida variabilidade inter-indivíduos. O uso de treinamento auditivo e estímulos âncora, especialmente com vozes sintetizadas, que têm propriedades acústicas conhecidas e manipuláveis, aumentam a confiabilidade dessa avaliação. No entanto, esses estímulos precisam soar naturais. Objetivo: Verificar a qualidade de vozes sintetizadas por meio da habilidade de fonoaudiólogos e leigos em discriminar vozes humanas e produzidas pelo sintetizador VoiceSim, com tipo e grau de desvio variados. Métodos: Foram selecionados 36 estímulos da emissão da vogal ?é? sustentada, 18 humanos e 18 sintetizados, em igual número por sexo. Vozes humanas: três fonoaudiólogos selecionaram amostras rugosas, soprosas e tensas, com diferentes graus de desvio, da database de uma clínica vocal. Amostras sintetizadas: empregado o sistema VoiceSim que produziu amostras com os mesmos desvios das vozes humanas, manipulando-se os parâmetros de perturbação de frequência para produzir rugosidade, adição de ruído para produzir soprosidade e aumento da tensão e diminuição da separação entre as pregas vocais para produzir tensão. Participaram como ouvintes 269 indivíduos, divididos em três grupos para comparar a percepção entre sujeitos com diferentes experiências auditivas; fonoaudiólogos especialistas em voz ? FV, fonoaudiólogos clínicos gerais - FG e leigos ? IL, todos identificaram as amostras, com 50% de repetição, como sendo humana ou sintetizada; FV e FG também classificaram o grau de desvio (normal, leve, moderado ou intenso) e tipo de voz predominante (rugosa, soprosa ou tensa). Desses 269 ouvintes, 99 foram excluídos por não serem consistentes; assim, mantiveram-se 170 sujeitos (58 FV, 51 FG e 61 IL). Resultados: Os ouvintes erraram 39,3% das identificações, tanto vozes sintetizadas foram identificadas como humanas (42,3%) como vozes humanas foram identificadas como sintetizadas (36,4%) com diferença estatisticamente significante (p=0,001). FV produziu a menor porcentagem de erros em relação à natureza das vozes (34,6%); FG e IL identificaram quase metade das vozes sintetizadas como humanas (46,9% e 45,6%). As vozes masculinas, humanas ou sintetizadas, foram mais suscetíveis a erro de identificação, independente do tipo ou grau de desvio, sendo que as soprosas sintetizadas foram as que geraram maior confusão perceptiva; as vozes com desvio intenso parecem ser mais suscetíveis a erro; vozes humanas femininas e tensas sintetizadas apresentaram menor porcentagem de erros. IL apresentou maior confusão perceptivo-auditiva que os demais grupos e FV identificou melhor as vozes sintetizadas. Os fonoaudiólogos classificaram corretamente quase todos os tipos de desvios vocais sintetizados nas vozes femininas; para as vozes masculinas isso aconteceu apenas para a rugosidade; a soprosidade e tensão masculinas foram classificados quase sempre como rugosidade. Houve fator de aprendizagem apenas no grupo FV, que identificou mais corretamente as últimas vozes apresentadas. Conclusão: O sintetizador mostrou-se bom, pois produziu vozes com caraterísticas muito similares às de pacientes disfônicos, confundindo todos os grupos de ouvintes. FV teve melhor habilidade em identificar corretamente a natureza das vozes provavelmente por ser o grupo dos especialistas. O sintetizador mostrou-se mais natural para simular o desvio vocal de soprosidade e simulou bem os tipos de desvios vocais femininos. No entanto, para a voz masculina, será necessário ajustar a simulação de soprosidade e tensão, que foram identificados como rugosidade.
Assunto voz
distúrbios da voz
percepção auditiva
avaliação
acústica da fala
processamento de sinais
Idioma Português
Data 2016-01-03
Publicado em ENGLERT, Marina Taborda. Erro perceptivo-auditivo de vozes humanas e sintetizadas. 2016. 89 f. Dissertação (Mestrado) - Escola Paulista de Medicina, Universidade Federal de São Paulo (UNIFESP), São Paulo, 2016.
Linha de pesquisa Fonoaudiologia
Área de concentração Ciências da saúde
Editor Universidade Federal de São Paulo (UNIFESP)
Extensão 89 p.
Fonte https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=3045826
Direito de acesso Acesso restrito
Tipo Dissertação de mestrado
URI http://repositorio.unifesp.br/handle/11600/49044

Mostrar registro completo




Arquivos deste item

Arquivos Tamanho Formato Visualização

Não existem arquivos associados a este item.

Este item aparece na(s) seguinte(s) coleção(s)