Sintese de voz a partir de texto para a lingua portuguesa

Francisco Egashira

Este trabalho descreve os procedimentos e critérios utilizados na implementação de um sistema de conversão texto-voz para a Língua Portuguesa. O objetivo deste sistema é realizar uma síntese de voz de vocabulário irrestrito a partir de um texto de entrada genérico. A geração de uma voz de boa qualidade, segundo critérios de inteligibilidade e naturalidade, exige que diversas etapas de processamento sejam realizadas, visando reproduzir os mesmos processos existentes na produçlo de fala natural. Neste trabalho, apenas alguns módulos foram implementados, por se tratar de um estudo inicial visando estabelecer um primeiro contato com a área. O método de síntese utilizado é o de concatenação, tendo como unidade básica o difone. O difone é o elemento resultante da combinação de dois fones, limitado pela região estável dos fones e contendo a transição completa entre eles. Um dicionário de dlfones de cerca de 1000 elementos permite que a síntese de um texto de vocabulário irrestrito possa ser realizada. A geração de voz a partir de texto, exige que os sons associados aos símbolos e letras existentes no texto sejam determinados. Isto é realizado pelo módulo de conversão ortográfica-fonética. A fim de prover maior naturalidade à voz sintetizada, uma variação correta dos parâmetros prosódicos- duração, freqüência fundamental e amplitude- deve ser realizada. Neste trabalho, apenas algumas regras simples de controle da duração são consideradas. Uma placa baseada no processador de sinais TMS320C30 é utilizada para realizar a síntese do sinal de voz. Isto permite que a síntese possa ser realizada em tempo real

Sintese de voz a partir de texto para a lingua portuguesa

AUTOR(ES)

DATA DE PUBLICAÇÃO

RESUMO

ASSUNTO(S)

ACESSO AO ARTIGO

Documentos Relacionados