Voice conversion applied to text-to-speech systems

DUXANS BARROBES, HELENCA

Voice conversion applied to text-to-speech systems

DUXANS BARROBES, HELENCA

Dirixida por:

Antonio Bonafonte Cávez Director

Universidade de defensa: Universitat Politècnica de Catalunya (UPC)

Fecha de defensa: 11 de xullo de 2006

Tribunal:

José Bernardo Mariño Acebal Presidente/a
Francisco Javier Hernando Pericás Secretario/a
Eduardo Rodríguez Banga Vogal
Inmaculada Hernáez Rioja Vogal
Antonio José Rubio Ayuso Vogal

Tipo: Tese

Teseo: 133518 DIALNET

Resumo

Aquesta tesi planteja l'estudi i el disseny de sistemes de Conversió de Veu (CV). Els sistemes de CV modifiquen la veu d'un locutor (locutor origen) de tal forma que sembli la veu d'un altre locutor determinat (locutor destí). Aquesta tecnologia s'ha ideat sobretot com a tècnica per a la creació de nous locutor en sistemes de conversió text a veu (CTV). L'objectiu de la tesi és el desenvolupament d'un sistema de CV per ser aplicat a la sortida d'un sistema de CTV. Els sistemes de CV aplicats a CTV tenen dues característiques principals: la quantitat de dades del locutor origen no és limitada, ja que qualsevol locució pot ser generada pel CTV, i es disposa d'informació fonètica. S'han explorat ambdues característiques per tal de millorar el funcionament del sistemes de CV actuals. La personalitat de la veu d'un locutor ve determinada per diversos factors acústics i lingüístics. En aquest treball, la personalitat de la veu s'ha descrit a partir de només característiques acústiques segmentals. En concret, s'han utilitzat dues estratègies diferents per a convertir els paràmetres de tracte vocal i la senyal residual estimats amb tècniques de predicció lineal. Els sistemes actuals de conversió de tracte vocal es basen en Models de Mescles de Gaussianes (GMM) per modelar l'espai acústic dels locutors i transformar els paràmetres de tracte vocal. Una limitació d'aquests sistemes és que no poden tractar amb dades del locutor origen que no tenen correspondència amb el locutor destí. S'han proposat dues aproximacions per utilitzar aquestes dades: una versió modificada de l'algoritme EM amb les matrius de covariança fixes, i una estratègia que completa les dades sense correspondència amb els vector d'origen transformats. Per tal de millorar els resultats dels sistemes GMM, s'han proposat dues tècniques noves en la conversió de tracte vocal. La primera tècnica ha consistit en introduir informació dinàmica al model acústic per mitjà d'