La fase en los modelos armónicos de la señal de voz: estrategias de representación, tratamiento y aplicaciones

SARATXAGA COUCEIRO, IBON

La fase en los modelos armónicos de la señal de vozestrategias de representación, tratamiento y aplicaciones

SARATXAGA COUCEIRO, IBON

Dirixida por:

Inmaculada Hernáez Rioja Director

Universidade de defensa: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 05 de marzo de 2012

Tribunal:

José Manuel Pardo Muñoz Presidente/a
Eva Navas Cordón Secretario/a
Daniel Erro Eslava Vogal
María Asunción Moreno Bilbao Vogal
Eduardo Rodríguez Banga Vogal

Tipo: Tese

Teseo: 115250 DIALNET

Resumo

En esta tesis hemos desarrollado, en el marco de los modelos armónicos de la voz, una nueva representación de la información de fase denominada RPS (Relative Phase Shift). Esta transformación permite obtener una magnitud directamente relacionada con la forma de onda de la señal, independiente del instante de análisis y, sobre todo, muestra de forma evidente la estructura de fases de la señal.Una vez desarrollada la representación RPS, se estudian las características de la misma, la influencia de la señal de excitación y del tracto vocal sobre los RPSs, y su relación con la polaridad de la señal. La polaridad influye notablemente sobre los RPSs y esta propiedad se utiliza con éxito para implementar un algoritmo de detección de polaridad.Una parte de la tesis se dedica a buscar un modelado adecuado de la estructura de fase que muestran los RPSs. Así se define primero una parametrización de los RPSs apropiada para su modelado estadístico, lo que nos permite usar los RPSs en aplicaciones de reconocimiento de habla y de locutor. Además, utilizamos los RPSs para afrontar el problema de los impostores sintéticos: señales de voz generadas por síntesis imitando la voz de un locutor con el fin de burlar a un sistema de verificación.Finalmente, estudiamos la importancia perceptual de las fases, para responder a la pregunta de si merece la pena incluir la fase, en forma de RPSs, en los sistemas de síntesis de voz. Así, evaluamos perceptualmente las distorsiones de diferentes señales resintetizadas con fase modificada aprovechando las posibilidades de manipulación de las RPSs. Con todo esto, la tesis pone de manifiesto la utilidad de esta nueva representación de las fases para su aplicación en diferentes ámbitos del procesado de la voz.