Normalización y adaptación a entornos acústicos para la robustez en sistemas de reconocimiento automático de habla

BUERA RODRIGUEZ, LUIS

Normalización y adaptación a entornos acústicos para la robustez en sistemas de reconocimiento automático de habla

BUERA RODRIGUEZ, LUIS

Dirixida por:

Eduardo Lleida Solano Director

Universidade de defensa: Universidad de Zaragoza

Fecha de defensa: 03 de decembro de 2007

Tribunal:

Climent Nadeu Camprubí Presidente/a
Alfonso Ortega Giménez Secretario/a
Doroteo Torre Toledano Vogal
José Carlos Segura Luna Vogal
Carmen García Mateo Vogal

Tipo: Tese

Teseo: 196181 DIALNET

Resumo

La tesis doctoral "Normalización y Adaptación a Entornos Acústicos para la Robustez en Sistemas de Reconocimiento Automático del Habla" versa sobre el uso de diversas técnicas de robustez ante el entorno acústico que comprenden tanto la proyección de los vectores de características ruidosos sobre el espacio representado por los modelos acústicos de referencia, lo que se denomina adaptación de la señal a los modelos acústicos, como la transformación de los propios modelos acústicos de referencia acercándolos al espacio asociado a los vectores de características, también conocida como adaptación de los modelos acústicos a la señal. En ambos casos se ha trabajado principalmente con técnicas empíricas no supervisadas, esto es, que no precisan del conocimiento de la trascripción de la señal empleada en la fase de entrenamiento. En cuanto a los métodos de adaptación de la señal a los modelos acústicos, cabe reseñar que se ha desarrollado el algoritmo empírico Multi-Environment Model-based Linear Normalization, MEMLIN, que se sustenta en tres aproximaciones, a saber: modelar el espacio limpio y ruidoso con sendas Gaussian Mixture Model, GMM, y asumir que los vectores de características limpio y degradado se relacionan entre sí a partir de una transformación lineal de orden uno y pendiente unidad para cada par de Gaussianas. Diversas experimentaciones con la bases de datos SpeechDat Car en español y Aurora 2 demostraron el satisfactorio comportamiento del algoritmo, reduciendo las tasas de error obtenidas previamente con técnicas como multivariate Gaussian-based cepstral normalization, RATZ, o Stereo based Piecewise Linear Compensation for Environments, SPLICE. Si se estudia detenidamente la técnica MEMLIN, se puede observar que hay dos estimaciones que afectan en gran medida al comportamiento final del algoritmo. Éstas no son otras que el modelado del espacio de señal, que viene dado por la transformación asociada a cada par de componentes, y el modelado de la probabilidad condicionada entre espacios de señal, cuyo reflejo matemático se materializa en la probabilidad a posteriori de la Gaussiana del modelo limpio dada la del modelo degradado. En ambas líneas se ha trabajado a lo largo de esta tesis doctoral. Buscando una transformación asociada a cada par de Gaussianas más realista, se definieron los algoritmos Polynomial Multi-Environment Model-based Linear Normalization, P-MEMLIN, que emplea un polinomio de orden uno cuya pendiente puede ser diferente de la unidad, Multi-Environment Model-based Hlstogram Normalization, MEMHIN, basada en una función no lineal obtenida a partir de ecualización de histograma y Phone Dependent Multi-Environment Model-based Linear Normalization, PD-MEMLIN, que es la versión dependiente del fonema para la técnica MEMLIN. Mediante estas nuevas transformaciones se buscaba transformar no sólo las medias de los vectores acústicos, sino también las varianzas. Las diferentes experimentaciones mostraron una importante mejora por parte del algoritmo PD-MEMLIN, así como un interesante comportamiento de las técnicas P-MEMLIN y MEMHIN ante ruidos aditivo. Inicialmente, la probabilidad a posteriori de la Gaussiana del modelo limpio dada la del modelo degradado se estimaba mediante un modelo estático independiente del vector acústico ruidoso. Así se hacía por ejemplo con las técnicas MEMLIN, P-MEMLIN, MEMHIN y PD-MEMLIN. Sin embargo, y apoyado en estudios que desvelaban la fragilidad de la aproximación considerada, se definió una solución más realista consistente en modelar los vectores de características ruidosos asociados a cada par de Gaussianas mediante una nueva GMM. De este modo, las diferentes experimentaciones mostraron que las correspondientes extensiones de los algoritmos MEMLIN y PD-MEMLIN proporcionan unas muy importantes mejoras en términos de tasa de error. En cuanto a adaptación de los modelos acústicos a la señal, se propuso entrenar una serie de matrices de rotación para modificar los modelos acústicos de referencia. Dichas matrices representan la relación entre los vectores acústicos limpios y los normalizados, siendo éstos últimos los obtenidos a partir de cualquiera de las técnicas de compensación anteriormente mencionadas. Las matrices de rotación están asociadas igualmente a un par de Gaussianas (una del modelo del espacio limpio y otra del modelo del espacio normalizado, que también ha sido previamente representado mediante una GMM). La solución propuesta es híbrida en tanto que combina un algoritmo de adaptación de vectores de características con otro de adaptación de modelos acústicos. La experimentación muestra en este caso una muy significativa mejora para las distintas bases de datos consideradas, aunque el mejor comportamiento se logra con el corpus SpeechDat Car en español. En general, todas las técnicas empíricas poseen una limitación inherente a ellas mismas, la necesidad de disponer de señal estéreo de entrenamiento para estimar los distintos parámetros que, posteriormente, se precisan a la hora de compensar los vectores acústicos. Para eliminar dicha limitación, se ha propuesto en este trabajo un nuevo proceso de entrenamiento para el algoritmo PD-MEMLIN basado únicamente en la señal degradada. Además, los correspondientes resultados experimentales con el corpus SpeechDat Car en español demostraron que la pérdida derivada de emplear sólo la señal degradada en la fase de entrenamiento no es crítica.