Robust speech recognition under band-limited channels and other channel distortions

Morales Mombiela, Nicolás

Robust speech recognition under band-limited channels and other channel distortions

Morales Mombiela, Nicolás

Dirixida por:

Doroteo Torre Toledano Director

Universidade de defensa: Universidad Autónoma de Madrid

Fecha de defensa: 05 de novembro de 2007

Tribunal:

Luis Alfonso Hernández Gómez Presidente/a
Joaquín González Rodríguez Secretario/a
Carmen García Mateo Vogal
John Hansen Vogal
Eduardo Lleida Solano Vogal

Tipo: Tese

Teseo: 154962 DIALNET Biblos-e Archivo editor

Resumo

Esta tesis es un estudio teórico y experimental de reconocimiento automático de voz, robusto frente a distorsiones de canal, con particular atención a filtros que eliminan completamente partes del espectro de frecuencias en al señal. El autor presenta un modelo matemático del efecto que este tipo de distorsiones causa en la señal parametrizada, y propone algoritmos de compensación de la señal para solventar el desajuste que se crea entre modelos entrenados en condiciones ideales, y señales distorsionadas. También se realiza un interesante análisis de la correlación entre distintos elementos del vector de parámetros que fundamenta una modificación en los algoritmos de compensación. En la sección experimental se presenta un amplio catalogo de pruebas destinadas a evaluar la importancia de distintos aspectos de los algoritmos de compensación presentados. También se propone varios experimentos que recrean situaciones que podrían presentarse en aplicaciones practicas, como la posibilidad de que la señal de voz este afectada por diferentes limitaciones en banda desconocidas a -priori, la compensación de distorsiones para las que no existen datos de entrenamiento, la escasez de datos de entrenamiento, etc. En todos los casos, se comparan los resultados con otras técnicas de robustez habitualmente utilizadas (típicamente re-entrenamiento, y adaptación de modelos acústicos). Los resultados obtenidos con compensación de la señal, ofrecen grandes mejoras en al tasa de reconocimiento frente al caso de no compensación. El rendimiento es comparable al de las técnicas de modelos robustos, y su uso puede ser muy beneficiosos cuando se necesita una solución ligera (por ejemplo en sistemas portátiles, o con limitaciones en la capacidad de almacenamiento y computación), cuando los sistemas están sometidos a múltiples distorsiones, o cuando los datos de entrenamiento de cada una de las posibles distorsiones son escasos. Además, los algoritmos propuestos pueden ser combinado con los de modelos robustos para obtener aun mejores tasas de reconocimiento.