Reconocimiento de habla mediante transparametrización: una alternativa robusta para entornos móviles e IP

Peláez Moreno, Carmen

Reconocimiento de habla mediante transparametrizaciónuna alternativa robusta para entornos móviles e IP

Peláez Moreno, Carmen

Dirixida por:

Fernando Díaz de María Director

Universidade de defensa: Universidad Carlos III de Madrid

Fecha de defensa: 05 de febreiro de 2002

Tribunal:

Aníbal Ramón Figueiras Vidal Presidente/a
Belén Ruiz Mezcua Secretario/a
Luis Alfonso Hernández Gómez Vogal
Francisco Javier Hernando Pericás Vogal
Carmen García Mateo Vogal

Tipo: Tese

Teseo: 92138 DIALNET e-Archivo editor

Resumo

En el panorama actual de las telecomunicaciones, dos son los tipos de redes con mayor éxito en la actualidad: las redes de móviles y las redes de paquetes basadas en el protocolo TCP/IP (¿Transport Control Protocol / Internet Protocol-). Entre los factores que han llevado al éxito de las primeras en su segunda generación (2G) está su ubicuidad, es decir, gracias al enorme despliegue geográfico de estas redes es posible realizar una llamada telefónica desde casi cualquier localización (en el mundo desarrollado). Por su parte, las redes IP (originalmente diseñadas para el transporte de datos) también están logrando imponer su presencia en detrimento de cualquier otro tipo de red fija y uno de sus puntos fuertes es, sin duda, su capacidad ¿todavía bastante limitada¿ para transmitir cualquier tipo de información multimedia. Uno de los puntos de convergencia entre las dos redes es su objetivo de permitir que todo tipo de información transite por ellas con ciertas garantías de calidad de servicio (QoS -Quality of Service-). Esto está motivado por la cantidad de nuevas aplicaciones que pueden crearse a partir de la posibilidad de combinar informaciones de distinto tipo (texto, video, voz, imágenes, música, etc.) y las tecnologías del habla están llamadas a jugar un papel fundamental a través del desarrollo de interfaces más naturales para estas aplicaciones. Entre estas tecnologías, el reconocimiento de habla está llegando a una fase de madurez que hace cada vez más viables estos desarrollos. De hecho, desde hace algún tiempo se viene prestando mucha atención a la robustez de estos sistemas cuando se trasladan al mundo real, habiéndose desarrollado numerosas técnicas para enfrentarse a problemas tales como: variaciones en el entorno acústico, influencia de los transductores y el canal de transmisión y variaciones en el hablante y la tarea que se aborda. En esta tesis estudiamos la influencia de dos tipos de canales de transmisión concretos, representantes de los dos tipos de redes que hemos venido introduciendo: el estándar europeo para comunicaciones móviles GSM (-Global System for Mobile-, anteriormente ¿Group Speciale Mobile) y el de las actuales redes basadas en los protocolos TCP/IP. Además, proponemos una solución, que hemos denominado reconocimiento mediante transparametrización, con la que mejoramos la tasas de reconocimiento en ambos entornos y que, aunque en un principio, hemos particularizado para dichos entornos, puede ser aplicada en otros. La característica común de la transmisión de voz a través de estas dos redes es el proceso de codificación que tiene lugar para adecuar su régimen binario reducir. Esta compresión con pérdidas de la señal de voz produce un deterioro de su calidad, que si bien es aceptable en el caso de reconocedores humanos ¿los codificadores están diseñados para minimizar la distorsión perceptible¿, se traduce en una disminución apreciable de las prestaciones de los reconocedores automáticos. Por otra parte, los errores de transmisión que se producen en ambos entornos, contribuyen también a la degradación de las prestaciones de los reconocedores. En GSM, estos errores aparecen en forma de ráfagas de bits erróneos producidas por desvanecimientos de la señal de radiofrecuencia, que pueden afectar a una o varias tramas consecutivas, completamente o sólo en parte. El caso de IP es algo distinto ya que, en general, no se suelen producir errores de bit a ráfagas y muy raramente errores aislados, debido a la alta fiabilidad del canal, sino que lo más común es que se produzcan pérdidas de paquetes (a ráfagas) en los nodos de enrutamiento. En cualquier caso, lo que se pone de manifiesto en esta tesis es que el hecho de que este tipo de errores se produzcan sobre la voz codificada tiene consecuencias que no se pueden tratar de la misma manera que si se produjeran sobre la señal de voz original (por ejemplo, modelando los errores haciendo las hipótesis habituales de ruido convolutivo o aditivo). Es decir, si tenemos en cuenta que el proceso de codificación de la voz consiste, a grandes rasgos, en la extracción de una serie de parámetros que representan distintos aspectos específicos de este tipo de señal (su periodo fundamental, la posición de sus formantes, su característica sonora o sorda, su energía, etc), nos percataremos de que la modificación de cada uno de ellos tiene consecuencias muy distintas sobre la señal vocal reconstruida. Un reconocedor convencional que recibe una señal de voz codificada, la primera acción que realiza sobre ella es su decodificación y de esa forma, ya puede proceder a realizar la extracción de características o parametrización para reconocimiento. En este proceso, las distorsiones de codificación y de los errores se trasladan a los parámetros a partir de los que se realizará el reconocimiento, produciendo el deterioro de las prestaciones del reconocedor. Para mejorar esta situación, en esta tesis proponemos el análisis de la parametrización de la señal de voz que lleva a cabo el codificador antes de su decodificación y la transformación de ésta en otra adecuada para el reconocimiento. Esto además, nos permite utilizar métodos de recuperación frente a errores y de transformación de parametrizaciones orientados directamente al reconocimiento, sin limitarnos a los ya previstos en los estándares de codificación, cuyo propósito es recuperar una señal de voz perceptualmente aceptable sujetos a una fuerte restricción de tiempo real. De esta forma, obtenemos una solución aplicable a ambos entornos (GSM e IP) que reduce la influencia sobre los reconocedores, por una parte, la distorsión de codificación haciendo una selección de la información relevante para reconocimiento, y por otra, el efecto de los errores de transmisión, actuando directamente sobre los parámetros afectados. Resulta notable el hecho de que esta solución sea aplicable tanto a entornos móviles como a redes de tipo IP, ya que puede emplearse cuando existe una combinación de ambas como parece ser la tendencia. _________________________________________________