Compensación rápida de los efectos de la velocidad del habla, el pitch y el volumen de producción de voz en reconocimiento de habla continua

  1. Tapias Merino, Daniel
Dirigée par:
  1. Juan Francisco Gómez Mena Directeur/trice

Université de défendre: Universidad Politécnica de Madrid

Fecha de defensa: 29 juin 2001

Jury:
  1. Luis Alfonso Hernández Gómez President
  2. Eduardo López Gonzalo Secrétaire
  3. Belén Ruiz Mezcua Rapporteur
  4. Carmen García Mateo Rapporteur
  5. Antonio José Rubio Ayuso Rapporteur

Type: Thèses

Teseo: 84999 DIALNET

Résumé

Las tasas de error en los sistemas de reconocimiento actuales se incrementan notablemente si las condiciones de entrenamiento y de evaluación son diferentes: los seres humanos superamos estos problemas adaptandonos continuamente al ruido de fondo al canal y al locutor, Incluso identificamos al locutor y extraemos información sociocultural que no es útil para mejorar el proceso de comunicación. En la tesis se expone el problema de la variabilidad inter/intralocutor en particular en tres de parámetros: la velocidad del habla, el PITCH y el volumen de producción de voz. Tras un revisión de las técnicas de compensación de esta variabilidad, se estudian en detalle los fenómenos relacionados con la variabilidad para ver como afectan al reconocedor y desarrollar técnicas específicas de compensación basadas en este conocimiento o seleccionar de las existentes las más útiles de cara a su utilización en servicios telefónicos. En particular, se realiza una clasificación de las técnicas de compensación existentes en sentido amplio; se estudian en detalle los fenómenos de variabilidad; se propone una arquitectura de sistema de sistema de reconocimiento que emplea parte de la información adicional y se evaluan técnicas de compensación para cada uno de los fenómenos para una adaptación rápida del sistema de reconocimiento.