Compensación rápida de los efectos de la velocidad del habla, el pitch y el volumen de producción de voz en reconocimiento de habla continua

  1. Tapias Merino, Daniel
Dirixida por:
  1. Juan Francisco Gómez Mena Director

Universidade de defensa: Universidad Politécnica de Madrid

Fecha de defensa: 29 de xuño de 2001

Tribunal:
  1. Luis Alfonso Hernández Gómez Presidente/a
  2. Eduardo López Gonzalo Secretario/a
  3. Belén Ruiz Mezcua Vogal
  4. Carmen García Mateo Vogal
  5. Antonio José Rubio Ayuso Vogal

Tipo: Tese

Teseo: 84999 DIALNET

Resumo

Las tasas de error en los sistemas de reconocimiento actuales se incrementan notablemente si las condiciones de entrenamiento y de evaluación son diferentes: los seres humanos superamos estos problemas adaptandonos continuamente al ruido de fondo al canal y al locutor, Incluso identificamos al locutor y extraemos información sociocultural que no es útil para mejorar el proceso de comunicación. En la tesis se expone el problema de la variabilidad inter/intralocutor en particular en tres de parámetros: la velocidad del habla, el PITCH y el volumen de producción de voz. Tras un revisión de las técnicas de compensación de esta variabilidad, se estudian en detalle los fenómenos relacionados con la variabilidad para ver como afectan al reconocedor y desarrollar técnicas específicas de compensación basadas en este conocimiento o seleccionar de las existentes las más útiles de cara a su utilización en servicios telefónicos. En particular, se realiza una clasificación de las técnicas de compensación existentes en sentido amplio; se estudian en detalle los fenómenos de variabilidad; se propone una arquitectura de sistema de sistema de reconocimiento que emplea parte de la información adicional y se evaluan técnicas de compensación para cada uno de los fenómenos para una adaptación rápida del sistema de reconocimiento.