Transformada wavelet aplicada a la extraccion de informacion en señales de voz

  1. JANER GARCIA, LEONARD
Dirixida por:
  1. Eduardo Lleida Solano Director

Universidade de defensa: Universitat Politècnica de Catalunya (UPC)

Ano de defensa: 1998

Tribunal:
  1. José Bernardo Mariño Acebal Presidente/a
  2. María Asunción Moreno Bilbao Secretario/a
  3. Victoria Eugenia Sánchez Calle Vogal
  4. Carmen García Mateo Vogal
  5. Javier Ortega García Vogal

Tipo: Tese

Teseo: 67965 DIALNET

Resumo

En este trabajo se ha desarrollado una herramienta de análisis de señales de voz mediante Transformada Wavelet. Para ello, se han estudiado las principales formas de llevarla a cabo, y finalmente, se ha diseñado una solución siguiendo la escala Bark: que responde a la forma de actuar de las neuronas auditivas. El esquema propuesto basado sigue un análisis híbrido: multivoces-multiescalas. Para mantener la distribución lineal de las primeras cinco bandas de la escala Bark, hemos ajustado las primeras cinco bandas del sistema a un trabajo a escala fija, mediante cinco voces diferentes de la misma función wavelet madre: una gausiana modulada. El resto de bandas del sistema, con distribución logarítmica, se construyen por variaciones de escala. El modelo de análisis busca llevar a cabo una extracción de la energía de las señales a 17 bandas. Con este escalograma auditivo, se han desarrollado dos aplicaciones. La primera realiza una Estimación de la Frecuencia Fundamental de manera síncrona con la evolución del período de pitch en señales limpias de ruido. El objeto de dicha aplicación es el seguimiento de la velocidad de vibración de las cuerdas vocales en los sonidos sonoros. Para ello se lleva a cabo un análisis con las 6 primeras bandas del escalograma previamente presentado en un esquema de estimación de pitch híbrido. Empezamos trabajando en el dominio temporal con las 6 bandas en forma paralela extrayendo la posición de sus máximos de energía: se ha probado que dichos máximos mantienen la información de los instantes de cierre glótico. Para mejorar la detección de dichos instantes, se trabaja con un umbral de energía adaptativo y un algoritmo de confirmación de máximos que eliminará los errores de pérdidas accidentales de máximos relevantes o la inclusión de falsos máximos intermedios. Con la información de salida de las 6 bandas (6 estimaciones de la frecuencia de pitch), se junta