Análisis y evaluación de parámetros para identificación automática de emociones en el habla

  1. LUENGO GIL, IKER
Zuzendaria:
  1. Eva Navas Cordón Zuzendaria

Defentsa unibertsitatea: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 2010(e)ko ekaina-(a)k 01

Epaimahaia:
  1. José Bernardo Mariño Acebal Presidentea
  2. Inmaculada Hernáez Rioja Idazkaria
  3. Laura Docío Fernández Kidea
  4. Carmen García Mateo Kidea
  5. Valentín Cardeñoso Payo Kidea

Mota: Tesia

Teseo: 297350 DIALNET lock_openTESEO editor

Laburpena

El número y tipo de parámetros utilizados son uno de los elementos clave a la hora de diseñar un sistema de identificación automática de emociones en la voz. Sin embargo, no existe un consenso sobre qué parámetros son los mejores para la identificación de emociones. Este fenómeno se agrava por la falta de un estudio sistemático que analice la efectividad de cada parametrización con el objetivo de determinar la más favorable. Mediante el trabajo desarrollado en esta tesis se pretende cubrir este vacío del campo del habla emocionada. Se presenta un análisis sistemático de las parametrizaciones acústicas más comúnmente utilizadas en la identificación automática de emociones, determinando así su capacidad para distinguir los diferentes estilos de habla y su efectividad en los sistemas de identificación. Se ha tenido especial cuidado en utilizar bases de datos y arquitecturas comunes durante todo el proceso, de forma que los resultados obtenidos para las diferentes parametrizaciones puedan ser comparables. En una primera fase, se ha realizado el análisis sobre emociones actuadas, utilizando la base de datos de habla emocional Berlin. Las conclusiones resultantes han sido posteriormente validadas en emociones naturales y habla espontánea, mediante la base de datos AIBO. En ambos casos se ha llegado a conclusiones similares, mostrando que aquellas parametrizaciones que destacan por su capacidad de discriminar emociones actuadas también obtienen los mejores resultados en situaciones más reales. Los resultados desvelan que los parámetros prosódicos o de calidad de voz más habitualmente utilizados no son los más adecuados para la identificación automática de emociones, ya que las características espectrales presentan mayor capacidad de discriminación. Este efecto es más acusado cuando se consideran emociones naturales en habla espontánea.