Análisis y evaluación de parámetros para identificación automática de emociones en el habla

LUENGO GIL, IKER

Análisis y evaluación de parámetros para identificación automática de emociones en el habla

LUENGO GIL, IKER

Zuzendaria:

Eva Navas Cordón Zuzendaria

Defentsa unibertsitatea: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 2010(e)ko ekaina-(a)k 01

Epaimahaia:

José Bernardo Mariño Acebal Presidentea
Inmaculada Hernáez Rioja Idazkaria
Laura Docío Fernández Kidea
Carmen García Mateo Kidea
Valentín Cardeñoso Payo Kidea

Mota: Tesia

Teseo: 297350 DIALNET TESEO editor

Laburpena

El número y tipo de parámetros utilizados son uno de los elementos clave a la hora de diseñar un sistema de identificación automática de emociones en la voz. Sin embargo, no existe un consenso sobre qué parámetros son los mejores para la identificación de emociones. Este fenómeno se agrava por la falta de un estudio sistemático que analice la efectividad de cada parametrización con el objetivo de determinar la más favorable. Mediante el trabajo desarrollado en esta tesis se pretende cubrir este vacío del campo del habla emocionada. Se presenta un análisis sistemático de las parametrizaciones acústicas más comúnmente utilizadas en la identificación automática de emociones, determinando así su capacidad para distinguir los diferentes estilos de habla y su efectividad en los sistemas de identificación. Se ha tenido especial cuidado en utilizar bases de datos y arquitecturas comunes durante todo el proceso, de forma que los resultados obtenidos para las diferentes parametrizaciones puedan ser comparables. En una primera fase, se ha realizado el análisis sobre emociones actuadas, utilizando la base de datos de habla emocional Berlin. Las conclusiones resultantes han sido posteriormente validadas en emociones naturales y habla espontánea, mediante la base de datos AIBO. En ambos casos se ha llegado a conclusiones similares, mostrando que aquellas parametrizaciones que destacan por su capacidad de discriminar emociones actuadas también obtienen los mejores resultados en situaciones más reales. Los resultados desvelan que los parámetros prosódicos o de calidad de voz más habitualmente utilizados no son los más adecuados para la identificación automática de emociones, ya que las características espectrales presentan mayor capacidad de discriminación. Este efecto es más acusado cuando se consideran emociones naturales en habla espontánea.