Segmentación automática de voz basada en modelos ocultos de Markov y características acústicas
ISSN: 1135-5948
Ano de publicación: 2000
Número: 26
Páxinas: 191-196
Tipo: Artigo
Outras publicacións en: Procesamiento del lenguaje natural
Resumo
Un aspecto muy importante en el ámbito de las tecnologías del habla, lo constituyen las bases de datos segmentadas y etiquetadas de forma precisa ya sea a nivel fonético, de sub-palabra o de palabra. Sin embargo, un etiquetado y segmentación manual es una tarea que consume mucho tiempo y muy propensa a errores. Este artículo describe un procedimiento automático para realizar la segmentación de voz en un conjunto de unidades acústicas: dado el contenido fonético o lingüístico de una locución, el sistema proporciona las fronteras temporales de las unidades. La técnica se basa en el uso de un reconocedor que utiliza modelos ocultos de Markov (HMMs) para modelar cada una de las unidades acústicas. Dicho reconocedor proporciona una segmentación burda inicial obtenida a través de un alineamiento de Viterbi, la cual será refinada posteriormente por medio de una "segmentación acústica" y un pequeño conjunto de reglas basadas en características acústicas. Estas reglas representan conocimiento fonético y su finalidad consiste en la corrección de errores de segmentación inesperados, los cuales son un principal problema de los reconocedores basados en HMMs.