Adaptacíón eficiente del modelo de lenguaje para transcripción automática de voz en un entorno bilingüe

  1. DIÉGUEZ TIRADO, FRANCISCO JAVIER
Supervised by:
  1. Carmen García Mateo Director
  2. Antonio Cardenal López Director

Defence university: Universidade de Vigo

Fecha de defensa: 07 July 2008

Committee:
  1. José Bernardo Mariño Acebal Chair
  2. Laura Docío Fernández Secretary
  3. Luis Alfonso Hernández Gómez Committee member
  4. María Asunción Moreno Bilbao Committee member
  5. Leandro Rodríguez Liñares Committee member
Department:
  1. Teoría do sinal e comunicacións

Type: Thesis

Teseo: 207321 DIALNET

Abstract

El problema del reconocimiento de voz, si bien ha experimentado un notable avance en los últimos años, continúa presentando dificultades en entornos adversos tales como la presencia de habla espontánea, canales ruidosos, o variaciones continuas de tema y estilo de habla. Los reconocimientos de voz actuales se basan en encontrar la secuencia de palabras con un mejor ajuste a las observaciones, tanto a nivel acústico en base a modelos de palabra, como semántico y gramatical utilizando modelos de lenguaje. Para ello se aplican algoritmos que recorren de manera eficiente el espacio de búsqueda despreciando de manera temprana las hipótesis menos probables. El objeto de la presente tesis doctoral es la mejora de la tasa de reconocimiento a través de avances en el modelado de lenguaje. Para ello se atacan dos vertientes fundamentales: cómo aplicar el modelo de lenguaje en el reconocedor de la manera más temprana posible, y cómo adaptar el modelo de lenguaje para que se ajuste mejor a aquello que se desea reconocer. Para efectuar esta investigación se escogió la tarea de transcripción de noticias, creando para ello un nuevo marco experimental a partir de recursos limitados. En lo que se refiere a la aplicación del modelo de lenguaje, las mejoras fueron realizadas durante el desarrollo del reconocedor de la Universidad de Vigo, y se basan en técnicas para el acceso rápido a las bases de datos de probabilidades, así como algoritmos que intentan explotar la redundancia de los cálculos de manera que se minimice el número de cómputos necesarios. Estas modificaciones permiten aplicar modelos más complejos en las primeras fases de reconocimiento, permitiendo así guiar la búsqueda de manera más eficiente. Una vez finalizado el reconocedor de la Universidad de Vigo se construyó el marco experimental de transcripción de noticias para investigar la adaptación de modelos de lenguaje. Nuestro sistema de transcripción, denominado Transcrigal, goza de la particularidad de que está formado por una base de datos de noticiarios en gallego, en los cuales está presente asimismo una cantidad significativa de idioma castellano. Este bilingüismo es un factor novel y su tratamiento constituye un problema más a los problemas comunes de variedad de tema, locutor o estilo. La estimación de modelos de lenguaje adaptados para Transcrigal utiliza técnicas basadas en interpolación de modelos individuales, de manera que la mezcla de modelos esté adaptada a un tema, estilo y/o idioma concreto. Dentro de las estrategias de interpolación propondremos esquemas que aplican en paralelo varios modelos adaptados a pàrtir de particiones manuales del corpus de texto, así como un sistema basado en clustering jerárquico que ha dado buenos resultados. Esta estrategia, unida a la aplicación temprana del modelo de lenguaje, conduce a incrementos no despreciables en la tasa de reconocimiento.