Problemática de la recogida y anotación de una base de datos oral para el gallego

  1. González Rei, Begoña
  2. Cardenal López, Antonio
  3. Docío Fernández, Laura
  4. García Mateo, Carmen
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Ano de publicación: 2001

Título do exemplar: XVII Congreso de la SEPLN: Sociedad Española para el Procesamiento del Lenguaje Natural: Universidad de Jaén, 12-14 septiembre 2001

Número: 27

Páxinas: 37-44

Tipo: Artigo

Outras publicacións en: Procesamiento del lenguaje natural

Resumo

La creciente demanda de los denominados "teleservicios" requiere la recogida de bases de datos adecuadas para entrenar y evaluar los sistemas de reconocimiento automático de voz. Para lenguas habladas por grandes poblaciones se disponen en el mercado de bases de datos útiles que permiten la implementación de reconocedores. Sin embargo, las lenguas minoritarias sufren la falta de tales bases de datos por lo que casi cualquier investigación en el ámbito de las tecnologías del habla que se centre en una lengua minoritaria debe pasar por una fase en la que se capture una base de datos de voz con la que trabajar. En este artículo se presenta nuestra experiencia en la creación de una base de datos para el idioma gallego. Se describen las cuestiones relativas a la captación de llamadas y al etiquetado de las mismas. También se muestran experimentos de entrenamiento y evaluación de reconocedores realizados sobre dicha base de datos que sirven como herramienta de validación de la base de datos en cuestión.