Seeking robustness in a multilingual worldfrom pipelines to embeddings

  1. Doval, Yerai
Dirixida por:
  1. Manuel Vilares Ferro Director
  2. Jesús Vilares Co-director

Universidade de defensa: Universidade da Coruña

Fecha de defensa: 17 de decembro de 2019

Tribunal:
  1. Lourdes Araujo Presidente/a
  2. Miguel Á. Alonso Secretario/a
  3. Pavel Brazdil Vogal

Tipo: Tese

Teseo: 608758 DIALNET lock_openRUC editor

Resumo

Nesta tese estudamos dous enfoques para abordar os desafíos que presenta o procesamento de contidos textuais non estándar e multilingües xerado polos usuarios do tipo que se atopar na Web a día de hoxe. En primeiro lugar, presentamos un enfoque tradicional baseado en pipelines discretos nos que preprocesamos o texto de entrada para facilitar a seu posterior tratamento por outros sistemas. Isto implica abordar o problema do multilingüismo, primeiro, identificando a lingua de entrada para, seguidamente, tratar o resto dos fenómenos de escritura non estándar específicos da lingua involucrados mediante técnicas de normalización do texto e (re-)segmentación de palabras. En segundo lugar, analizamos as limitacións inherentes a este tipo de modelos discretos, o cal nos leva a un enfoque centrado no emprego de modelos continuos baseados en word embeddings (i.e., representacións vectoriais). Neste caso, o preprocesamento explícito da entrada substitúese pola codificación das características lingüísticas e demais matices propios dos textos non estándar no espazo de embedding mesmo (un espazo vectorial). O noso obxectivo é obter modelos continuos que non so superen as limitacións dos modelos discretos, senón que tamén se aliñen co estado da arte actual do Procesamento da Linguaxe Natural (PLN), dominado por sistemas baseados en redes neurais. Os resultados obtidos tras unha ampla experimentación amosan a capacidade das word embeddings para dar un soporte efectivo por si mesmas aos fenómenos multilingües e non estándar propios de textos xerados por usuarios. Ademais, todo isto acádase dentro dun marco conceptual simple e modular que non precisa sacrificar a integración de sistemas. Estes modelos de word embeddings poden empregarse facilmente como un elemento fundamental en redes neurais de ´ultima xeración que, á súa vez, utilízanse en practicamente calquera tarefa de PLN.