Una nueva técnica de compresión de textos con soporte de Text Retrieval y su adaptación a lenguas romances

  1. Lorenzo Iglesias, Eva
Zuzendaria:
  1. Nieves R. Brisaboa Zuzendaria
  2. José Ramón Paramá Gabia Zuzendaria

Defentsa unibertsitatea: Universidade da Coruña

Fecha de defensa: 2003(e)ko ekaina-(a)k 24

Epaimahaia:
  1. María Antonia Martí Antonín Presidentea
  2. Serafín Caridad Simón Idazkaria
  3. Fernando Díaz Gómez Kidea
  4. Jesús Vegas Hernández Kidea
  5. Juan Francisco Gálvez Gálvez Kidea

Mota: Tesia

Teseo: 99238 DIALNET lock_openRUC editor

Laburpena

En el marco de esta tesis se ha desarrollado un nuevo esquema de compresión de especial interés en el campo de las bases de datos textuales. La nueva codificación, denominada codificación Densa con Post-Etiquetado posee las siguientes características: * Es un esquema de compresión basado en palabras; es decir, los símbolos a comprimir son palabras y no caracteres. * Es una codificación de prefijo libre, lo que garantiza la decodificación inmediata del texto comprimido. * Soporta la descompresión de porciones arbitrarias de texto gracias a la incorporación de marcas que permiten distinguir los códigos dentro del texto comprimido. * Es posible realizar búsquedas eficientes de palabras de un modo exacto, aproximado o utilizando expresiones regulares, directamente sobre el texto comprimido. * Alcanza mejores ratios de compresión que otras técnicas de compresión similares. * Los procesos de codificación y decodificación son sencillos y rápidos. Se han demostrado analítica y experimentalmente las ventajas de la codificación Densa con Post-Etiquetado en términos de tamaño final del fichero comprimido. Los estudios teóricos se han realizado considerando diferentes distribuciones de palabras en el texto, entre las que se incluye la propuesta por la ley de Zipf. Para el estudio empírico se han empleado corpus de textos en inglés de la colección TREC-4 y corpus ad hoc de documentos escritos en lenguas romances (en concreto, en castellano, portugués y gallego). Una de las conclusiones obtenidas como resultado de los estudios experimentales anteriores es la reducción en la eficiencia de la comprensión y de la recuperación cuando se aplican codificaciones basadas en palabras (como la nueva codificación Densa con Post- Etiquetado) sobre textos romances. El problema es originado por el importante incremento del vocabulario en esas lenguas y el tipo de distribución que caracteriza los textos. Como consecuencia, se propone una adaptación de los esquemas basados en palabras mediante el preprocesamiento de los corpus antes de la comprensión utilizando una nueva herramienta basada en ingeniería lingüística que también se ha desarrollado en este trabajo. Por último, se incluyen un conjunto de estudios experimentales que demuestran la efectividad del método propuesto, tanto en el aspecto de la comprensión como a la hora de realizar búsquedas aproximadas sobre el texto comprimido.