Una nueva técnica de compresión de textos con soporte de Text Retrieval y su adaptación a lenguas romances

Lorenzo Iglesias, Eva

Una nueva técnica de compresión de textos con soporte de Text Retrieval y su adaptación a lenguas romances

Lorenzo Iglesias, Eva

Dirixida por:

Nieves R. Brisaboa Director
José Ramón Paramá Gabia Director

Universidade de defensa: Universidade da Coruña

Fecha de defensa: 24 de xuño de 2003

Tribunal:

María Antonia Martí Antonín Presidente/a
Serafín Caridad Simón Secretario/a
Fernando Díaz Gómez Vogal
Jesús Vegas Hernández Vogal
Juan Francisco Gálvez Gálvez Vogal

Tipo: Tese

Teseo: 99238 DIALNET RUC editor

Resumo

En el marco de esta tesis se ha desarrollado un nuevo esquema de compresión de especial interés en el campo de las bases de datos textuales. La nueva codificación, denominada codificación Densa con Post-Etiquetado posee las siguientes características: * Es un esquema de compresión basado en palabras; es decir, los símbolos a comprimir son palabras y no caracteres. * Es una codificación de prefijo libre, lo que garantiza la decodificación inmediata del texto comprimido. * Soporta la descompresión de porciones arbitrarias de texto gracias a la incorporación de marcas que permiten distinguir los códigos dentro del texto comprimido. * Es posible realizar búsquedas eficientes de palabras de un modo exacto, aproximado o utilizando expresiones regulares, directamente sobre el texto comprimido. * Alcanza mejores ratios de compresión que otras técnicas de compresión similares. * Los procesos de codificación y decodificación son sencillos y rápidos. Se han demostrado analítica y experimentalmente las ventajas de la codificación Densa con Post-Etiquetado en términos de tamaño final del fichero comprimido. Los estudios teóricos se han realizado considerando diferentes distribuciones de palabras en el texto, entre las que se incluye la propuesta por la ley de Zipf. Para el estudio empírico se han empleado corpus de textos en inglés de la colección TREC-4 y corpus ad hoc de documentos escritos en lenguas romances (en concreto, en castellano, portugués y gallego). Una de las conclusiones obtenidas como resultado de los estudios experimentales anteriores es la reducción en la eficiencia de la comprensión y de la recuperación cuando se aplican codificaciones basadas en palabras (como la nueva codificación Densa con Post- Etiquetado) sobre textos romances. El problema es originado por el importante incremento del vocabulario en esas lenguas y el tipo de distribución que caracteriza los textos. Como consecuencia, se propone una adaptación de los esquemas basados en palabras mediante el preprocesamiento de los corpus antes de la comprensión utilizando una nueva herramienta basada en ingeniería lingüística que también se ha desarrollado en este trabajo. Por último, se incluyen un conjunto de estudios experimentales que demuestran la efectividad del método propuesto, tanto en el aspecto de la comprensión como a la hora de realizar búsquedas aproximadas sobre el texto comprimido.