Application of query expansion techniques to biomedical text information retrieval

Machado Pereira da Silva, Sérgio João

Application of query expansion techniques to biomedical text information retrieval

Machado Pereira da Silva, Sérgio João

unter der Leitung von:

María Lourdes Borrajo Diz Doktormutter
Eva Lorenzo Iglesias Doktormutter

Universität der Verteidigung: Universidade de Vigo

Fecha de defensa: 23 von November von 2022

Gericht:

Rui Camacho Präsident/in
Alma María Gómez Rodríguez Sekretärin
Sara Rodríguez González Vocal

Fachbereiche:

Informática

Art: Dissertation

Teseo: 749953 DIALNET Investigo editor

Zusammenfassung

La recuperación de información (IR) tiene como objetivo obtener información relevante según una determinada necesidad del usuario. Las técnicas de expansión de consultas, como parte de la IR, se utilizan para obtener más información, en particular documentos que sean relevantes para las necesidades del usuario. Normalmente, una consulta inicial se reformula con términos significativos. Sin embargo, una de las principales dificultades está relacionada con la forma de obtener estos términos y, en consecuencia, con la expansión de la consulta inicial. A menudo, las consultas se formulan y amplían con términos que pueden no estar presentes en los documentos relevantes y, por tanto, no se recuperan. Para ayudar a resolver estos problemas, en este estudio se proponen tres técnicas: 1. Un método de expansion de consultas utilizando un algoritmos Multinomial Naive Bayes (MNB). 2. Enriquecimiento de consultas con ontologías. 3. Un método de expansion de consultas basado en la técnica LDA (Latent Dirichlet Allocation). Con las técnicas presentadas se pretende hacer una aportación para que cualquier usuario pueda, de forma automática, expandir una consulta sin necesidad de conocer el contenido o ser un experto en el área. En este estudio, la recuperación de información en el campo de la biomedicina es de especial interés. El trabajo se centra en la recuperación de información a partir de documentos que describen temas o materias biomédicas. De esta forma, las técnicas desarrolladas pueden ser utilizadas por personas sin conocimientos previos en el campo de la biomedicina. La propuesta consiste en construir una Consulta Expandida (Expanded Query, EQ) a partir de una Consulta Combinada (Combined Query, CQ) que está compuesta por los términos preprocesados de la Consulta Original (Original Query, OQ). La consulta original consiste en algunos temas asociados a enfermedades, genes u otros factores; por ejemplo, la edad y el sexo. La Consulta Combinada se obtiene de los respectivos documentos y suele estar formada por una descripción sintética de diferentes campos. La EQ, a su vez, resulta de la reformulación de la CQ. La reformulación de la consulta es una tarea que implica la adición de nuevos términos o la reponderación, por ejemplo. En particular, para la extracción de los nuevos términos se propone una técnica PRF (Pseudo-Relevance Feedback). PRF consiste en utilizar los documentos mejor clasificados (primeros documentos recuperados) para obtener nuevos términos que mejoren el rendimiento de un sistema de recuperación de información. Es decir, a partir de los primeros documentos recogidos por una Consulta Combinada, se consideran los términos más relevantes presentes en ellos. Estos términos, a su vez, se utilizan para ampliar la consulta. Para la implementación, entrenamiento y prueba de las técnicas propuestas se utilizan dos corpus de la Text REtrieval Conference (TREC). TREC es una referencia en la recuperación de información, presentando una infraestructura a gran escala para la evaluación de la recuperación de información textual. Está compuesto por colecciones de documentos y juicios de relevancia (evaluaciones realizadas por especialistas en la materia, juzgando cada documento como relevante, o no, para una determinada consulta). Para este estudio, se seleccionan los documentos referidos a TREC Genomics Track 2004 (TREC 2004) y TREC Clinical Decision Support Track 2017 (TREC 2017). Estos corpus están compuestos por un conjunto de documentos, un archivo de temas (correspondiente a las consultas originales) y un archivo de juicios de relevancia (qrels). Los tópicos para el TREC 2017 consisten en la enfermedad, las variantes genéticas, la información demográfica y otros campos de información sobre los pacientes. El TREC 2004 incluye el TÍTULO (TITLE), la NECESIDAD (NEED) y el CONTEXTO (CONTEXT) sobre las necesidades de información. Para construir la consulta combinada, se seleccionan los campos. En el caso de TREC 2017, se consideran los campos disease y gene. Para TREC 2004, se mantienen los campos T IT LE, NEED y CONT EXT . Al preparar la consulta com-binada, los términos de los campos se preprocesan de acuerdo con las técnicas tradicionales, a saber, eliminación de stopwords (lista de palabras irrelevantes o comunes), tokenización (representación del término por token), stemming (reducción de las palabras y sus variantes a la raíz respectiva), convertidor de minúsculas (los tokens de las palabras se convierten a minúsculas) y ponderación TF-IDF (Term Frequency - Inverse Document Frequency). El TF se refiere al número de veces que un determinado término aparece en un documento. IDF es la relación entre el número total de documentos y el número de documentos que contienen el término en el corpus. PROPUESTA 1: Un método de expansion de consultas utilizando un algoritmos Multinomial Naive Bayes (MNB). En la primera técnica propuesta, se desarrolla un método de expansión de la consulta basado en un algoritmo Naive Bayes Multinomial (MNB), donde la expresión de la consulta combinada (CQ) es una combinación de los términos preprocesados según los campos de la consulta original (OQ) seleccionados. Una vez formulada, la CQ se ejecuta y los primeros documentos recuperados se preprocesan utilizando las mismas técnicas que en su construcción; es decir, eliminación de stopwords, tokenización, stemming, conversión a minúsculas y ponderación TF-IDF. Una vez preprocesados los datos, se realiza una selección de términos (atributos) en función de su relevancia en la consulta basada en el evaluador Gain Ratio. La técnica de Gain Ratio selecciona los atributos que maximizan la ganancia de información minimizando el número de valores de un atributo. Tras calcular la relevancia de cada atributo, se genera un ranking y se seleccionan los atributos de ese ranking, según un valor umbral. En este caso, este valor es 0. Al final, los documentos preprocesados se someten al algoritmo de clasificación Multino-mial Naive Bayes (MNB) para extraer los nuevos términos para la expansión de la consulta. El MNB forma parte de un conjunto de algoritmos de aprendizaje automático (ML) que aprenden a partir de un conjunto de entrenamiento a asociar los nuevos datos (o documen-tos) con una de las clases entrenadas. El aprendizaje automático (Machine Learning, ML) es un campo de investigación que tiene como objetivo construir y aplicar algoritmos que "aprenden" de un conjunto de datos. Multinomial Naive Bayes es un algoritmo basado en la regla de Bayes; es decir, se asume que P[Ci|D] = (P[D|Ci] ×P[Ci])/P[D], donde Ci es la clase i y D es un documento. P[Ci|D] representa la probabilidad de verificar la clase Ci dado un documento D. Por otro lado, P[D|Ci] es la probabilidad de verificar el documento D dada la clase Ci. A su vez, P[Ci] y P[D] representan las probabilidades de ocurrir o verificar la clase Ci y el documento D, respectivamente. Hay que tener en cuenta que cada documento, tras el preprocesamiento, es un conjunto de términos o palabras que contiene. La propuesta fundamental de este trabajo consiste, precisamente, en la selección de términos en función de la probabilidad de ocurrencia en una clase (una consulta, en este caso). En concreto, los términos se seleccionan por la condición P(wi|Ci) > 0; es decir, los términos wi cuya probabilidad de ocurrencia en cada clase Ci es mayor de 0. Así, los nuevo términos con alguna posibilidad de aparecer en la clase se consideran para la expansión de la consulta. La consulta expandida (EQ) se construye reformulando la CQ con la inserción de nuevos términos. Es decir, la EQ resulta de una conjugación de la CQ con la adición de nuevos térmi-nos. La eficacia de la técnica de expansión presentada se realiza mediante una comparación de la calidad (y el número) de los documentos recuperados entre la Consulta Combinada y la Consulta Expandida. Esto, a su vez, se cuantifica mediante las medidas MAP (Mean Average Precision), R-prec y P@n (precisión en los primeros n documentos recuperados). La precisión es una medida relacionada con la proporción de documentos recuperados que son relevantes; es decir, la relación entre el número de documentos recuperados que son relevantes y el número de documentos recuperados. MAP es la media aritmética de los valores medios de precisión de un sistema de recuperación de información sobre un conjunto de n consultas. R-prec es la proporción de los primeros R documentos recuperados que son relevantes, siendo R el número de documentos relevantes para la consulta. En cuanto a P@n, se hace especial hincapié en los casos en los que n toma los valores de 5, 10 o 15 (es decir, en los primeros 5, 10 o 15 documentos recuperados). Las pruebas estadísticas se introducen porque ayudan a la toma de decisiones basadas en hipótesis formuladas. Más concretamente, para entender si existe una diferencia significativa entre los valores registrados por dos métodos diferentes (la consulta expandida EQ y los participantes en la competición TREC, en este caso). Se formula una hipótesis nula en la que se supone que no hay diferencias significativas entre los resultados obtenidos por los dos métodos. Como alternativa, se plantea la hipótesis de que los valores obtenidos por el método propuesto, EQ, son superiores a los respectivos del TREC. Observando los resultados de MAP y precisión en los primeros documentos recuperados, P@5, P@10 y P@15, hay una mejora del 28,4%, 12,6%, 12,2% y 13,3%, respectivamente, de la Consulta Combinada a la Consulta Expandida para TREC 2017. Para TREC 2004 y las mismas medidas, estas mejoras son aún mayores, 175,2%, 40,0%, 52,1% y 60,2%, respec-tivamente. Así pues, se concluye que la técnica de retroalimentación de pseudorelevancia propuesta para la expansión de consultas es eficaz, dando lugar a claras mejoras en la calidad de los documentos recuperados. Además, los resultados de EQ se comparan con los obtenidos por los participantes en la respectiva versión de TREC y relacionados con los mismos conjuntos de datos. Para certificar la robustez de las técnicas propuestas, se ejecutan pruebas estadísticas para comparar y validar los resultados medios, considerando un nivel de significación alto, 95%. Los resultados de las pruebas muestran que la primera técnica propuesta mejora significativamente en relación a los participantes del TREC 2017 Precision Medicine Track. En términos medios, hay una mejora significativa del 99,7%, 86,1% y 74,7% para los valores de P@5, P@10 y P@15, respectivamente. Además, también mejora significativamente del 73,7%. En el valor de P@15 en relación con los participantes del TREC 2004 Precision Medicine Track, lo que se considera satisfactorio. PROPUESTA 2: Enriquecimiento de consultas con ontologías. En la segunda técnica propuesta, la Consulta Combinada es una consulta construida a partir de los términos preprocesados de una Consulta Original (OQ), conjugándola con términos obtenidos por ontologías. Las ontologías, en Informática, se relacionan con un conjunto de conceptos de un determinado dominio y las relaciones entre ellos. Para obtener los conceptos y los relacionados con ellos, en esta tesis se utilizan los recursos MetaMap y MeSH. MetaMap es una base del MTI (Medical Text Indexer) de la NLM (National Library of Medicine) que permite la indexación automática de la literatura biomédica en la NLM. Por otro lado, MeSH es el tesauro de vocabulario controlado de la NLM que se utiliza para indexar artículos para PubMed. Como en este trabajo se utilizan documentos biomédicos, ambos recursos aparecen como fuertes potenciales para ayudar a obtener conceptos o términos relacionados entre sí. Estos permiten obtener sinónimos y otros términos adicionales relacionados con las palabras buscadas. Estos recursos se implementan a través de las aplicaciones MetaMap Lite y MeSHonDemand, de acceso gratuito y puestas a disposición por la NLM. Ambas aplicaciones pueden utilizarse en línea y no requieren ninguna instalación local. La consulta combinada da lugar a una consulta ponderada (Weighted Query, WQ) en la que cada una de las partes (constituyentes) asume un peso igual. Un constituyente se compone de los términos del campo respectivo seleccionados de la Consulta Original con los términos adicionales o sinónimos obtenidos por una ontología. Una vez formulada la Consulta Ponderada, los procedimientos para construir la Consulta Ponderada Expandida (Expanded Weighted Query, EWQ) son similares a los de la primera técnica. Es decir, se ejecuta la Consulta Ponderada y se extraen los primeros documentos recuperados; en este caso, los primeros 5, 10, 20, 40, 80 y 120 documentos. Así, se crean 6 bases de entrenamiento para la extracción de nuevos términos y la consiguiente ampliación de las consultas. Los conjuntos de entrenamiento son preprocesados (mediante eliminación de stopwords, tokenización, stemming, conversión de mayúsculas y minúsculas y ponderación) y sus atributos filtrados aplicando el evaluador de ganancia de información (Gain Ratio). Para construir la Consulta Ponderada Expandida (EWQ), se aplica el algoritmo MNB y se seleccionan nuevos términos según las condiciones definidas en la aplicación de la primera propuesta. Es decir, los términos se seleccionan por la condición P(wi|Ci) > 0, donde wi son las palabras y Ci la clase i. Obsérvese que la expansión de la WQ da lugar a 6 EWQ, dependiendo de cada base de entrenamiento. Una vez realizadas las pruebas, y según las pruebas estadísticas realizadas, se confirma la diferencia significativa entre los valores obtenidos por EQ utilizando MetaMap en compara-ción con los obtenidos por TREC. Se observa que los resultados de la Consulta Expandida mediante el enriquecimiento con el recurso MetaMap mejoran significativamente (para un nivel del 95%), en términos medios, el valor del MAP alrededor del 44,2% en relación a los participantes del TREC 2004 Precision Medicine Track. La aplicación de esta técnica también hace visible que, en promedio, el valor de la medida MAP tiende a ser mayor cuando se enriquece con el recurso MetaMap. Además, el valor más alto se alcanza cuando la Consulta Expandida se realiza a partir de los primeros 40 documentos recuperados por la Consulta Combinada. PROPUESTA 3: Un método de expansion de consultas basado en la técnica LDA (Latent Dirichlet Allocation). En la tercera propuesta destaca el uso de temas o materias extraídas de los documentos mediante la técnica LDA (Latent Dirichlet Allocation). La Consulta Combinada se formula conjugando la Consulta Combinada, obtenida en la segunda propuesta (Enriquecimiento de la Consulta con ontologías), con los temas extraídos de los documentos mediante la técnica LDA. LDA es un modelo estadístico en el que se asume que cada documento es una mezcla de un pequeño número de temas y éstos, a su vez, están constituidos por un conjunto de palabras. LDA permite obtener los tópicos (materias o temas) presentes en un conjunto de documentos, así como los términos que constituyen cada uno de ellos. Como salida, el algoritmo LDA muestra la proporción de cada tema asociada a cada documento. Para construir las consultas, la selección de temas y términos se realiza según la medida estadística del percentil. El percentil es una medida que divide las muestras en (aproxi-madamente) 100 partes iguales, con los datos clasificados en orden ascendente. El percentil k −th, Pk, es el valor de la muestra correspondiente a la frecuencia acumulada de N.k/100, donde N es el tamaño de la muestra. La selección de temas y palabras asociadas se basa en los percentiles P80,P85,P90,P95,P98 y P99. Es decir, se seleccionan los temas y palabras que acumulan al menos el 80%, 85%, 90%, 95%, 98% y 99% de la frecuencia de temas o palabras, según el caso. Después de seleccionar los temas y los términos, se reformula la consulta combinada, dando lugar a una consulta ponderada (Weighted Query, WQ). Esta WQ se formula mediante la mezcla de la consulta combinada con las nuevas palabras relacionadas con los términos de los temas seleccionados, en función de cada combinación de percentiles para temas y palabras. Es decir, para cada par (Pt ,Pw), donde Pt y Pw son los percentiles de tema y palabra asociados, respectivamente, se construye una Consulta Ponderada, donde cada uno de los constituyentes tiene un mismo peso asignado. Finalmente, la WQ que obtiene el mejor resultado en términos de la medida MAP se expande para obtener la EWQ, aplicando los procedimientos de la segunda técnica propuesta. Así, se ejecuta la Consulta Ponderada considerada, obteniendo los primeros 5, 10, 20, 40, 80 y 120 documentos recuperados, sobre los que se aplican las mismas técnicas de preprocesamiento y selección de atributos empleados en las propuestas anteriores. Es decir, los documentos recuperados por WQ son preprocesados con eliminación de stopwords, tokenización, stemming, conversión a minúsculas, ponderación TF-IDF y selección de atributos según el filtro Gain Ratio ranker. Al final, se ejecuta el algoritmo MNB para extraer nuevos términos, según las mismas condiciones definidas en las técnicas anteriores. Es decir, se seleccionan los términos que satisfacen la condición P(wi|Ci) > 0, donde wi son las palabras y Ci la clase i. La Consulta Ponderada Expandida resulta de la Consulta Ponderada conjugada con estos nuevos términos. En la tesis se presenta un estudio extenso aplicando diferentes pesos para el constituyente asociado a los términos LDA. En concreto, se realizan pruebas con valores porcentuales de 10, 20, 25, 30, 33, 35, 40, 45, 50, 55, 75 y 90 para inferir el peso ideal a asignar. En cuanto a los resultados de las pruebas de esta tercera propuesta, la expansión de consultas basada en LDA para TREC 2004 a un nivel de significación del 95%, obtiene una medida de MAP superior a la de los participantes del TREC 2004 Precision Medicine Track. Se observa que la Consulta Expandida Ponderada mejora alrededor de un 38,2%, comparándola con las ejecuciones de los participantes del TREC 2004 Precision Medicine Track. En términos medios, los mejores resultados del MAP tienden a obtenerse cuando se asume el percentil 90 para el tema y el percentil 98 para la palabra, con un peso del 30% del constituyente de la consulta asociado al LDA. De los resultados del estudio se concluye que cuanto mayor sea el valor del percentil para el tema y las palabras, menor será el número de temas y palabras que se consideren para expandir la consulta. Así, la técnica presentada revela que la expansión de la consulta mejora significativamente con un número adecuado de temas y términos. Además, a pesar de ser una medida estadística, se observa que el percentil es adecuado para su selección. Además, como en el caso de la segunda técnica propuesta, se tiende a obtener los mejores resultados cuando la selección de nuevos términos, para la expansión de la consulta, se realiza mediante los primeros 40 documentos recuperados por la Consulta Combinada. CONCLUSIONES GENERALES Una vez desarrolladas y analizadas experimentalmente las tres técnicas propuestas, se extraen las siguientes conclusiones. Por un lado, se observa que los sistemas de expansión de consultas donde se aplica retroalimentación de pseudo-relevancia mediante el algoritmo MNB (primera propuesta) o en lo que se incluyen temas relacionados con los documentos (tercera propuesta) dan lugar a mejores resultados. Esto sucede incluso en situaciones donde el número de consultas ejecutadas es diferente (29 en el caso de TREC 2017 y 50 en el caso de TREC 2004). El algoritmo MNB demuestra ser versátil, eficiente y tiene un rendimiento rápido, incluso con grandes cantidades de datos. Por el contrario, la aplicación de la técnica propuesta para la retroalimentación de pseudo-relevancia con enriquecimiento previo de la consulta con ontologías (segunda propuesta), a pesar de apreciarse una mejora en el número de documentos relevantes entre los primeros recuperados, tendría que mejorarse. Una posibilidad podría ser recurrir a otras ontologías, como WordNet. Para mejorar el rendimiento de las tres técnicas propuestas, contribuyen mucho las tareas de preprocesamiento, eliminación de stopwords, stemming, tokenización, conversión de mayúsculas y minúsculas, ponderación TF-IDF y selección de atributos. El preprocesamiento resulta esencial en el proceso de minería de datos textuales. Con la transformación de los documentos en términos, con su respectivo peso, los términos menos significativos o con alta frecuencia acaban siendo descartados. Además, con la inclusión de la lista de stopwords se eliminan los términos más comunes. De este modo, se reduce el número de términos de cada documento. Con la selección de atributos, el conjunto de éstos se reduce a los atributos esenciales y más relevantes, para cada clase o categoría de documentos. Así, con la reducción de la dimensión de los datos, los algoritmos se realizan de forma más eficiente y en tiempo real. Además, la técnica TF-IDF para la ponderación de los términos sigue siendo robusta para la representación de los documentos y su consiguiente clasificación mediante el algoritmo MNB. Por otro lado, es importante destacar las herramientas y técnicas utilizadas a lo largo de este trabajo. En primer lugar, se utilizan tecnologías como Weka para el preprocesamiento de datos (stemming, eliminación de stopwords, tokenización, conversión a minúsculas y ponderación), la selección de atributos y la ejecución del algoritmo Multinomial Naive Bayes. Weka es un programa de acceso libre, con una interfaz gráfica, muy útil y práctico para cuestiones de preprocesamiento de documentos, incluyendo la selección de atributos y la clasificación de documentos. Esto ocurre incluso en presencia de grandes cantidades de datos, como es el caso de los conjuntos de datos en estudio. Para ejecutar el algoritmo LDA (es decir, la extracción de temas relacionados con los conjuntos de documentos) se utiliza el programa Knime. Con la ejecución de Topic Extractor (Node), que implementa el algoritmo LDA, es posible analizar diferentes resultados en función de la selección del número de temas, palabras y otros parámetros. LDA también incluye nodos para las tareas de preprocesamiento (stemming, eliminación de stopwords, tokenización, convertidor de minúsculas y ponderación TF-IDF) y selección de atributos. Además, la extracción de temas en Knime es una tarea perfectamente factible, en tiempo real, incluso con grandes cantidades de datos. Respecto a la indexación de documentos, se implementa a través del Lemur Toolkit, que incorpora el lenguaje de consulta llamado Indri. Este es también el lenguaje elegido para la elaboración y ejecución de las consultas. Para evaluar los resultados de las consultas se utiliza la herramienta trec_eval. Acepta como parámetros de entrada los resultados de la ejecución de las respectivas consultas. Esto permite obtener las medidas de rendimiento como MAP, P@5, P@10, P@15, R-prec, entre otras. Las aplicaciones MetaMap Lite y MeSHonDemand, disponibles gratuitamente, permiten buscar nuevos términos asociados a otros. Estas aplicaciones muestran, en tiempo real, términos adicionales y sinónimos, sin requerir ningún conocimiento específico por parte del usuario. TRABAJO FUTURO Para futuros trabajos, existe la posibilidad de estudiar una combinación entre las técnicas aquí presentadas. Por ejemplo, ampliar una consulta de una determinada técnica a través de documentos recuperados por otra. En concreto, PRF se realiza mediante el algoritmo MNB, pero se pueden abordar otras técnicas, como los algoritmos basados en reglas, los árboles de decisión o el clustering. Además, se pueden probar otras técnicas de preprocesamiento; en particular, la selección de atributos basada en los otros filtros para reducir el tamaño de los datos. En este caso, ya han permitido obtener buenos resultados. Por otro lado, en este trabajo se demuestra que no es necesario siempre utilizar todos los campos presentes en una Consulta Original. Es decir, la Consulta Combinada puede ser formulada sólo para algunos de sus campos. En un trabajo futuro, queda la posibilidad de estudiar combinaciones de estos campos, de modo que la Consulta Combinada puede estar formada por su combinación de términos. La asignación de diferentes pesos a cada uno de los componentes asociados a la Consulta Original en la Consulta Combinada es otra posibilidad. La extracción de diferentes temas y palabras mediante el algoritmo LDA podría también ampliarse. Es decir, extraer distintos números de temas y distintas técnicas de selección de los mismos y sus palabras para la expansión de la consulta. Asignar un peso en torno al 30% (aproximadamente, del peso total de todos los constituyentes de la consulta) al constituyente LDA asociado presenta los mejores resultados. Por lo tanto, para el futuro, queda abierta la posibilidad de estudiar técnicas de expansión de consultas con reponderación. En cuanto a la selección de temas y términos asociados, cabe destacar una selección basada en los percentiles más altos (90 − th, 95 − th, 98 − th). La extracción de 100 temas es suficiente para los estudios de caso, pero podría analizarse otro número de temas (50, 200, 500, ...). También hay que señalar que, en el futuro, queda abierta la mejora de la inclusión de nuevos términos como los existentes en la consulta inicial. El enriquecimiento con ontologías, es decir, términos que incluso pueden tener el mismo significado que los términos de la consulta original, no siempre mejora el rendimiento de los resultados iniciales obtenidos por la consulta inicial. Otros recursos, nuevas combinaciones de consultas o incluso la reponderación de las mismas, podrían ser algunas de las alternativas. En general, las técnicas presentadas son prácticas y prometen ser eficaces. No es nece-saria la intervención del usuario para decidir qué documentos recuperados son relevantes o irrelevantes, y no requieren conocimientos sobre el contexto del documento. Además, las téc-nicas propuestas hacen uso del contenido total del documento y no se limitan a documentos de mayor o menor tamaño ni a ningún tipo de formato. Este trabajo puede complementarse en el futuro con nuevos conjuntos de datos que incorporen documentos de cualquier área científica y no específicamente biomédica. La Text REtrieval Conference dispone de una amplia gama de documentos, en diferentes versiones, con juicios de relevancia. Estos pueden ser utilizados para el entrenamiento, prueba y validación de las técnicas de expansión de consultas.