Modelo para la integración de conocimiento biológico explícito en técnicas de clasificación aplicadas a datos procedentes de microarrays de adn
- Fernando Díaz Gómez Director
- Florentino Fernández Riverola Director
Defence university: Universidade de Vigo
Fecha de defensa: 27 July 2009
- Juan Francisco Gálvez Gálvez Chair
- María Reyes Pavón Rial Secretary
- Gonzalo Gómez López Committee member
- Miguel Francisco de Almeida Pereira da Rocha Committee member
- Carmen M. Redondo Committee member
Type: Thesis
Abstract
Este trabajo presenta geneReasoner, un modelo de integración de conocimiento biológico explícito en técnicas de clasificación aplicadas a datos procedentes de microarrays de ADN. En este contexto, se ha constatado la necesidad de mejorar los resultados obtenidos en tareas de clasificación automática de muestras, de cara a una aplicación de la tecnología de microarrays en el diagnóstico clínico de enfermedades complejas como el cáncer. Dada la cantidad de conocimiento biológico disponible actualmente en distintas bases de datos públicas, surge la hipótesis de acercar e integrar conocimiento y datos experimentales de cara a una posible mejora en la precisión, robustez y coherencia de los resultados obtenidos por distintas técnicas de clasificación estándar. El modelo propuesto en la presente investigación incluye una representación formal del conocimiento biológico basada en conjuntos de genes, junto con una arquitectura que incorpora técnicas de aprendizaje automático estándar para llevar a cabo diferentes tareas. En primer lugar, el conocimiento aportado por el usuario es ampliado añadiendo un nuevo grupo de genes, derivado de la aplicación de una técnica de selección de características sobre los datos de entrenamiento. En segundo lugar, se utiliza un algoritmo genético para explorar el espacio de hipótesis en busca de lo que se denomina una interpretación adecuada para los datos, consistente en un conjunto de genes con alto poder discriminante y capacidad de explicación simple. En tercer lugar, se filtran los datos para tener en cuenta únicamente los genes implícitos a la interpretación encontrada, y se entrena un clasificador estándar dado. De forma paralela, el modelo genera una explicación para la interpretación final utilizando un lenguaje cercano al usuario. La arquitectura del sistema propuesto contempla la posibilidad de llevar a cabo una sustitución de las técnicas empleadas para realizar los procesos de selección de genes, clasificación y búsqueda, por lo que se consigue una alta flexibilidad posibilitando su configuración y adaptación a diferentes contextos. La justificación de la hipótesis defendida en este trabajo se lleva a cabo de forma experimental, empleando distintos conjuntos de datos reales accesibles a través de Internet. Los resultados obtenidos a partir de los experimentos realizados con el modelo propuesto se comparan con los generados mediante la utilización de distintas técnicas de clasificación y selección de genes, lo que permite la realización de un análisis cuantitativo y cualitativo de la eficacia del sistema desarrollado. Por último, y a la vista de los resultados obtenidos tras la experimentación realizada, se concluye que la integración de conocimiento biológico permite aumentar de forma significativa la coherencia de las técnicas estándar de selección de genes, mantener la precisión en las clasificaciones, y aumentar la robustez al combinar datos experimentales procedentes de distintos laboratorios.