Diseño e integración de pipelines automatizados que den respuestas a preguntas biológicas complejas relacionadas con secuencias de nucleótidos o aminoácidos

  1. Vázquez González, Noé
Dirixida por:
  1. Miguel Reboiro Jato Director
  2. Jorge Manuel de Sousa Basto Vieira Director

Universidade de defensa: Universidade de Vigo

Fecha de defensa: 19 de xullo de 2019

Tribunal:
  1. Fernando Díaz Gómez Presidente/a
  2. Rosalía Laza Fidalgo Secretaria
  3. Gonzalo Gómez López Vogal
Departamento:
  1. Informática

Tipo: Tese

Resumo

Los eventos demográficos y las fuerzas evolutivas que actúan en las poblaciones dejan su huella en las secuencias de ADN, que se pueden obtener para analizar individuos de la misma población, de distintas poblaciones o, incluso, de diferentes especies. Es por esto que el análisis de este tipo de secuencias puede llevar a importantes descubrimientos biológicos y avances médicos. En este contexto, los sitios de aminoácidos positivamente seleccionados (PSS, Positively Selected Site) representan posiciones de aminoácidos en un genoma que durante la evolución acumularon cambios que conllevaron una ventaja evolutiva a los individuos que los poseían, permitiéndoles una mejor adaptación a un entorno cambiante. Son, por tanto, uno de los objetivos de la selección darwiniana positiva, aquella responsable de la adaptación del individuo a su entorno. Cuando se detecta un PSS en una secuencia de aminoácidos se considera, implícitamente, que el gen asociado da lugar a la proteína vinculada al proceso de adaptación. La identificación de PSS puede hacerse mediante análisis bioinformáticos de las secuencias de genes de distintas especies. Sin embargo, el crecimiento exponencial de las bases de datos de secuencias en los últimos años hace que los investigadores se encuentren con múltiples problemas para acceder, extraer, manipular y analizar los datos disponibles en los distintos repositorios, siendo inviable su tratamiento manual. Además, los resultados tienen que estar disponibles para ser reproducibles en posteriores análisis y así poder validar los resultados en cualquier otro entorno software que utilicen los investigadores. En vista de estos antecedentes, esta tesis se centra en el desarrollo de pipelines automatizados que integren aplicaciones de uso común en bioinformática con el fin de que usuarios con bajos conocimientos en informática sean capaces de dar respuesta a preguntas biológicas complejas relacionadas con los PSS. De esta forma, un investigador en ciencias biológicas debería ser capaz de procesar y analizar toda la información disponible sobre uno o varios genes de interés, sin la necesidad del apoyo explícito de un bioinformático. Para lograr este objetivo se han desarrollado varias herramientas que se integran entre sí: - B+: una base de datos para la difusión y visualización de los resultados de análisis a gran escala con el objetivo de estudiar los cambios adaptativos en los aminoácidos en secuencias de proteínas sobre grandes conjuntos de datos sin necesidad de conocimientos informáticos - SEDA: herramienta que facilita la manipulación de conjuntos de datos, permitiendo hacer un amplio número de transformaciones mediante una interfaz gráfica. - BDBM: se utiliza para la recuperación y procesamiento de secuencias de datos de gran calidad y su aplicación a la identificación de regiones en distintos cromosomas. - EvoPPI: una base de datos de interactomas que permite la recuperación de interacciones proteína-proteína dentro de una misma especie o entre distintas especies. Estas herramientas no son independientes, sino que forman parte de un pipeline, en el cual, a partir de los ficheros en bruto de las bases de datos, se pueden extraer los transcriptomas y, a partir de estos, las secuencias codificadas. Estos, a su vez, pueden utilizarse como entradas para las aplicaciones SEDA y BDBM. Los resultados obtenidos con las herramientas BDBM y SEDA se utilizan como entrada en la aplicación ADOPS, que, tras realizar su parte del análisis, genera una serie de ficheros que pueden publicarse en B+ para su visualización y distribución. A su vez, los resultados de proyectos almacenados en B+ pueden servir como base para iniciar un análisis en EvoPPI y generar nuevos conjuntos de datos que se podrían procesar de nuevo en BDBM y SEDA.