Sensitivity of phylogenomic inference to the design of NGS target enrichment in non-model organisms

Escalona Fermín, Merly Mayela

Sensitivity of phylogenomic inference to the design of NGS target enrichment in non-model organisms

Escalona Fermín, Merly Mayela

Dirixida por:

Sara Rocha Director
David Posada González Director

Universidade de defensa: Universidade de Vigo

Fecha de defensa: 04 de maio de 2018

Tribunal:

Julio A. Rozas Liras Presidente/a
Iria Fernandez Silva Secretaria
Cristina Isabel Pokorny Montero Vogal

Departamento:

Bioquímica, xenética e inmunoloxía

Tipo: Tese

Teseo: 536974 DIALNET Investigo editor

Resumo

1. Introducción La filogenética es la rama de la ciencia que estudia las relaciones evolutivas entre individuos o grupos de organismos (filogenias), además de proveer de medios (métodos filogenéticos) para estimarlas. Los métodos de reconstrucción filogenética nos permiten formular hipótesis sobre estas relaciones en forma de árboles filogenéticos. El uso de la información filogenética se ha extendido en Biología, pero también en campos múltiples y tan diversos como el lenguaje, la conservación y la medicina, entre otros. La filogenómica es un término amplio que puede ser visto como la intersección entre la evolución y la genómica. Ésta comprende varias áreas de investigación entre la biología molecular y la evolución, permitiendo el uso de datos genómicos para inferir relaciones filogenéticas y ganar información sobre los mecanismos de evolución y función de los genomas. En consecuencia, la filogenómica (y con ella, las filogenias) permiten colocar en perspectiva los estudios de genómica comparativa, enriqueciendo nuestro conocimiento sobre cómo evolucionan los genes, los genomas, las especies y las secuencias moleculares, además de ayudar a predecir cómo éstas podrían cambiar en el futuro. Los árboles filogenéticos tienen muchas aplicaciones a diferentes campos: la clasificación de organismos y el conocimiento de sus relaciones evolutivas; en la medicina forense, la evaluación de pruebas de ADN presentadas en casos judiciales; en la identificación de patógenos, donde las tecnologías de secuenciación molecular y los enfoques filogenéticos se utilizan con frecuencia para identificar los brotes de nuevos patógenos, su relación con otras especies, y, posteriormente, la posible fuente de transmisión, aportan información importante en políticas de salud pública. Por otro lado, los árboles filogenéticos nos proporcionan el marco adecuado para comparar caracteres biológicos entre distintas especies (i.e., el método comparativo), así como para la estima de parámetros evolutivos y demográficos de poblaciones y especies a distintos niveles (ver estudios filodinámicos, la teoría de la coalescencia, o estimas de diversificación y divergencia, entre muchos otras aplicaciones). Los árboles de genes (“gen” entendido como región del genoma) reflejan el proceso de replicación de ADN a nivel local, una copia de un gen en un locus del genoma; por ejemplo, un gen que codifica una proteína, se replica, generando nuevas ramificaciones en el ára ́rbol de genes, y su copias pasan de padres a hijos. Los árboles de especies, por su parte, representan la historia evolutiva de los organismos. Estos están compuestos por nodos que representan los eventos de especiación y sus ramas, que reflejan la historia de la población entre los eventos de especiación. Las ramas del árbol de especies pueden tener asociadas un ancho, que representa el tamaño efectivo de la población y la longitud, que representa el tiempo, bien sea en años o generaciones. Es importante destacar que la historia de una región genómica no es necesariamente equivalente a la historia de las especies que la contienen, es decir, los árboles de genes no son necesariamente equivalentes a los árboles de especies.. Esta noción no es nueva, ya que la percepción de la discordancia entre árboles de genes y árboles de especies data de los 80. Sin embargo, quizás por ignorancia sobre la importancia de esta discordancia a nivel genómico, pero también por conveniencia, los árboles de genes eran considerados hasta hace muy poco aproximaciones fiables a las filogenias de especies. La discordancia entre árboles de genes y árboles de especies puede ser causada por errores sistemáticos (especificación incorrecta de los modelos) o estocásticos (inherentes a la cantidad finita de datos y el proceso de muestreo), pero también pueden ser el resultado de diferentes procesos evolutivos como la ordenación incompleta de linajes, la duplicación y pérdida de genes, y la transferencia horizontal de genes. Esto ha motivado el desarrollo de enfoques filogenéticos que tienen en cuenta la heterogeneidad de árboles de genes en la estima de árboles de especies. En lugar de equiparar árboles de genes con la historia filogenética de la especie, los nuevos enfoques consideran explícitamente las relaciones entre los árboles de genes y la historia subyacente de divergencia de las especies, proporcionando estimas directas de los árboles de especies. Un organismo modelo es aquel que usamos para estudiar fenómenos biológicos particulares, incluyendo la representación de grupos determinados de taxones. Los organismo modelo son habitualmente más simples, pequeños y manejables que aquellos organismos a los que representan. Su estudio habitualmente proporciona ventajas experimentales porque algunos de ellos pueden criarse en grandes cantidades y/o tienen tiempos de generación muy cortos, mientras que otros tienen genes similares a los de los humanos, por ejemplo para biomedicina. Todas estas características han hecho que los organismos modelo se conviertan en herramientas irremplazables en la investigación biológica y clínica. Debido a su conveniencia, la comunidad científica se se ha centrado en masa a estudiarlos, y esto ha llevado a un mayor desarrollo y optimización de recursos, protocolos, métodos, tuberías de análisis bioinformáticos y herramientas para el tratamiento de los datos obtenidos. Además, muchos de sus genomas ya han sido secuenciados completamente y bien caracterizados. Por el contrario, los organismos no modelo son los que no han sido seleccionados por la comunidad científica para un estudio extensivo, bien por razones históricas o porque carecen de las características que hacen a los organismos modelos fáciles de investigar. La mayoría de ellos no pueden ser criados (o cultivados) aisladamente en laboratorio o simplemente no están bien caracterizados a nivel molecular, por lo que se requieren grandes esfuerzos para poder trabajar con ellos. Si bien es cierto que los organismos modelos están extensamente estudiados y son representaciones simples de otros organismos más grandes y complejos, esto no implica que los organismos no modelos no sean importantes o que hayan quedado en el olvido. En general, los grandes proyectos de secuenciación de genomas han sido impulsados por su relevancia cara al hombre, de ahí el genoma humano; por su interés económico, importantes cultivos como el maíz o el arroz; para estudiar enfermedades, como los genomas de las células cancerígenas; para la reconstrucción del Árbol de la Vida; o simplemente por cuestiones relacionadas con su tamaño y/o reproducibilidad. La secuenciación de ADN es la base de cualquier estudio genómico. El método convencional de secuenciación de Sanger dominó la industria durante aproximadamente dos décadas, dando lugar a muchos logros, entre ellos la finalización de la primera secuencia completa del genoma humano. La secuenciación con el método de Sanger también ayudó a mejorar el conocimiento sobre los ácidos nucleicos, y en consecuencia mejorar la comprensión de mecanismos celulares y enfermedades. Sin embargo, este tipo de secuenciación tiene ciertas limitaciones en cuanto a la cantidad de datos que puede generar, el largo tiempo de adquisición de datos, la calidad de la secuencias y lo laborioso y costoso de su protocolo. En los últimos años, las técnicas de secuenciación masiva (en inglés denominadas “next-generation sequencing”, NGS) han revolucionado este campo proporcionando la secuenciación a gran escala de ADN (y ARN) a costos más bajos y sin la necesidad de grandes instalaciones. Las técnicas de NGS han permitido la generación de secuencias de datos de múltiples loci de forma rápida y rentable, además de la explosión de estudios filogenómicos. Actualmente las tecnologías más populares de NGS en el mercado son la secuenciación por síntesis de Illumina (probablemente la más utilizada); la pirosecuenciación de la plataforma 454 de Roche; la secuenciación por ligación de SOLiD; la secuenciación por semiconductores de IonTorrent; la secuenciación de moléculas individuales en tiempo real de Pacific Biosciences (PacBio) y la tecnología de secuenciación de células individuales de Oxford Nanopore. Las plataformas difieren, en términos general, en el tipo de lecturas que producen y en los errores que introducen. Es evidente que las tecnologías de secuenciación masiva han cambiado la escala en la que se obtienen los datos de secuenciación genómica. Sin embargo, la secuenciación de novo de genomas enteros para muchos organismos, especialmente para los organismos no modelo, sigue siendo difícil y costosa, e innecesaria para muchas de las preguntas. Con el fin de obtener información genómica para organismos no modelo que sea significativa para la inferencia evolutiva a distintos niveles (poblaciones, especies, géneros, etc), necesitamos identificar regiones comunes (homólogas) entre los individuos/especies estudiadas. La última década ha dado lugar al desarrollo de numerosas técnicas que permiten solventar este problema, los llamados métodos de reducción o captura genómica. Estos métodos reducen dramáticamente el espacio de secuenciación del genoma enfocándose en regiones específicas. De hecho, estos métodos preceden el desarrollo de las tecnologías NGS, y han sido usados ampliamente durante años, pero en conjunto con NGS nos permiten obtener un gran número de loci homólogos procedentes de múltiples individuos de múltiples especies. Estos métodos incluyen la captura genómica de regiones específicas (target enrichment), como captura de exones, de zonas ancladas a genes y mismo anonimas (anchored and anonymous enrichment), la captura de elementos ultraconservados; la secuenciación de transcriptomas o la secuenciación de ADN asociado a sitios de restricción (RAD-seq). Las tecnologías NGS están en un proceso de mejora constante en términos de eficiencia, calidad, cantidad y coste de la producción de datos, al igual que los algoritmos y las herramientas bioinformáticas que se han desarrollado para analizarlos. El análisis de datos de NGS para filogenómica consiste en muchos pasos, que podrían incluir ensamblaje, mapeamiento, inferencia de homólogos/ortólogos, estimación/inferencia de variantes y genotipos, y/o la inferencia de árboles de genes y/o de especies. Además, existe una cantidad exorbitante de herramientas con aún más parámetros que deben ser optimizados para cada paso del análisis y, en la mayoría de las veces, para cada conjunto de datos. Y estas decisiones influencian al conjunto de datos resultante. Por lo tanto, el flujo de trabajo a seguir para el análisis de datos filogenómicos de NGS es complejo y requiere de múltiples decisiones metodológicas e interacción humana. Es importante destacar que no hay una aproximación estándar para este tipo de análisis, y la influencia de las distintas estrategias y opciones en el nivel de precisión de los resultados es desconocida. Asimismo, los enfoques de análisis filogenómicos evolucionan según lo hacen las tecnologías, pero muchos de los enfoques son ad hoc, es decir, específicos a las características de los datos y los tipos de preguntas que se realizan sobre ellos. El objetivo principal de un estudio filogenómico es habitualmente conocer las historias de las especies, pero la “verdad” es desconocida cuando se trata con datos empíricos. Esto hace muy difícil, o incluso imposible, decidir entre protocolos, y por esto las simulaciones computacionales se han convertido en herramientas muy útiles en este campo. Las simulaciones nos permiten evaluar el comportamiento de un sistema (existente o propuesto, físico o abstracto) bajo distintas configuraciones de interés y durante largos períodos de tiempo. Esto implica ciertos tipos de modelos lógicos y matemáticos para describir el comportamiento del sistema. El modelo es similar al sistema que representa, pero más simple, y es evidente, que un buen modelo debe ser un balance entre realismo y simplicidad, dado que a mayor complejidad del modelo más difícil es de evaluarlo y entenderlo. Las simulaciones son de bajo costo, por lo general rápidas, y nos permiten modelar la realidad generando tantos datos como sean necesarios, bajo condiciones idílicas (escenarios controlados con parámetros predefinidos cuyos valores reales son conocidos). Los enfoques in silico ayudan a la identificación de problemas, cuellos de botella y fallos de diseño en la construcción o modificación de sistemas. Éstos tienen, por supuesto, sus limitaciones: hacen asunciones sobre los procesos que pueden no ser realistas, traduciéndose en que el modelo puede llegar a ser una descripción inadecuada del sistema original. 2. Motivación y objetivos Este tesis está motivada por el interés general en obtener árboles de especies lo más precisos posibles, a partir de datos NGS. Como se acaba de explicar, el camino desde el diseño de un experimento NGS hasta la estima filogenómica del árbol de especies es largo, complejo, e implica múltiples decisiones metodológicas. Hasta ahora, los estudios sobre la precisión de la reconstrucción de los árboles de especies se ha preocupado fundamentalmente de variaciones del tamaño de los alineamientos múltiples de secuencias (e.g. número de loci, número de individuos por especies, datos ausentes, etc.) o del efecto de la historia de las especies (e.g. tamaño efectivo poblacional, tasa de substitución, polimorfismos ancestrales, etc.), pero siempre a partir de los alineamientos, En esta tesis se pretende rellenar este hueco e intentar entender el efecto de las decisiones anteriores necesarias para llegar al alineamiento, en el contexto actual de secuenciación masiva. Dicho de otro modo, el propósito principal de esta tesis es poder entender el impacto de las diferentes variables existentes en la tubería de reconstrucción de árboles de especies a partir de datos NGS de captura genómica. Para ello, he identificado los siguientes objetivos específicos: 1. Proporcionar una mejor comprensión de la gran variedad de simuladores NGS existentes, así como directrices generales para la selección de simuladores para fines específicos. Este objetivo ha sido abordado en el Capítulo 2: Simulation of genomic next-generation sequencing data. Publicado como Escalona et al. 2016. 2. Diseñar e implementar una herramienta realista para la simulación de datos filogenómicos de NGS. Abordado en el Capítulo 3: NGSphy: phylogenomic simulation of next-generation sequencing data. Publicado como Escalona et al. 2017. 3. Identificar un espacio de parámetros realista para la simulación de datos NGS de captura genómica. Abordado en el Capítulo 4: Optimization of parameters for the simulation of targeted sequencing data of shallow phylogenetics. 4. Evaluar la sensibilidad de la inferencia filogenómica a variaciones de los parámetros de las tuberías filogenómicas de NGS. Abordado en el Capítulo 5: Sensitivity of phylogenomic inference to the design of target enrichment NGS experiments in non-model organisms. 3. Metodología Para poder realizar esta tesis he tenido que familiarizarme con las técnicas de secuenciación NGS, con el análisis bioinformático de datos NGS y con los métodos de reconstrucción filogenómica. Así mismo, he estudiado con detenimiento los diferentes pasos y decisiones que implican las distintas tuberías existentes para el análisis filogenómico de datos NGS. Tras esta familiarización inicial, me centré en las simulaciones de datos NGS. Para esto tuve que realizar un estudio de las diferentes herramientas, sus características y funcionalidades, que me llevó a seleccionar ART para las simulaciones posteriores. ART es una herramienta que genera datos NGS imitando el proceso de secuenciación real con modelos de error empíricos. Elegí esta herramienta porque se adecuaba a la generación de datos Illumina, era la mejor documentada, la mejor mantenida y la más rápida. A continuación, dirigí mis esfuerzos en generar datos NGS a partir de secuencias genómicas de múltiples loci de especies cercanas. Para esto existía una herramienta, TreeToReads, que aunque es útil para generar datos NGS de un único árbol de genes, no satisfacía las necesidades de mis simulaciones, puesto que no permite directamente generar datos de distribuciones de árboles de genes, ni usar individuos diploides, además de no considerar la heterogeneidad de la profundidad de secuenciación entre especies, individuos y loci. Esto me llevó a diseñar e implementar un nuevo simulador NGS filogenómico, al que llamé NGSphy. NGSphy es una herramienta escrita en Python y de código abierto, para la simulación de datos de Illumina o contaje de lecturas (read counts) que se obtienen de genomas de individuos haploides/diploides con miles de familias génicas independientes que han evolucionado bajo un árbol de especies común. Para poder imitar experimentos reales de NGS, permite modelar la heterogeneidad de la profundidad de secuenciación entre especies, individuos y loci, incluyendo loci que no han sido elegidos como blanco o los que no han sido capturados. Una vez identificado cómo generar los datos NGS, era necesario diseñar simulaciones que representasen escenarios biológicos realistas. Para ello decidí seleccionar parámetros NGS habituales en los experimentos de captura genómica: filogenias recientes con individuos muy relacionados. Dado el debate actual sobre sobre los méritos de las diferentes estrategias de captura genómica a diferentes escalas de tiempo, el rango de tiempo elegido para las simulaciones abarca una amplia divergencia, desde 200.000 a 20 Millones de años, es decir, desde el Holocénico hasta el temprano Miocénico. Este rango de tiempo debería comprender la mayoría de los casos donde la ordenación incompleta de linajes puede afectar el proceso de reconstrucción de los árboles de especies y de donde los investigadores estarían mas interesados en recopilar datos para una gran cantidad de loci. Posteriormente, implementé una tubería de análisis de datos NGS para la reconstrucción de árboles de especies, para poder realizar el estudio de la sensibilidad de la inferencia de árboles de especies a la variación de distintos parámetros NGS. Esta tubería, en conjunto con NGSphy, me permitió realizar simulaciones de datos NGS a partir de alineamientos de secuencias de ADN siguiendo modelos evolutivos y árboles de especies conocidos, conjuntos de datos que analicé como si se tratasen de datos reales obtenidos en un experimento de secuenciación y, que posteriormente procesé y analicé con una combinación única de metodologías con la mayoría de ellas parametrizadas por defecto, hasta reconstruir su historia evolutiva. Por último, realicé la comparación de los árboles de especies “verdaderos” (=simuladas) con los estimadas, para inferir la influencia de la variación de métodos y parámetros del procesamiento y el análisis de los datos en la capacidad de inferir la solución correcta. 4. Resultados El estudio de las distintas herramientas para la simulación de datos de secuenciación masiva (conocidas en inglés como next-generation sequencing - NGS), resultó en una revisión de 23 de las herramientas de simulación NGS, resaltando sus funcionalidades, requisitos y aplicaciones potenciales. Además, en esta revisión, proporciono un árbol de decisión para la selección informada de la herramienta de simulación NGS más apropiada según la pregunta propuesta (presentado en el Capítulo 2, publicado como Escalona et al. 2016. Cómo ninguna de las herramientas satisfacía nuestras necesidades, para poder evaluar el efecto de las diferentes decisiones metodológicas a lo largo del proceso de producción y análisis de datos NGS, respecto a la calidad de la inferencia filogenómica, desarrollé NGSphy (presentado en el Capítulo 3, publicado como Escalona et al. 2017), una herramienta de código abierto para la simulación de datos de Illumina o contaje de lecturas (“read counts”) obtenidos de genomas de individuos haploides/diploides con miles de familias génicas independientes que han evolucionado bajo un árbol de especies común. Los datos simulados por NGSphy, además, se acercan a los experimentos reales de NGS porque éste incluye múltiples opciones para modelar la heterogeneidad de la profundidad de secuenciación entre especies, individuos y loci, incluyendo loci que no han sido elegidos como diana o los que no han sido capturados. La simulación de escenarios complejos bajo distribuciones continuas de distintos parámetros no es una tarea fácil. Particularmente, para que estas simulaciones sean relevantes para la comunidad científica, deben reflejar escenarios lo más comunes y realistas posibles. De esta manera, en el Capítulo 4 describo el proceso de parametrización de las simulaciones de datos filogenómicos de NGS. Finalmente, para lograr el objetivo general de esta tesis, he diseñado un estudio con datos simulados en cuatro escenarios NGS diferentes, y los he procesado con una tubería de datos que incluye un conjunto reducido de tratamientos. Con este análisis he identificado que el uso de una referencia de mapeo cercana produce mejores árboles. A mayor profundidad de secuenciación mejores resultados, mientras que la variación en profundidad entre individuos y loci no parece afectar. Además, el tipo y tamaño de lectura tienen un efecto pequeño pero estadísticamente significativo y he identificado que el perfil NGS más utilizado (PE 150bp) puede no ser el óptimo para resolver problemas de reconstrucción de filogenia. En cuanto al número de especies y el número de individuos por especie, se mantiene las relaciones de otros estudios de reconstrucción de árboles donde a menor número de especies, y mayor número de individuos por especie, mejor la precisión de los métodos. Por último, la forma de los árboles de especies es una de las características más importantes que afectan la discordancia entre los árboles de genes, y por consiguiente a la precisión de la reconstrucción de árboles de especies. La precisión de la reconstrucción mejora (de manera muy significativa) a medida que la altura de los árboles y el número medio y máximo de linajes extra (medida de directa de ordenación incompleta de linajes), se reduce. 5. Conclusiones El trabajo presentado en esta tesis engloba mis esfuerzos para entender el efecto de las diferentes decisiones metodológicas que deben realizarse durante la producción y análisis de datos NGS en la calidad de las estimas filogenómicas, enfocados especialmente en experimentos de captura genómica. Esta tesis proporciona a la comunidad científica con: - Un mejor entendimiento de la variedad de simuladores genómicos de NGS, así como también una guía para saber cual sería el simulador más apropiado según la pregunta que se desee hacer (Capítulo 2: Simulation of genomic next-generation sequencing data; Escalona et al. 2016). - Un entorno de simulación más realista de datos filogenómicos de NGS, incluyendo múltiples opciones para modelar diseños experimentales y parámetros de secuenciación, haciendo posible análisis comparativos con diferentes parámetros NGS, bajo un espacio de parámetros evolutivos amplio y bajo el paradigma de árboles de genes y árboles de especies (Capítulo 3: NGSphy: phylogenomic simulation of NGS data; Escalona et al. 2017). - Una descripción detallada sobre el proceso de optimización de parámetros para la simulación de datos NGS de experimentos de capturas genómicas en especies de divergencia reciente (Capítulo 4: Optimization of parameters for the simulation of targeted sequencing data of shallow phylogenomics). - La implementación de una tubería para un estudio sobre la sensibilidad de la inferencia filogenómica al diseño de experimentos de secuenciación masiva de capturas genómicas en organismos no modelo (Capítulo 5: Sensitivity of phylogenomic inference to the design of target enrichment NGS experiments in non-model organisms). - De acuerdo con las simulaciones presentadas en esta tesis, se observa que distintas variables del análisis NGS afectan la reconstrucción de árboles de especies. La referencia de mapeo y la profundidad de secuenciación tienen un efecto fundamental, mientras que el tipo y tamaño de lectura afectan menos. En un futuro próximo espero ampliar los escenarios estudiados para proporcionar una evaluación más exhaustiva añadiendo otras variables metodológicas relevantes como el ensamblaje de novo en lugar de utilizar mapeado, la estima de variantes con diferentes algoritmos, o la consideración de la fase alélica, entre otros.