Evaluation of phylogenomic methods for species tree estimation

Mallo Adán, Diego

Evaluation of phylogenomic methods for species tree estimation

Mallo Adán, Diego

Dirixida por:

David Posada González Director

Universidade de defensa: Universidade de Vigo

Fecha de defensa: 28 de xullo de 2017

Tribunal:

Rafael Zardoya Presidente/a
Sara Rocha Secretaria
Rute Fonseca Vogal

Departamento:

Bioquímica, xenética e inmunoloxía

Tipo: Tese

Teseo: 465960 DIALNET Investigo editor

Resumo

La biología es la ciencia encargada del estudio de los seres vivos. La definición de un ser vivo no es trivial, pero normalmente se basa en la demostración de funciones fisiológicas: homeostasis, organización, metabolismo, crecimiento, adaptación, respuesta a estímulos y reproducción. Todos los organismos vivos (e incluso algunos no vivos, como los virus) portan información codificada en ácidos nucleicos, la cual es transmitida a su descendencia de generación en generación. Este proceso no está libre de errores, y por lo tanto genera, al azar, versiones alternativas de la información original, denominadas alelos. La distribución de esos alelos en poblaciones cambia a lo largo del tiempo debido a procesos aleatorios (mutación y deriva) y sistemáticos (selección), y por lo tanto, todos los organismos vivos evolucionan. Todos los organismos vivos comparten una serie de características bioquímicas que nos permiten, basándonos en el principio de parsimonia, asumir que provienen de un ancestro común. Por lo tanto, todos los organismos vivos han evolucionado a partir de un ancestro común, y su historia evolutiva se puede trazar de manera similar a un árbol genealógico. La reconstrucción del árbol de la vida se ha convertido en uno de los principales objetivos de la biología moderna, no solo por mero afán de conocimiento, sino también por la multitud de aplicaciones prácticas que derivan de éste. Este objetivo es muy ambicioso, ya que conlleva reconstruir procesos evolutivos que sucedieron a lo largo de miles de millones de años. Los métodos necesarios para reconstruir las relaciones evolutivas entre individuos han sido desarrollados durante más de 50 años, constituyendo una nueva disciplina científica, la filogenética. La filogenética es la disciplina científica que estudia la historia evolutiva de los organismos, principalmente compuesta por sus relaciones y dinámicas evolutivas. Estos procesos no son normalmente observables a escala temporal humana, y por lo tanto han de ser estimados a partir de caracteres biológicos hereditarios. Estos caracteres son rasgos que pueden presentar distintos estados en diferentes individuos o especies y han de haber sido originados a partir de un ancestro común para ser utilizados con este fin. Los métodos de reconstrucción filogenética son los equivalentes estadísticos a máquinas del tiempo que nos permiten llevar a cabo esta tarea, y su desarrollo es un pilar fundamental de la filogenética. Estos métodos generan hipótesis de las relaciones evolutivas entre organismos, las cuales se denominan filogenias. Cuando solamente consideramos la herencia vertical (es decir, de padres a hijos) dichas filogenias son representadas mediante grafos conexos acíclicos, normalmente denominados árboles filogenéticos. Durante sus primeros años, los métodos filogenéticos fueron utilizados con caracteres morfológicos, los cuales fueron reemplazados por caracteres moleculares (es decir, secuencias biológicas como DNA, RNA y proteínas) cuando los avances tecnológicos facilitaron su adquisición de una manera barata y masiva. En los inicios de la filogenética molecular, y hasta muy recientemente, pequeñas regiones del genoma (a las cuales llamaré genes en esta tesis, independientemente de su función) fueron utilizadas para reconstruir filogenias con la intención de reconstruir la historia evolutiva de organismos (por ejemplo, el gen rDNA 16S). Sin embargo, la historia evolutiva de una porción del genoma no tiene que ser necesariamente equivalente a la historia evolutiva de las especies que la contienen, y por lo tanto, árboles de genes y de especies son diferentes desde el punto de vista teórico y práctico. La historia evolutiva de una porción del genoma se representa con un árbol de genes, cuyos nodos internos representan eventos de replicación del DNA y su posterior divergencia. La longitud de sus ramas indica la distancia evolutiva, y está normalmente medida en número estimado de mutaciones por posición del genoma (u otra secuencia molecular). Sin embargo, la historia evolutiva de un grupo de especies se representa con un árbol de especies, cuyos nodos internos representan especiaciones (es decir, formación de nuevas especies), y las ramas la historia evolutiva de las poblaciones entre especiaciones. Normalmente, su longitud indica tiempo y su anchura el tamaño efectivo de la población. La base teórica que diferencia estos dos tipos de árbol filogenético se estableció hace décadas, pero solamente se ha comenzado a tener en cuenta recientemente, cuando los avances en tecnologías de secuenciación han permitido analizar múltiples regiones del genoma, revelando grandes niveles de incongruencia entre ellas. Parte de esa incongruencia puede ser explicada por errores en la reconstrucción, pero no es necesario recurrir a ellos para explicarla. Existen al menos cinco procesos evolutivos que pueden hacer que la historia evolutiva de las especies no sea equivalente a la de los genes que éstas contienen. La ordenación incompleta de linajes, también conocida como coalescencia profunda o polimorfismo ancestral, sucede cuando dos alelos (o más) se mantienen segregando en una población a lo largo de al menos dos especiaciones y posteriormente se fijan formando una historia evolutiva distinta a la de las especies. La duplicación y pérdida de genes describe la copia de un gen en otro lugar del genoma o la pérdida del mismo. La transferencia lateral de genes corresponde con la integración en el genoma de un gen proveniente de otra especie sin que esta sea mediada por el sexo. La especiación híbrida identifica la formación de una nueva especie a partir de la reproducción de dos individuos de distintas especies. Finalmente, el flujo genético consiste en el cruzamiento de individuos de distintas especies. La creciente disponibilidad de datos genómicos, combinada con el interés por la reconstrucción de árboles de especies, han generado en la última década un crecimiento exponencial en el desarrollo de estrategias para reconstruir árboles de especies. Este boom metodológico ha generado una gran variedad heterogénea de métodos, los cuales consideran distintos subconjuntos de los procesos evolutivos anteriormente nombrados, usando distintos modelos y asunciones. Si los clasificamos atendiendo a los datos de entrada, existen tres estrategias principales, concatenación (supergen), superárbol y datos completos. La estrategia de concatenación, también conocida como supermatriz o supergen concatena los datos de los distintos genes en un solo supergen, el cual es utilizado para reconstruir un árbol de genes que es usado como una aproximación del árbol de especies. Esta estrategia solo es compatible con datos que provienen de genes ortólogos, y asume que todos los genes comparten la misma historia o que las diferentes historias se cancelan para dar lugar a la historia de las especies. La segunda estrategia, superárbol, utiliza como datos de entrada árboles de genes estimados independientemente, los cuales son utilizados para estimar el árbol de especies. Esta es la estrategia con un mayor desarrollo, y comprende métodos que intentan reducir la discrepancia entre árboles de genes y aquellos que modelan distintas combinaciones de los procesos evolutivos que separan la historia evolutiva de genes y especies. Finalmente, la última estrategia está formada por métodos que analizan directamente los alineamientos para estimar el árbol de especies. Esta gran variedad de métodos de reconstrucción de árboles de especies complica la elección del más adecuado para resolver un problema concreto, no sólo por su número sino principalmente por su heterogeneidad. Sin embargo, conocer en qué condiciones cada método funciona mejor solucionaría parcialmente este problema, facilitando el llevar a cabo la elección de manera objetiva. La técnica más adecuada para la estimación de la exactitud relativa de distintos métodos es la simulación filogenética. Esta técnica se basa en la utilización de un modelo evolutivo para generar alineamientos de secuencias moleculares con una filogenia conocida. Estas secuencias son posteriormente usadas como si de secuencias reales se tratasen, y se reconstruye su historia evolutiva. Finalmente, la comparación de la filogenia real y la estimada nos permite estimar la exactitud del método utilizado. Para que esta comparativa sea fiable, los modelos evolutivos simulados, los cuales explican un proceso de manera simplificada manteniendo sus características de interés, han de comprender al menos los procesos evolutivos que son tenidos en cuenta por los métodos a estudiar. Sin embargo, la adición de procesos evolutivos no modelados nos permite conocer la robustez de los métodos ante la presencia de dichos procesos. La falta de conocimiento de la precisión relativa de la mayoría de los métodos de reconstrucción filogenética, la cual se debe fundamentalmente a la falta de las herramientas de simulación adecuadas para llevarla a cabo, constituye el pilar central sobre el que gira esta tesis. Simulación filogenética de familias génicas Con el objetivo de solucionar esta carencia metodológica, en el capítulo 1 describo el desarrollo del simulador de familias génicas más completo publicado hasta la fecha, SimPhy. Este programa genera familias génicas que han evolucionado bajo los efectos de tres procesos evolutivos que separan las historias de genes y especies: ordenación incompleta de linajes, duplicación y pérdida de genes, y transferencia lateral de genes. Estos procesos evolutivos destacan entre los demás por su ubicuidad y por ser los que más se han implementado en métodos de árboles de especies. Además, SimPhy también incorpora conversión genética y modelos complejos de heterogeneidad en la velocidad de substitución (es decir, tasa evolutiva). Este último destaca por añadir mayor realismo a los conjuntos de datos simulados. SimPhy incorpora un modelo jerárquico en el que árboles de genes evolucionan dentro de árboles de loci, los cuales, a su vez, evolucionan dentro de árboles de especies. El árbol de locus es un nuevo concepto que surge cuando consideramos la evolución de loci en poblaciones, y es necesario para simular de manera detallada la ordenación incompleta de linajes combinada con eventos que modifican el genoma de manera topológica. Este árbol representa la historia de una muestra de loci en una familia génica, sus nodos representan especiaciones o eventos que modifican dichos loci (duplicaciones, pérdidas, transferencias y conversiones) y sus ramas representan la historia de las poblaciones entre dichos eventos de manera equivalente al árbol de especies. Además de por su innovador modelo, SimPhy destaca porque los parámetros que controlan la simulación pueden ser fijados o muestreados a partir de distribuciones estadísticas. Esta segunda opción permite simular condiciones muestreadas a partir de un espacio paramétrico continuo, el cual, si ha sido seleccionado cuidadosamente, puede representar una gran variedad de escenarios filogenéticos realistas. SimPhy no solo simula familias génicas, sino que, mediante un programa contenedor que utiliza el programa INDELIBLE, puede simular alineamientos de nucleótidos, codones y aminoácidos siguiendo cualquier modelo de substitución. Además, SimPhy es extremadamente rápido y escalable incluso con modelos complejos, siendo un orden de magnitud más rápido que su competidor más cercano (DLCoal-Sim). SimPhy es compatible con macOS, Unix y Windows 10 Pro, está disponible en https://github.com/adamallo/SimPhy bajo una licencia GPLv2 (software libre) y viene acompañado de un contenedor para simular secuencias con INDELIBLE, un manual detallado y ejemplos. SimPhy no es solo una pieza fundamental de esta tesis, sino que también se ha convertido en un componente básico en la evaluación de métodos de árboles de especies (utilizado en siete proyectos publicados) y en el desarrollo de estrategias relacionadas (utilizado en dos proyectos publicados). Tipos de homología teniendo en cuenta el nivel poblacional El concepto de homología es fundamental en biología en general y en filogenética en particular, y se aplica a caracteres que poseen un ancestro común. En los años 70, Walter Fitch definió tres categorías principales de copias génicas atendiendo a sus relaciones de homología, dependiendo del proceso evolutivo que las originó. Dos copias genéticas originadas mediante una duplicación se denominan parálogos, si lo hicieron mediante una especiación ortólogos, y en caso de haber sido generadas mediante una transferencia lateral xenólogos. Sin embargo, durante el desarrollo de SimPhy, y gracias al uso del árbol de loci, observé situaciones en las que estas definiciones no se pueden aplicar correctamente al considerar poblaciones de individuos evolucionando y acumulando no solo mutaciones, pero también modificaciones topológicas en sus genomas. Con el objetivo de solucionar este problema, en el capítulo X propongo una nueva clasificación de homología de copias génicas. De acuerdo con ésta, definimos como parálogos a copias génicas cuyo ancestro común más reciente (MRCA) en el árbol de loci corresponde con un evento de duplicación, y subdividimos éstos atendiendo al árbol de genes. Si el MRCA en el árbol de genes corresponde con la primera coalescencia posible después de la duplicación estamos ante parálogos comunes, mientras que en caso contrario estamos ante los denominamos parálogos desordenados. La definición de xenólogos no necesita ser cambiada, y corresponde con copias que han sufrido una transferencia desde otra especie en el camino hacia su MRCA. Finalmente, definimos como ortólogos a copias génicas cuyo MRCA en el árbol de locus corresponde con una especiación (o misma especie si ambas copias pertenecen al mismo locus). Dentro de los ortólogos, definimos como ortólogos desordenados a aquellos cuyo MRCA en el árbol de genes no sucede en la especie común más reciente de dichas copias (MRCA en el árbol de especies). Además de proponer esta nueva clasificación, también demuestro que cuando no se tiene en cuenta el árbol de loci en la estimación de duplicaciones se sobreestima su edad de manera sistemática. Por lo tanto, es extremadamente recomendable utilizar métodos de reconciliación que tienen en cuenta el árbol de loci siempre que sea posible. Esta demostración la llevé a cabo de manera teórica en casos sencillos, y usando SimPhy en casos más complejos. Evaluación de métodos de reconstrucción de árboles de especies en presencia de ordenación incompleta de linajes La ordenación incompleta de linajes es el proceso evolutivo que ha centrado un mayor desarrollo metodológico entre los que separan las historias de genes y especies. Principalmente esto es debido a su ubicuidad y la dificultad de detectar o reducir su presencia en un conjunto de datos filogenómicos dado, mientras que este procedimiento es más sencillo en el caso de otros procesos evolutivos. Además de no poder ser detectada adecuadamente, la ordenación incompleta de linajes puede generar escenarios evolutivos en los que la topología más común a nivel de árbol de genes no se corresponde con la de las especies. Esta situación aparece cuando se suceden varias ramas cortas en el árbol de especies, y se denomina zona anómala. En estas condiciones, la estrategia de concatenación sufre un error sistemático, y por lo tanto no es la más adecuada a priori. Un gran número de métodos de reconstrucción de árboles de especies han sido publicados recientemente, pero la falta de conocimiento de su exactitud relativa complica la elección del método más adecuado para el análisis de un conjunto de datos concreto. Recientemente se han publicado una serie de estudios que utilizan simulaciones filogenéticas para tratar este problema parcialmente. Sin embargo, estos estudios han estado limitados en cuanto al número de métodos, tamaño y realismo de los árboles de especies empleados, y por lo tanto sus resultados no son extrapolables a un gran conjunto de datos reales. Con el objetivo de solucionar esta falta de conocimiento, en el capítulo 4 llevo a cabo una comparativa de 11 métodos de reconstrucción de árboles de especies utilizando datos simulados que tienen en cuenta la ordenación incompleta de linajes y modelos complejos de heterogeneidad de la tasa de substitución. Este estudio comprendió 10000 muestras de un espacio paramétrico continuo generadas con mi simulador, SimPhy, considerando distintos tamaños y alturas de árbol de especies, tasas de substitución y número de individuos por especie entre otros parámetros. Los métodos seleccionados representan todas las principales estrategias utilizadas para reconstruir árboles de especies teniendo en cuenta la ordenación incompleta de linajes, exceptuando aquellos que son computacionalmente prohibitivos dado el tamaño del estudio. En este análisis, ASTRALII fue el método que rindió mejor de manera global, además de demostrar un alto rendimiento. Sin embargo, dos alternativas rindieron mejor combinaciones de parámetros concretas. La estrategia de concatenación fue la mejor alternativa cuando el efecto de la ordenación incompleta de linajes es muy bajo y los árboles de genes tienen altas tasas de error, mientras que revPoMo fue la mejor estrategia con datos de múltiples individuos y bajas tasas de mutación poblacional. Además, en este estudio descubrí que ASTRID (método muy similar al que resultó como segundo mejor) tiene problemas para analizar datos con múltiples individuos por especie. Basándome en estos resultados, puedo recomendar el uso de ASTRALII para la reconstrucción de árboles de especies en la mayoría de las condiciones. Sin embargo es muy importante utilizar los métodos más avanzados para la estimación de los árboles de genes, ya que esta afecta en gran medida al resultado final. Una cuidadosa selección de los loci a analizar es comparativamente menos importante, ya que ASTRALII es robusto a la presencia de un número pequeño de árboles con una alta tasa de error. Algoritmos mejorados para la estimación de árboles de genes con datos perdidos Los datos perdidos son inherentes a cualquier estudio con datos reales. En el contexto filogenético, estos se representan en los alineamientos múltiples de secuencias con caracteres ambiguos. Su presencia en conjuntos de datos provenientes de una sola región genómica no es preocupante, ya que en general los métodos de reconstrucción filogenética son robustos ante su presencia. Sin embargo, los conjuntos de datos provenientes de varios loci añaden otro nivel de complejidad, ya que no todos los individuos o especies tienen necesariamente datos para todos los loci considerados. Este tipo de datos perdidos se denomina cobertura incompleta de taxones (ITC), y puede generar terrazas de árboles que dificultan la estimación filogenética. Estudios de simulación han demostrado que distintos métodos de árboles de especies son más o menos robustos ante esta condición. NJst, el segundo método mejor clasificado en mi comparativa, ha sido caracterizado como especialmente sensible a este problema, sobre todo cuando ciertas comparaciones entre especies no tienen ningún dato. Esto se debe al funcionamiento interno de este método. NJst calcula una matriz de distancias entre las distintas especies utilizando los árboles de genes, para luego construir el árbol de especies a partir de dichas distancias. Sin embargo, si la matriz de distancias tiene celdas con datos perdidos no puede ser usada con los algoritmos de distancias más habituales. ASTRID es una reimplementación de NJst que utiliza algoritmos más avanzados para la reconstrucción del árbol de especies a partir de la matriz de distancias, lo que lo hace ser más robusto a datos perdidos. Además, ASTRID es ligeramente más exacto en cualquier circunstancia y mucho más rápido. Mi experiencia personal analizando datos reales (no incluidos en esta tesis) me demostró una excesiva sensibilidad de NJst a un patrón concreto de ITC en conjuntos de datos con múltiples individuos por especie. Sin embargo, éste no genera celdas perdidas en la matriz de distancias, por lo que las mejoras implementadas en ASTRID no solucionan este error. Por otro lado, mi comparativa de métodos de reconstrucción filogenética demostró que ASTRID no analiza adecuadamente conjuntos de datos con múltiples individuos por especie. Por lo tanto, estos dos prometedores métodos estaban lastrados para el análisis de datos reales. En respuesta a estos problemas, en el capitulo X implemento dos alternativas a cada uno de estos métodos: NJstmw, NJstmu, ASTRIDmw y ASTRIDmu. El sufijo mw se aplica a las alternativas que tratan de solventar los problemas mencionados, mientras que las mu modifican a mayores el cálculo de distancias (común a ambos métodos) con el objetivo de mejorar a mayores su exactitud en presencia de ITC. SimPhy me permitió llevar a cabo la comparativa de estos nuevos métodos de reconstrucción de árboles de especies en ocho condiciones de ITC distintas usando 10000 réplicas en cada una (un total de 90000 análisis por método). Las ocho condiciones de ITC exploran cuatro intensidades y dos modos distintos, uno aleatorio y otro en el que ciertos taxones tienen mayor probabilidad de tener datos perdidos. Las 10000 réplicas exploran un espacio paramétrico continuo igual al usado para la comparativa de métodos de árboles de especies. Sin embargo, debido a limitaciones computacionales, en este análisis utilicé directamente los árboles de genes verdaderos (añadiendo el ITC correspondiente) para reconstruir los árboles de especies. NJstmu y NJstmw redujeron sustancialmente el error sistemático observado con ITC y múltiple individuos por especies, sobre todo con altas intensidades de ITC no-aleatorio. NJstmw se mostró ligeramente más exacto, principalmente en condiciones con más datos perdidos no-aleatorios. ASTRIDmw solventó el problema de ASTRID con el uso de múltiple individuos por especie, principalmente con altos niveles de ITC. Al igual que en el caso de NJstmw, ASTRIDmu supuso una pequeña pero significativa mejora sobre ASTRIDmw. Para conocer la relevancia de esta contribución, comparé la mejor de estas alternativas, ASTRIDmw, contra ASTRALII el cual se podría considerar como un estándar atendiendo a los resultados de mi comparativa de métodos de árboles de especies. ASTRIDmu se mostró como una mejor alternativa en condiciones con múltiple individuos por especies, con niveles desde cero hasta intermedios de ITC. En el resto de condiciones mostró exactitudes ligeramente inferiores que ASTRALII. Sin embargo, ASTRIDmu es al menos un orden de magnitud más rápido que ASTRALII, lo que lo convierte una excelente alternativa para conjuntos de datos grandes, principalmente cuando se pretende estimar la incerteza de la reconstrucción usando métodos de bootstrapping multilocus. NJstmw y NJstmu fueron implementados como una modificación del paquete de R phybase y se pueden encontrar en https://github.com/adamallo/NJstM distribuidos bajo la licencia GPLv2. ASTRIDmw y ASTRIDmu fueron implementados como una modificación del código original en C++ y se pueden encontrar en https://github.com/adamallo/ASTRIDm bajo la licencia GPLv3. Conclusiones El trabajo presentado en esta tesis engloba mis esfuerzos para la mejora de la reconstrucción de la historia evolutiva de especies, la cual, en mi opinión, constituye una contribución significativa a mi disciplina científica. He abordado este objetivo principal desde distintos ángulos, lo cual ha resultado en las siguientes conclusiones específicas: He proporcionado a la comunidad un mejor conocimiento, en un formato resumido y accesible, de los distintos tipos de métodos de reconstrucción de árboles de especies disponibles para su uso. Con este esfuerzo pretendo que un mayor número de estudios utilicen los métodos más adecuados dependiendo de sus objetivos y datos concretos, de forma que se mejore la reconstrucción de árboles de especies de manera global. He desarrollado SimPhy, el simulador de familias génicas más avanzado hasta la fecha, el cual ha servido no solo como piedra angular de este trabajo, sino que también se ha convertido en una pieza indispensable para la comparación de métodos de reconstrucción de árboles de especies. He demostrado que cuando consideramos distintos linajes evolucionando a lo largo de árboles de loci y especies las relaciones de homología son más complejas de lo tradicionalmente asumido. Además, he propuesto una definición alternativa compatible con esta observación. He mostrado que es necesario tener en cuenta el árbol de loci en la estimación de duplicaciones y pérdidas para estimar correctamente tanto su número (mostrado anteriormente por otros autores) como su edad. He demostrado que ASTRALII es, a día de hoy, el método de reconstrucción de árboles de especies más recomendable en un amplio rango de escenarios evolutivos, considerando la ordenación incompleta de linajes, heterogeneidades en la tasa de sustitución y uno o varios individuos por especie. A su vez, la estrategia de concatenación y el programa revPoMo son las mejores alternativas en ciertas condiciones específicas. He detectado y solventado satisfactoriamente sendos errores sistemáticos en dos métodos de reconstrucción de árboles de especies, NJst y ASTRID, los cuales no permitían su uso adecuado en conjuntos de datos con múltiples individuos por especies y datos perdidos. El mejor método resultante de este proceso, ASTRIDmu, podría reemplazar a ASTRALII en conjuntos de datos con múltiples individuos por especie con cantidades moderadas de datos perdidos, aunque estos resultados han de ser validados con un estudio que considere árboles de genes con errores.