Contributions to nonparametric estimation of survival curves in non-markov multi-state models

Azarang, Leyla

Contributions to nonparametric estimation of survival curves in non-markov multi-state models

Azarang, Leyla

Dirixida por:

Jacobo de Uña Álvarez Director

Universidade de defensa: Universidade de Vigo

Fecha de defensa: 27 de outubro de 2016

Tribunal:

Daniel Commenges Presidente/a
María del Carmen Iglesias Pérez Secretaria
Luís Meira Machado Vogal

Departamento:

Estatística e investigación operativa

Tipo: Tese

Teseo: 429035 DIALNET

Resumo

Los modelos multi-estados son modelos para procesos estocásticos que representan los estados posiblemente visitados por un individuo a lo largo del tiempo, y las transiciones permitidas entre ellos. El análisis de supervivencia clásico (modelo vivo-muerto) es el modelo multi-estado más sencillo, que se centra en el tiempo hasta un único evento. A menudo este evento representa la muerte de organismos biológicos, y este evento se encuentra expuesto a la censura. Si un sujeto no tiene un evento durante el tiempo de observación, el evento se dice censurado. En el análisis de supervivencia, los conceptos clave son, por tanto, además de la censura: Evento (muerte, aparición de enfermedades, recurrencia de la enfermedad, recuperación u otros cambios de interés en el sujeto); Tiempo (tiempo transcurrido desde el comienzo de un período de observación al comenzar el tratamiento hasta el tiempo de la muerte, por ejemplo); y función de supervivencia S(t) (probabilidad de que un sujeto sobreviva más de t unidades de tiempo). En la práctica, sin embargo, varios eventos pueden ser de interés durante el período de seguimiento. El análisis estadístico de una situación en la que los individuos pueden experimentar varios eventos se realiza a menudo mediante modelos multi-estado, que son utilizados para modelar a la circulación de los pacientes entre los diferentes estados. Ejemplos de modelos multi-estado distintos al modelo vivo-muerto son: el modelo de riesgos competitivos, y el modelo enfermedad-muerte. El modelo de riesgos competitivos considera que existe un estado inicial (vivo) y k posibles estados finales (muerte por k distintas causas). En el modelo de enfermedad-muerte progresivo (también se llama modelo de discapacidad), además del estado inicial y el estado final, hay un evento intermedio que puede alterar la progresión a un punto final. Es decir, un sujeto puede pasar a través de este estado intermedio antes de la muerte o puede morir directamente. Este trabajo se centra en el modelo de enfermedad-muerte progresivo. El modelo de enfermedad-muerte progresivo es un modelo importante dentro de los modelos multi-estados. En este modelo existen tres diferentes estados posibles a largo del tiempo (sano, enfermo y muerto), y tres tiempos latentes (tiempo potencial hasta la enfermedad, tiempo potencial hasta la muerte sin enfermedad, tiempo desde la enfermedad hasta la muerte). En estudios biomédicos una persona puede estar interesada en la estimación de las probabilidades de transición entre los distintos estados, así como en las probabilidades globales de supervivencia. La inferencia en modelos multi-estado se realiza tradicionalmente bajo el supuesto de Markov, que establece que el pasado y el futuro son independientes dado el estado actual del proceso. Aalen y Johansen (1978) presentaron un estimador no-paramétrico de las probabilidades de transición para los modelos de Markov no-homogéneos. Su método de estimación extiende el estimador de Kaplan-Meier, de larga tradición en el análisis de supervivencia clásico (Kaplan y Meier (1958)), a las cadenas de Markov. Pero el supuesto de Markov podría ser erróneo en el análisis de conjuntos de datos reales. En este caso, el estimador mencionado podría ser inconsistente. Por lo que respecta a nuestro conocimiento, Meira-Machado et al. (2006) fueron los primeros en proporcionar un estimador no-paramétrico de las probabilidades de transición con el fin de abordar la cuestión de la no Markovianidad del modelo enfermedad-muerte progresivo. Enfoques similares han sido desarrollados por Allignol et al. (2013), Titman (2015) y de Uña-Álvarez y Meira-Machado (2015). En particular, este último documento presenta un estimador simple para la matriz de probabilidades de transición que depende de los estimadores de Kaplan-Meier calculados para diferentes tiempos de eventos y submuestras específicas. Esta tesis considera el problema de la estimación de la varianza de las probabilidades de transición de Meira-Machado et al. (2006) para el modelo enfermedad-muerte progresivo no Markoviano, e introduce asimismo un enfoque nuevo de regresión para tales probabilidades de transición. En el primer capítulo damos una introducción al libro de tesis, que contiene una breve presentación de los modelos multi-estado, similar a lo que hemos mencionado anteriormente. En el segundo capítulo empezamos a cumplir con lo que habíamos planeado. Para ello, y con el fin de establecer firmemente la base matemática del estimador de la varianza de las probabilidades de transición de Meira-Machado et al. (2006), centramos nuestros esfuerzos en demostrar la consistencia del estimador Jackknife de la covarianza de dos integrales de Kaplan-Meier con covariables. El resultado obtenido generaliza en dos diferentes sentidos los resultados disponibles hasta la fecha (Stute (1996b)). Por un lado, porque incluye la posibilidad de que un vector de covariables basales esté presente para cada individuo, llevando al contexto de las integrales de Kaplan-Meier multivariantes. Por otra parte, porque tiene en cuenta no sólo varianzas sino también covarianzas, las cuales aparecen de manera natural cuando se consideran las probabilidades de transición de Meira-Machado et al. (2006), que se definen como funciones (cocientes) de ciertas integrales Kaplan-Meier multivariantes. A través de estudios de simulación y análisis de datos reales, ilustramos el comportamiento del estimador Jackknife de la varianza de las probabilidades de transición empíricas. En términos generales, el método Jackknife se comporta bien, proporcionando un estimador con menor error cuadrático medio que el correspondiente al bootstrap simple. Se ha detectado no obstante cierta inestabilidad del estimador en situaciones con poco tamaño muestral o elevada proporción de censura. Debemos destacar aquí que, en la aplicación de la teoría del capítulo 2 al problema de la estimación de la varianza de las probabilidades de transición empíricas (capítulo 3), el tiempo de permanencia en el estado inicial juega el papel de covariable. El lector no debe confudirse con las covariables en el sentido del capítulo 4, donde nos referimos más bien a factores de riesgo. Las contribuciones de los capítulos segundo y tercero se corresponden con las publicaciones Azarang et al. (2015) y Azarang y de Uña-Álvarez (2014) respectivamente. En el capítulo 4 consideramos el contexto de regresión, donde un vector de covariables basales general se mide para cada sujeto, junto con los tiempos de transición de interés. En presencia de la censura, Aalen et al. (2001) proporcionan estimadores de las intensidades de transición, y luego las combinan para calcular las probabilidades transición para una cadena de Markov, utilizando un modelo aditivo. Este enfoque es similar al del modelo aditivo de Aalen para los riesgos de causa específica, en el modelo de riesgos competitivos, para el cual la condición de Markov se satisface siempre. Se ha demostrado que el paso de los efectos sobre el riesgo de causa específica a los efectos sobre la función de incidencia acumulada no es posible sin dificultades (Scheike et al. (2008)). Para estimar los efectos de las covariables sobre las funciones de incidencia acumulada, y también para hacer frente a la censura por la derecha, se han propuesto varios modelos de regresión directos. El enfoque de subdistribución de Fine y Gray (1999) proporciona los estimadores resolviendo la versión de probabilidad inversa de censura ponderada (IPCW) de un score tipo Cox, considerando el log-log complementario como función de enlace. Otras técnicas existentes son el enfoque de pseudo-valor (Andersen et al. (2003) y Klein y Andersen (2005)) y el enfoque de regresión binomial basado en un score IPCW de Scheike et al. (2008). Tanto el enfoque de regresión binomial como el enfoque de pseudo-valor permiten toda una variedad de funciones de enlace. Sin embargo, la elección de la función de enlace es importante para la interpretación de los parámetros de regresión, ver Gerds et al. (2012). Meira-Machado et al. (2014) consideraron la estimación de probabilidades de transición condicionadas por covariables. Su enfoque se basa en el suavizado tipo núcleo (o kernel), que se puede aplicar a múltiples covariables pero sufre de la maldición de la dimensionalidad, problema incluso en dimensión pequeña (por ejemplo, >2). Además, en la practica, es posible que aparezcan covariables categóricas; por ejemplo, cuando se quiere determinar si un nuevo tratamiento retarda la progresión de la enfermedad o, al comparar la progresión de la enfermedad, cuando uno está interesado en si un grupo tiende a saltar al estado intermedio más a menudo que el otro grupo o no. En el capítulo 4 se aborda el problema de la estimación de las probabilidades de transición en un modelo de enfermedad o muerte progresivo posiblemente no Markoviano en presencia de covariables, utilizando un enfoque binomial análogo al de Scheike et al. (2008). Para este propósito, se aplica el modelado directo para los datos de muerte o enfermedad mediante la restricción de la muestra a dos sub-muestras en función de si la transición se hace desde el estado inicial o desde el estado intermedio. En el primer caso la sub-muestra es el conjunto de individuos observados en el estado inicial en un tiempo dado s y, en el segundo caso, los observados en el estado intermedio en tiempo s. Se asume que todos los individuos están en el estado inicial en tiempo cero. El método propuesto se puede aplicar a covariables tanto continuas como categóricas y, debido a su estructura semi-paramétrica, permite la construcción de estimadores precisos independientemente de la dimensión del vector de covariables. Además, el enfoque semi-paramétrico introducido permite la interpretación de los efectos de las covariables sobre las probabilidades de transición de una manera sencilla. Este método se basa en la regresión binomial, donde la respuesta es el indicador de la ocupación para el estado de interés a lo largo de tiempo. Ecuaciones tipo score con poderaciones aleatorias que son capaces de eliminar el sesgo debido a la censura se introducen en la sección 4.2. Al resolver estas ecuaciones, se pueden estimar los coeficientes de regresión posiblemente variables en el tiempo, que tienen una interpretación inmediata como efectos de las covariables sobre las probabilidades de transición, véase la sección 4.4. Resulta interesante discutir cómo se corrige el sesgo provocado por la censura en las ecuaciones tipo score. Recordemos que estas ecuaciones definen la solución óptima para predecir el indicador de ocupación del estado en cuestión (sano, enfermo, muerto) a partir del vector de covariables. Este indicador no siempre es observable, debido a la censura sobre los tiempos de transición, lo cual motiva la necesidad de ponderar los cuadrados de los residuos. Una manera usual de ponderar consiste en asignar masa nula a los casos censurados, aumentando consecuentemente la masa que reciben los casos restantes (el peso es inversamente proporcional entonces a la probabilidad de no censura). Sin embargo, el indicador de ocupación de estado en un tiempo t dado puede ser conocido aún cuando el sujeto es censurado en un tiempo posterior. Este hecho permite introducir ponderaciones más eficientes, donde los indicadores de censura para el tiempo de estancia en el estado inicial y el tiempo total de supervivencia , son sustituidos por indicadores de censura tiempo-dependientes. Esta actualización da pesos (no nulos) a aquellas observaciones censuradas que son relativamente grandes. Esto significa que en el proceso de estimación del vector de parámetros en tiempo t se tienen en cuenta las observaciones censuradas en tiempos más grandes que t. Ésta es precisamente la línea seguida por Scheike et al. (2008) para el modelo de riesgos competitivos, y que nosotros adaptamos en esta tesis al modelo enfermedad-muerte progresivo. El comportamiento del estimador propuesto es investigado a través de simulaciones en la sección 4.3. En esa sección se ve cómo el comportamiento del estimador mejora a medida que aumenta el número de observaciones en la muestra o disminuye la proporción de datos censurados. Y en la sección 4.4 analizamos un conjunto de datos médicos reales sobre cáncer de colon con fines ilustrativos. Interesantemente, mostramos cómo la elección de la función link (logit, probit, etc) no es crítica para la forma del estimador propuesto. Finalmente, en la sección 4.4 se da una discusión final. El Apédice al capítulo 4 recoge también la expresión detallada de algunas funciones que aparecen en el estudio de las propiedades asintóticas del estimador. El contenido de este capítulo se sometió a la revista Statistics in Medicine en noviembre de 2015, la cual pidió una revisión y nueva presentación en marzo 2016 (Azarang et al. (2016)). Este enfoque allana el camino para una investigación futura. Por ejemplo, la idea general detrás de la construcción del estimador propuesto se puede utilizar, en principio, para introducir efectos de covariables sobre las probabilidades de transición de modelos multi-estado progresivos distintos al modelo enfermedad-muerte. Scheike y Zhang (2007) consideran este problema en el caso de las denominadas probabilidades de ocupación (s = 0) en un proceso multi-estado bastante general. También señalan algunos inconvenientes de nuestro enfoque de estimación, tales como su posible ineficiencia y la violación de las restricciones naturales; sin embargo, la flexiblidad y el buen comportamiento relativo de la regresión binomial directa hace el método recomendable. Otra ampliación posible del estimador propuesto en este documento es incorporar el truncamiento por la izquierda; en el ajuste a partir de datos truncados, los pesos aleatorios deben ser corregidos adecuadamente para compensar el sesgo observacional. Un nuevo paquete de R se introduce en el capítulo 5. El paquete se llama idmTPreg. La base metodológica de este paquete se explica en el capítulo 4.Recordamos aquí al lector la metodología en la sección 5.2. Se describe el paquete y sus funciones en la sección 5.3. Este paquete, fácil de usar, puede ser utilizado por los médicos, para que vean el efecto de los factores de riesgo de interés, mediante el suministro de información inicial para cada individuo que debe incluir: el tiempo total de supervivencia, el indicador de censura del tiempo total de supervivencia, el tiempo de llegada al estado intermedio (por ejemplo enfermo, recurrencia, recaída, etc), y el indicador de visita al estado intermedio. En la sección 5.4 proporcionamos un ejemplo para el usuario con el fin de que se familiarice con las funciones del paquete. Esta sección muestra a los usuarios cómo elegir las opciones apropiadas para los argumentos de las distintas funciones con el fin de obtener los resultados deseados. De manera resumida, el paquete idmTPreg permite obtener los coeficientes estimados para cada covariable a lo largo del tiempo, junto con sus errores estándar, límites de intervalos de confianza, y p-valores calculados mediante remuestreo bootstrap, para las probabilidades de transición elegidas por el usuario. También ofrece la posibilidad de generar gráficos automáticos que muestran, a lo largo del tiempo, los coeficientes estimados junto con los intervalos de confianza puntuales, muy útiles para juzgar la detección de efectos significativos y el estudio de su carácter constante o variable (tiempo-dependiente). Actualizando el tiempo s, que es el instante actual en el cual se evalúan las probabilidades de transición futuras, se puede ver el efecto dinámico de un factor de riesgo a lo largo del tiempo. Es posible que, para un tiempo s mayor, el efecto de un factor de riesgo desaparezca o, al contrario, aparezca En el capítulo 6 se analiza un conjunto de datos sobre la enfermedad del Lupus (o SLE). Este capítulo surge de una colaboración con el Departamento de Reumatología, Complejo del Hospital Universitario, Instituto de Investigación Biomédica de Vigo, España. El Lupus Eritematoso Sistémico, abreviado como SLE o lupus, es una enfermedad autoinmune sistémica (o enfermedad autoinmune del tejido conectivo) en el que el sistema inmunológico del cuerpo ataca por error el tejido sano. Hay muchos tipos de lupus. El tipo más común y grave es el SLE, que afecta a muchos órganos internos del cuerpo. Los daños más comunes del SLE ocurren en el corazón, las articulaciones, la piel, los pulmones, los vasos sanguíneos, el hígado, los riñones y el sistema nervioso. Dado que la información sobre las características clínicas del lupus muy a menudo viene de un pequeño número de pacientes, la SER (Sociedad Española de Reumatología) ha promovido la creación de un gran registro multicéntrico de pacientes diagnosticados de SLE, dirigido a aumentar la posibilidad de tener un conocimiento global de la enfermedad. El Registro de Lupus Eritematoso Sistémico de la Sociedad Española de Reumatología (RELESSER) se llevó a cabo por miembros del Grupo de estudio de Enfermedades Sistémicas Autoinmunes de la SER, e involucró a 45 centros homogéneamente distribuidos por toda España que tratan todo tipo de pacientes con SLE, y fue apoyado por la (SER) (Rúa-Figueroa et al. (2014)). En el capítulo 6 se estudia el conjunto de datos SLE del Registro RELESSER. Modelizamos estos datos a través de un modelo enfermedad-muerte progresivo, donde el estado enfermedad se refiere al primer daño entre los siguientes: ocular, trastornos neuropsiquiátricos, pulmonar, cardiovascular, vascular periférico, gastrointestinal, músculo-esquelético, piel, diabetes, tumores malignos y fallo gonadal prematuro. En concreto, se analizan 3630 casos en RELESSER para los que los tiempos de transición (quizás censurados) están disponibles. Las variables epidemiológicas edad, sexo y origen étnico están incluidos en el modelo de regresión propuesto en el capítulo 4. A nivel de conclusiones, podemos decir que el modelo propuesto permite detectar el efecto negativo de la edad al diagnóstico sobre la evolución de los pacientes, siendo tal efecto más acusado para edades mayores. Asimismo, se ha encontrado un peor pronóstico para los varones, los cuales permanecen menos tiempo libres de daño en comparación con las mujeres. Finalmente, el origen étnico permite apreciar diferencias cuando se compara la raza hispana con la caucásica, teniendo este último grupo mejor pronóstico tanto en términos de supervivencia libre de daño como en supervivencia total. Es de destacar que estas conclusiones no se pueden obtener fácilmente mediante un análisis de supervivencia clásico, ya sea univariante (comparación de curvas Kaplan-Meier por grupos) o multivariante (regresión de Cox), al ser métodos que sufren o bien de la posible presencia de variables confusoras, o bien del presupuesto de proporcionalidad de los riesgos. Un problema que hemos detectado para el estimador propuesto en el capítulo 4, posteriormente utilizado en el capítulo 6 para el análisis de los casos de lupus, es que arroja límites de confianza muy amplios para tiempos cortos o muy largos. Aquí hay que tener en cuenta la influencia de un doble fenómeno. Por una parte, a lo largo del tiempo pueden detectarse instantes en los cuales el indicador de ocupación del estado de interés está muy mal balanceado. Por ejemplo, en tiempos cercanos al origen uno esperaría una proporción de 1's muy elevada para el indicador del estado inicial, mientras que esta proporción comenzará a balancearse bien con la de 0's a medida que pase el tiempo. Para tiempos largos, lo contrario puede ocurrir, observándose posiblemente una proporción relativamente elevada de 0's. El segundo fenómeno tiene que ver con la censura por la derecha, que provocará un aumento de la varianza para tiempos grandes. En la práctica esto se traduce en la imposibilidad de detectar efectos estadísticamente significativos salvo en un intervalo de tiempos compacto. Es, en cierto sentido, un precio que debe pagarse por la flexibilidad del método propuesto.