The statistical analysis of doubly truncated data: new methods, sotware development and biomedical applications

Moreira, Carla María Gonçalves de Macedo

The statistical analysis of doubly truncated datanew methods, sotware development and biomedical applications

Moreira, Carla María Gonçalves de Macedo

Zuzendaria:

Jacobo de Uña Álvarez Zuzendaria

Defentsa unibertsitatea: Universidade de Vigo

Fecha de defensa: 2010(e)ko uztaila-(a)k 22

Epaimahaia:

Wenceslao González Manteiga Presidentea
María del Carmen Iglesias Pérez Idazkaria
Winfried Stute Kidea

Saila:

Estatística e investigación operativa

Mota: Tesia

Teseo: 304002 DIALNET

Laburpena

Esta tesis se refiere a la modelización y al análisis estadísitico de los tiempos entre eventos, un campo generalmente conocido como Análisis de Supervivencia. El tiempo de interés se denomina muchas veces com el tiempo de vida, el tiempo de supervivencia o el tiempo de fallo, y es un objetivo importante en muchas áreas, incluyendo la ingeniería, la biomedicina, y las ciencias sociales. En primer lugar, presentamos y describimos nuestros datos de cáncer infantil en la región norte de Portugal. Los datos de cáncer en la infancia fueron obtenidos por el IPO (Instituto Portugués de Oncología) de Porto, por el servio RORENO (Registro Oncológico del Norte), en Portugal. También discutimos algunos problemas que surgen al aplicar las técnicas estándar del análisis de la supervivencia a estos datos. Estas cuestiones se refieren a ciertos aspectos asociados a problemas de censura dependiente y/o a la presencia de truncamiento aleatorio. Los registros poblacionales de cáncer infantil también se utlizaron para analizar la incidencia de cáncer infantil en la región norte de Portugal. Las tasas de incidencia estandarizada fueron utilizdas para estudiar los reisgos de los distintos tipos de cáncer en el área de registro, permitiendo también comparaciones con otras regiones o diferentes subgrupos de la población en la zona de registro en sí. Este análisis detallado pionero de los datos sobre cáncer infantil en el norte de Portugal es una contribución notable. La edad del diagnóstico fue la principal motivación para el resto de la tesis, ya que su observación está potencialmente sesgadas debido ale squema de muestreo. Hemos proporcionado evidencias teóricas y empíricas sobre la influencia de esto seesgo de muestreo en la estimación, señalando las posibles desviaciones entre la distribución observada de la edades y la distribución teórica. También se revisaron los algoritmos y resultados técnicos del NPLME para datos doblemente truncados. La principal contribución en este tema es la investigación del bootstrap como un método para aproximar la distribución en muestras finitas del NPMLE. Éste es un problema relevante, ya que la distribución asintótica de este estimador es complicada, sin una forma explícita y (hasta ahora) no se ha utilizado en la práctica para el desarrollo de los métodos de inferencia. Estos métodos se aplican a lso datos de cáncer infantil. También hacemos una demostración formal de la consistencia del NPLME cuando los tiempos de truncamiento caen en una línea. Hemos revisado de forma crítica los algoritmos existentes para la aproximación numérica del NPMLE bajo truncamiento doble. El algoritmo Shen (2008) en general, se recomienda, ya que permite tamibén la estimación de la distribución del truncamiento. El comportamiento del bootstrap simple ha sido comprobado en un estudio de simulación, en elq ue se calcularon las coberturas de los intervalos de confianza basados en el bootstrap. Hemos probado en simulaciónes un método de bootstrap alternativo, el bootstrap obvio, a pesar de ser menos conveniente tanto como computacionalmente. Ambos métodos se comportaron bastante bien. Hemos introducido un nuevo estimador para datos doblemente truncado que hace uso dealguna información disponible sobre el para de tiempos de truncamiento. Este nuevo estimador es semiparamétrico, ya que se presupone una familia de paramétrica de distribuciones para los tiempos de truncamiento, mientras que nada se supone sobre la distribución de los tiempos de vida de interés. A fin de aplicar los métodos estadísticos descritos a lo largo de esta tesis, hemos desarrollado un paquete R par calcular el NPMLE de una distribución con presencia de truncamiento aleatorio. El DTDA implementa de una manera amistosa los métodos propuestos por Efron y Petorsian (1999) y Shen 08. Por lo que a nuestro conocimiento respecta, ésta esa primera contribución de este tipo para hacer frente al truncamiento aleatorio (muchas veces ignorado9. El paquete DTDA no sólo proporciona los principales resultados numéricos de interés, sino también muestras gráficas automáticas de varias curvas, tales como la distribución acumulativa y la función de la supervivenica de los tiempos de vida de interés , así como la marginal y la disbribución conjunta de los tiempos de truncamiento. Además, están implementados los dos métodos bootstrap diferentes que se han propuesto en esta tesis, y que se aplican para el cálculo de límites de confianza