Nuevos criterios de ayuda para conjuntos de decisores cooperativos

  1. Gómez Verdejo, Vanessa
unter der Leitung von:
  1. Aníbal Ramón Figueiras Vidal Doktorvater/Doktormutter
  2. Jerónimo Arenas García Doktorvater/Doktormutter

Universität der Verteidigung: Universidad Carlos III de Madrid

Fecha de defensa: 16 von Mai von 2007

  1. Antonio Artés Rodríguez Präsident/in
  2. Angel Navia Vázquez Sekretär/in
  3. Luis Ignacio Santamaría Caballero Vocal
  4. Alberto Prieto Espinosa Vocal
  5. José Luis Alba Castro Vocal

Art: Dissertation


Aunque en muchas aplicaciones las Redes Neuronales (RRNN) son una herramienta poderosa, en otros problemas (complejos) una única red resulta insuficiente. Para solventar esta dificultad, se puede considerar la combinación de diferentes redes (simples) de modo que se forme un conjunto de RRNN capaz de resolver mejor el problema en cuestión, proporcionando, además, un diseño más sencillo y más fácilmente comprensible, lo que ha ocasionado que su empleo sea cada vez más frecuente. Entre los conjuntos de RRNN destacan, por sus sencillos principios conceptuales y sus contrastadas buenas prestaciones, los métodos de �Boosting�, y, especialmente, el algoritmo �AdaBoost�. En esta Tesis Doctoral se partirá del algoritmo �Real AdaBoost� (RA), cuya función de énfasis puede descomponerse en el producto de dos términos, uno relacionado con el error cuadrático de las muestras y otro asociado con la proximidad de las mismas a la frontera. Esta descomposición permite generalizar la estructura de la función de énfasis del RA, introduciendo un parámetro de mezcla ajustable, ¸, para controlar el compromiso entre los dos términos de énfasis; el empleo de esta nueva función de énfasis da lugar, como primera aportación, a un nuevo algoritmo que se denomina RA con énfasis ponderado (RA-we, �RA with weigthed emphasis�). Experimentalmente se ha comprobado que si el parámetro de mezcla se selecciona adecuadamente pueden conseguirse mejoras significativas sobre las prestaciones del RA. Sin embargo, no siempre es sencillo encontrar el valor óptimo de ¸, y una selección mediante un procedimiento de Validación Cruzada está lejos de aprovechar todo el potencial que el énfasis mixto puede aportar. Siguiendo esta línea de trabajo, en esta Tesis se exploran, además, dos alternativas para escoger el parámetro de mezcla. La primera de ellas, en lugar de intentar encontrar el mejor valor de ¸, combina las salidas de una serie de conjuntos RA-we entrenados con diferentes valores de ¸; de este modo, aprovecha la diversidad introducida por el parámetro de mezcla para construir comités de conjuntos RA-we. La segunda de las alternativas propuestas considera una versión generalizada del parámetro de separación del clasificador usado por el algoritmo RA (una correlación ponderada entre las salidas del clasificador y las correspondientes etiquetas), y propone ajustar dinámicamente el parámetro de mezcla VI durante el crecimiento del conjunto. Para ello, en cada iteración se selecciona el valor de ¸ que proporciona un mayor parámetro generalizado de separación. La idoneidad de estas propuestas es corroborada sobre un conjunto de problemas de decisión binaria, mostrando la efectividad del énfasis mixto, así como de los dos esquemas de selección de ¸: comités de conjuntos RA-we y selección dinámica de ¸. Además, la comparación de ambas propuestas con esquemas RA clásicos demuestra el interés de los nuevos algoritmos en el ámbito de la construcción de sistemas de múltiples redes. ____________________________________________ Although Neural Networks (NNs) are an effective tool in many applications, a NN may be inefficient for solving (complex) tasks. To tackle this problem, we may combine a set of NNs in order to construct NN ensemble capable of solving the initial problem, providing an easier design solution and helping to interpret more clearly the resulting machine. The above reasons have increased the interest in this research area during recent years. Among NN ensembles, boosting methods, and in particular AdaBoost, are attractive because of their simple conceptual principles and their good generalization performance. In this Ph.D. Thesis, we start from the Real AdaBoost (RA) algorithm, where the emphasis function can be decomposed into the product of two factors. The first depending on the quadratic error of each sample, and the second being a function of the �proximity� of the sample to the classification border. This decomposition makes it possible to generalize the structure of the RA emphasis function by introducing an adjustable mixing parameter ¸ to control the trade-off between both emphasis terms; the algorithm resulting from this proposal is referred to as RA with weighted emphasis (RA-we). Experiments show that a significant improvement over the classical RA performance can be achieved if mixing parameter ¸ is adequately selected. However, finding the optimal ¸ is not always an easy task, and using Cross Validation selection methods does not exploit fully the potential that the mixed emphasis function can provide. Following this research line, this Dissertation also explores two alternatives for selecting the mixing parameter. Rather than trying to find the best value for ¸, the first proposal combines the outputs of a number of RA-we networks trained with different values of ¸; in this way, we take advantage of the diversity introduced by the mixing coefficient to build committees of RA-we networks. The second approach considers a generalized version of the learner edge defined by the RA algorithm (a weighted correlation between the learners output and the true labels) as an indication of the learner quality, and it proposes to dynamically adjust the mixing parameter during the ensemble growth. In order to do this, we iteratively select the value that provides the learner with the largest generalized edge. The effectiveness of these two approaches is corroborated over several benchmark biVIII nary decision problems, showing the efficacy of the mixed emphasis approach, as well as the appropriateness of both schemes for selecting ¸: (1) committees of RA-we networks, and (2) dynamic ¸ selection. Finally, we conclude that the algorithms described in this Thesis in comparison to traditional RA algorithms present interesting possibilities for building multi-net systems.