New Heuristics for global optimization of complex bioprocesses

Egea Larrosa, José Alberto

New Heuristics for global optimization of complex bioprocesses

Egea Larrosa, José Alberto

unter der Leitung von:

Rafael Martí Cunquero Doktorvater/Doktormutter
Julio Rodríguez Banga Doktorvater/Doktormutter

Universität der Verteidigung: Universidade de Vigo

Fecha de defensa: 29 von Mai von 2008

Gericht:

Francisco Herrera Triguero Präsident/in
Aurea María Martínez Varela Sekretärin
Eric Fraga Escamilla Vocal
Emmanuel Vazquez Vocal
Juan Ignacio Maté Caballero Vocal

Art: Dissertation

Teseo: 206127 DIALNET Repositorio Digital de la UPCT editor

Zusammenfassung

[ENG] Optimization problems arising from the biotechnological and food industries are usually of non-convex nature and they often exhibit several local minima. Even though advances in global optimization research have been outstanding in recent years, the current state-of-the- art is not completely satisfactory, specially when one considers the global optimization of complex process models (typical of biotechnological and food industries). These models are complex due to their dynamic behavior and large number of states. Besides, one of the most important drawbacks for optimizing these complex models is the computation time required to perform every simulation. Due to the large number of diferential and algebraic equations (DAE's) de fining the mathematical models which describe complex processes and/or full industrial plants, the time needed to perform a single simulation may vary between some minutes and hours on a standard personal computer. This can lead to unaffordable computation times from the practical point of view when the optimization of such processes is carried out. The reasons exposed above advise to treat complex models as black boxes in many situations, that is, as a simple relationship between inputs and outputs without further information about relationships among the decision variables. For this kind of problems, stochastic global optimization methods (and metaheuristics in particular) have proved to be efficient and robust. Indeed, even though these methods can not ensure the convergence to the global optimum, they provide very good solutions in practice (the global optimum in some cases) in reasonable computation times. Besides, stochastic methods permit to treat mathematical models as black-boxes and are easy to implement, making them robust for any kind of problem. The use of the so-called metamodels allows to build surrogate models which interpolate or approximate the original models, and predict their function values with a certain probability, being less difficult to evaluate from the computational point of view. Taking advantage of their statistical properties, these surrogate models allow us to formulate hypotheses about the location of the global optimum and to find it (or high quality solutions) in a number of simulations much lower than these employed by traditional optimization methods, thus considerably reducing the final optimization time. Of simulations much lower than these employed by traditional optimization methods, thus considerably reducing the final optimization time. In the first part of this work we present an introduction to global optimization in the biotechnological area, including the main type of existing problems and the available optimization methods to solve them. An introduction to a special class of stochastic methods (metaheuristics) is provided, pointing out the most popular and successful among them. Considering that our proposed method is based on the scatter search methodology, we describe it in Chapter 3. In the second part the methodology proposed for the optimization of complex bioprocesses is explained. We present a scatter search-based algorithm for the global optimization of nonlinear dynamic systems. A set of new heuristics and improved features have been developed to handle the main drawbacks inherent to this kind of problems. We have also developed another optimization algorithm (based on scatter search too) which makes use of surrogate models for the optimization of computationally expensive problems. In particular, the algorithm uses a kriging interpolation algorithm which provides predictions and statistics associated to those predictions, in order to minimize the number of simulations to locate the global optimum. The scatter search framework makes the algorithm autonomous to select the set of points in which the predictions must be done. The associated software tools for both algorithms have been developed, and we present their documentation in Appendix A. Their effectiveness is demonstrated by the The ¯nal part of this work is dedicated to the application of the proposed methodologies to di®erent problems arising in the biotechnological and food industries. The three main types of problems described in the ¯rst part are considered, and the performances of our algorithms are compared with those of other state-of-the-art optimization algorithms, showing that our approach is e±cient and robust for the global optimization of this kind of problemsresolution of a set of benchmark problems. [ESP] Los problemas de optimización que surgen en el campo de los procesos biotecnológicos y alimentarios suelen tener una naturaleza no convexa, existiendo con frecuencia numerosos óptimos locales. Aunque los avances en optimización global han sido notables en los últimos años, el estado actual no es del todo satisfactorio, sobre todo cuando se considera la optimización global de modelos de procesos complejos (típicos de las industrias biotecnológicas y alimentarias). Estos modelos son complejos debido a su comportamiento dinámico y al ele- vado núumero de estados. Además, uno de los problemas más importantes para la optimización de estos modelos complejos es el tiempo de computación necesario para llevar a cabo cada simulación. Debido al elevado número de ecuaciones diferenciales y algebraicas existentes en los modelos que describen procesos complejos o plantas completas, el tiempo necesario para realizar una única simulación puede ser del orden de varios minutos o incluso horas en un ordenador convencional. Esto puede conducir a tiempos de computación inabordables desde el punto de vista práctico cuando se lleva a cabo la optimización de dichos procesos. Las razones anteriores aconsejan, en muchas ocasiones, tratar los modelos complejos como cajas negras, es decir, como una relación simple entre entradas y salidas sin que se tenga información sobre la relación entre las variables. Para este tipo de problemas, los métodos de optimización global (y las metaheurísticas en particular) han demostrado su eficiencia y robustez. En efecto, aunque estos métodos no aseguran la convergencia al óptimo global, en la práctica proporcionan buenas soluciones (el óptimo global en muchos casos) en tiempos de computación razonables. Además, estos métodos permiten tratar los modelos matemáticos como cajas negras y son de fácil implementación, lo que les proporciona robustez y los hace útiles para cualquier tipo de problema. El uso de los llamados metamodelos permite construir modelos sustitutos que interpolan o aproximan los modelos originales y predicen sus valores con cierta probabilidad, siendo mucho menos difíciles de evaluar desde el punto de vista computacional. Aprovechando sus propiedades estadísticas, estos modelos sustitutos permiten realizar hipótesis sobre la localización del óptimo global y llegar a el (o a soluciones de alta calidad) en un número de simulaciones mucho menor que los métodos de optimización tradicionales, y por tanto reduciendo considerablemente el tiempo final de optimización. En la primera parte de este trabajo se presenta una introducciónn a la optimización global en el área biotecnológica, incluyendo los principales tipos de problemas existentes y los métodos de optimización disponibles para resolverlos. También se hace una introducción específica a una clase de métodos estocásticos (las metaheurísticas), destacando las mías populares y exitosas de entre ellas. Considerando que el método de optimización propuesto en esta tesis está basado en la metodología conocida como scatter search (búsqueda dispersa en castellano), ésta se describe en el Capítulo 3. En la segunda parte se presenta la metodología propuesta para la optimización de bioprocesos complejos. Se presenta un algoritmo de optimización global basado en scatter search para la optimización de sistemas dinámicos no lineales. Se han desarrollado un conjunto de nuevas heurísticas y características mejoradas para intentar resolver los principales inconvenientes asociados a este tipo de problemas. Se ha desarrollado un segundo algoritmo de optimización global (también basado en scatter search) que hace uso de modelos sustitutos para la optimización de problemas computacionalmente costosos. En concreto, el algoritmo usa una interpolación basada en kriging que proporciona predicciones y estadisticas asociadas a ellas para minimizar el número de simulaciones necesarias para localizar el óptimo global. El hecho de estar basado en scatter search hace que el algoritmo elija automáticamente el conjunto de puntos sobre los que se haría la predicción. Las herramientas de software asociadas a ambos algoritmos se documentan en el Apéndice A. Su efectividad queda demostrada mediante la resolución de una serie de problemas como banco de pruebas. La parte final de este trabajo se dedica a la aplicación de las metodologías propuestas a diferentes problemas de las industrias biotecnológicas y alimentarias. Se consideran los tipos de problemas descritos en la primera parte. El comportamiento de nuestros algoritmos se compara con el de otros algoritmos de optimización global que constituyen el estado actual, demostrando que las metodologías propuestas son eficientes y robustas para cumplir con el objetivo propuesto.