Estudio Comparativo de las Máquinas de Vectores de Soporte y las Redes Neuronales para la Identificación de un Sistema no Lineal y el Diseño del Observador

Resumen

Con el crecimiento de la complejidad de los procesos industriales se ha vuelto muy difícil construir adecuadamente los modelos fundamentales con el fin de realizar predicciones, optimizaciones o controles entre otras tareas importantes. Para elaborar un buen modelo dinámico usualmente es necesario involucrar el trabajo de distintos especialistas con conocimiento muy específico del proceso. De hecho, con mucha frecuencia los modelos fundamentales obtenidos son demasiado complejos y difíciles de identificar debido a la estructura del problema.

Un enfoque alternativo y fructífero para abordar este problema consiste en diseñar adecuados modelos dirigidos por datos. En este sentido, en las últimas décadas las redes neuronales han probado ser una herramienta poderosa para el modelamiento de sistemas. Muchas aplicaciones interesantes en el campo de la identificación de sistemas, modelos de control predictivos, diseño de observadores y de predicción pueden ser encontrados en la literatura.

A pesar de los resultados satisfactorios alcanzados con las redes neuronales, aún quedan problemas sin resolver como: la dificultad para escoger el número de capas ocultas, el problema de sobre-aprendizaje, la existencia de mínimos locales en la solución, pobres capacidades para generalizar, entre otras.

Las máquinas de vectores de soporte (SVM) han mostrado su utilidad al incrementar el rendimiento de distintos métodos de aprendizaje supervisado, ya sea como modelos de clasificación o de regresión. Las SVM poseen muchas ventajas, como la inexistencia de mínimos locales en la solución, buenos rendimientos al generalizar, pocos parámetros libres para ser ajustador y un problema convexo de optimización para resolver.

A pesar del éxito de esta técnica, se deben tener en cuenta un número de puntos débiles al usarlas para tareas de regresión dinámica que quedan por resolver. De hecho, las SVM han sido desarrolladas, principalmente, para resolver problemas de clasificación y como aproximación de funciones estáticas. Por lo que en el caso de sistemas dinámicos, prácticamente todos los trabajos realizados con respecto a Regresiones de Vectores de Soporte (SVR) está focalizado en métodos de identificación en serie/paralelo para modelamiento de NARX (Funciones no lineales autoregresivas con entradas exógenas). Un método de identificación más difícil como el enfoque paralelo, útil para NARMAX (Norlinear autoregressive moving average with exogenous inputs) y NOE (salidas con errores no lineales), ha atraído poca atención. Esto radica en el hecho de que para estos casos se debe utilizar un método con optimización no convexa.

En esta propuesta nos proponemos realizar un estudio comparativo entre métodos basados en SVR y redes neuronales para identificación de sistemas NARX, NARMAX y NOE. De hecho, la parte más innovador del proyecto será proponer nuevas funciones Kernel estáticas y principalmente dinámicas para reconvertir los problemas de optimización no-convexa asociados con los métodos recurrentes basados en SVR necesarios para abordar la identificación de NARMAX y NOE, en uno de optimización convexa. En una segunda etapa, SVR y las redes neuronales serán comparadas al actuar como modelos dinámicos para el diseño de observadores de estado.

El estudio incluirá simulaciones numéricas utilizando algunos sistemas simples de NARX, narmax y NOSE SISO para buscar una comparación de las capacidades para generalizar, robustez, complejidad, sesgo, varianza y calibración de ambos métodos. En una segunda etapa, las arquitecturas seleccionadas y los métodos de aprendizaje, al igual que los observadores diseñados serán utilizados en procesos reales de fermentación, minería y bio-medicina.

Abstract

With the increasing complexities of industrial processes it becomes very difficult to build adequate first principle models in order to perform forecasting, optimization or control among other important tasks. To elaborate good dynamic models it is usually necessary a lot of work of different specialists with very deep knowledge of the process. Indeed very often the first principle models obtained are too complex and difficult to identify due to structural problems.

An alternative and fruitful approach to tackle this problem consists in designing appropriate data-driven models. In this sense in the last decade neural networks have been proven to be a powerful tool for system modeling. Many interesting applications in the field of system identification, model predictive control, observer design and forecasting can be found in the literature.

Despite those successful results achieved with neural networks, there still remain unsolved a number of key issues such as: difficulty of choosing the number of hidden nodes, the overfitting problem, the existence of local minima solution, poor generalization capabilities and so on.

Support Vector Machines (SVM) have shown their usefulness by improving over the performance of different supervised learning methods, either as classification models or as regression models. The SVM have many advantages, such as non-existence of local minima solutions, good generalization performance, fewer free parameters to be adjusted and a convex optimization problem to be solved.

Although the success of this technique a number of weak points especially concerning the use of SVM for dynamic regression tasks remain to be solved. In fact SVM has been developed mainly for solving classification and static function approximation problems. Indeed, in the case of dynamic systems almost all the work that has been done concerning Support Vector Regression (SVR) is focused in series-parallel identification methods for NARX (Nonlinear autoregressive with exogeneous inputs) modeling. A more difficult identification method like the parallel approach, useful for NARMAX (Nonlinear autoregressive moving average with exogenous inputs) and NOE (Nonlinear output error) system identification has still attracted very little attention. This difficulty lies in the fact that in this case a non convex optimization method has to be used.

In this proposal we aim to perform a comparative study between SVR based methods and neural networks for NARX, NARMAX and NOE system identification. In fact, the most innovative part of the project will be to propose new static and mainly dynamic kernel functions in order to reconvert the non-convex optimization problem left by the recurrent SVR method necessary to tackle NARMAX and NOE identification into a convex optimization one. In a second stage SVR and neural networks will be compared when acting as dynamic models for state observer design.

The study will include numerical simulations using some simple NARX, NARMAX and NOE SISO systems seeking for comparison among generalisation, robustness, complexity, bias, and variance and calibration capabilities of both methods. In a second stage the selected architectures and learning methods as well as the designed observers will be used in some real fermentation, mining and biomedical processes.