MIXTURA DE EXPERTOS NEURONALES PARA TAREAS DE

PREDICCIÓN Y CLASIFICACIÓN.

Pablo Estévez Valencia 1 Marcelo Fernández Yoma 2

 

 

Resumen

En el presente artículo se introduce un modelo modular de redes neuronales denominado mixtura de expertos. Este modelo se aplica a la predicción de una serie de tiempo artificial y a la clasificación de etapas de sueño-vigilia en lactantes con datos reales. Para este último caso se comparan los desempeños de tres modelos conexionistas: redes ganglionares, red neuronal global (perceptrón multicapa) y mixtura de expertos neuronales. Se muestra que mediante el uso de técnicas de poda, binarización de entradas y filtraje por duración de estados, se obtienen mejores resultados de clasificación y de interpretabilidad de los modelos.

 

 

  1. Introducción.

    Las redes neuronales artificiales (RNA) han sido aplicadas exitosamente a la clasificación de patrones [1,6,9,16] y a la predicción de series de tiempo [9,22]. Una de las características más relevantes de las RNA es su capacidad de aproximación universal, i.e. de poder aproximar arbitrariamente bien cualquier función. Además, los modelos de RNA tienen asociados algoritmos de aprendizaje muy eficaces. Entre las desventajas de las RNA, se tiene que éstas carecen del razonamiento simbólico y la representación semántica de los sistemas basados en reglas. Esto conduce a que muchos modelos basados en RNA sean considerados como "cajas negras" por el usuario, dificultando la explicación de los resultados.

    Las redes neuronales modulares se basan en el principio de "dividir para reinar", descomponiendo una función o tarea compleja en un conjunto de funciones o tareas más sencillas [14,18,20]. Uno de estos modelos es el de "Mixtura de Expertos" (ME) [13,15]. La idea básica es simple: en vez de usar una red global, el modelo ME trata de aprender a partir de los datos varios modelos locales, llamados expertos, mientras que simultáneamente aprende a particionar el espacio de entradas. Las redes modulares presentan en general ventajas respecto de una red global desde el punto de vista de generalización, interpretabilidad de la solución y velocidad de convergencia del aprendizaje [14].

    En el presente artículo se aplican mixturas de expertos neuronales a la predicción de una serie de tiempo artificial y a la clasificación de etapas de sueño-vigilia en lactantes con datos reales. Para mayores detalles sobre estas aplicaciones, el lector puede consultar la referencia [7].

  2. Mixtura de Expertos Neuronales.

    Las redes neuronales modulares se basan en la idea de descomponer una función o tarea compleja en funciones o subtareas más sencillas [18]. El modelo de Mixtura de Expertos realiza esta descomposición en forma automática, particionando el espacio de entradas en regiones y asignando módulos "expertos" a cada región.

    La parte del modelo encargada de realizar esta división se denomina red gatilladora o compuerta (gating network) [13,15]. En la Fig. 1 se ilustra el modelo ME para K expertos.

    Fig. 1. Mixtura de Expertos. Las salidas de los K expertos son ponderadas por las salidas de la red gatilladora, e integradas para dar como resultado la salida final.

     

    Para problemas de clasificación, tanto en las redes expertas como en las redes gatilladoras se utilizan funciones de activación del tipo Softmax o logística multinomial:

                           (1)

    donde ui representa la salida lineal i-ésima. En [ 15] se demuestra que equivale a la probabilidad de que la estimación pertenezca a la clase l-ésima, bajo una distribución de tipo Multinomial para L clases. En [15] y [22] se plantean dos características importantes de la función Softmax. En primer lugar, realiza separaciones (lineales o no lineales, dependiendo de la estructura del perceptrón) que permiten que la clasificación sea insensible a la manera en que los datos fueron codificados y en segundo lugar, las divisiones producidas entre las clases son suaves (soft splits) de manera tal que existe un traslape entre ellas. Esto permite que el modelo reduzca su varianza en comparación a una partición dura de los datos (hard split), como es el caso de otros modelos estadísticos, p. ej. CART y MARS [21] .

    En el modelo ME, el aprendizaje es enfocado como un problema de máxima verosimilitud. En particular se utiliza el algoritmo EM (del inglés Expectation-Maximization) [2]. En términos generales, el algoritmo EM se compone de dos etapas, el paso E (expectación) y el paso M (maximización). En el paso E se calcula el valor esperado de las llamadas variables ocultas, utilizando la estimación actual de los parámetros y los datos observados. Con esta información, en el paso M se maximiza la función de verosimilitud, actualizándose los parámetros del modelo. Existen varias maneras de implementar el paso M, en este trabajo se utiliza una extensión del algoritmo de segundo orden BPQ [19]. El algoritmo EM para una mixtura de expertos está descrito en detalle en [4,15,22].

  3. Tareas de Predicción y Clasificación.

3.1 Predicción de Serie de Tiempo.

Como primera aplicación se tratará la predicción de una serie artificial de datos. La serie se compone de dos regímenes cuya transición está regida por un proceso de Markov de primer orden con probabilidad de transición entre estados igual a 0.02 (i.e. se espera que ocurra un cambio de estado cada 50 puntos). Cada régimen i=1,2 se caracteriza por un valor constante, mi, perturbado por ruido aditivo gaussiano ei de media nula y varianza conocida. Esto es:

             (2)

donde switch(t) representa los estados posibles del proceso de Markov y sus valores son –1 y 1. Para construir la base de datos se escogieron los siguientes valores m 1=4.0, e 1=N (0, 0.45) y m 2=10.0, e 2=N (0, 0.10).

En la Fig. 2 se ilustra la serie de tiempo artificial, que se compone de 700 puntos. Los primeros 500 puntos se incluirán dentro del conjunto de entrenamiento y los últimos 200, en validación. No se ha incluido un conjunto de prueba para esta aplicación debido a que el modelo ME resuelve totalmente el problema, como se verá a la luz de los resultados.

Fig. 2 Serie artificial de datos compuesta por dos regímenes, cuyo cambio está gobernado por un proceso de Markov con probabilidad de cambio de estados igual a 0.02.

3.2 Clasificación de Etapas de Sueño.

El estudio de los estados de sueño [3,12] se inicia con el registro simultáneo de señales electrofisiológicas en papel, en medios magnéticos u optomagnéticos de un niño que duerme siesta durante dos o más horas. Dichos registros se denominan polisomnográficos por incluir distintas actividades, entre las que se cuentan la electroencefalográfica (EEG), electrooculográfica (EOG) y electromiográfica (EMG). Durante los distintos estados de sueño el organismo entero varía su comportamiento por lo que se podrían estudiar dichos estados al analizar cualquiera de estas actividades, sin embargo, se utilizan EEG, EOG y EMG en forma simultánea porque en la actualidad son las únicas actividades que permiten una determinación inequívoca de los estados de sueño. De esta manera, cada una de estas señales tiene asociada una actividad, en la que se encuentran patrones característicos de utilidad para determinar los estados de sueño.

El EEG es un conjunto de señales asociadas a la actividad cortical. Para efectos de clasificar las etapas de sueño, las ondas de interés son las llamadas Ondas Delta Lentas (DL), Ondas Theta (TH) y los Husos de Sueño (HS). El EOG registra los movimientos oculares rápidos (MOR) con una o dos derivaciones bipolares. Finalmente, el EMG registra el tono muscular (TM) del eje axial. En resumen, las señales EEG, EOG y EMG producen 5 antecedentes característicos: DL, TH, HS, MOR y TM. La Fig. 3 muestra ejemplos de cada uno de los cinco patrones característicos.

Fig. 3 Ejemplos de patrones buscados en las señales de EEG (ondas theta, ondas delta lentas y husos sigma), de EOG (movimientos oculares rápidos) y de EMG (tono muscular).

La clasificación de los estados de sueño y vigilia se divide en 6 categorías:

1. Vigilia (VI).

2. Sueño Quieto 1 (SQ 1).

3. Sueño Quieto 2 (SQ 2).

4. Sueño Quieto 3 y 4 (SQ 34).

5. Sueño Paradójico (SP).

6. Sueño Indeterminado (SI).

 

Estos estados se caracterizan por la presencia (predominancia en algunos casos) o ausencia de cada uno de los 5 antecedentes característicos mencionados más arriba. La Tabla 1 ilustra el criterio de clasificación estándar usado en medicina del sueño para las categorías 1 a 5 [3]. En esta tabla, SI y NO indican que se requiere la presencia o ausencia de un patrón determinado. El símbolo X indica indiferencia ante la presencia/ausencia de un patrón. A modo de ejemplo, el estado de sueño paradójico, que corresponde al sueño más profundo, se caracteriza básicamente por la presencia de movimientos oculares rápidos y por la ausencia de tono muscular. La categoría sueño indeterminado se utiliza cuando no se cumple ninguno de los criterios de la tabla.

Tabla 1. Caracterización de los estados de sueño y vigilia entregada por expertos médicos.

 

Estado

DL

TH

HS

MOR

TM

VI

NO

X

NO

SI

SI

SQ1

NO

SI

NO

NO

X

SQ2

NO

X

SI

NO

X

SQ3y4

SI

NO

X

NO

X

SP

X

SI

NO

SI

NO

 

Los patrones pueden presentar "artefactos", que corresponden a alteraciones o distorsiones generadas por múltiples causas (movimientos, interferencias del entorno o de otros aparatos eléctricos, etc.). En [12,17] se construyó una base de datos analizando los registros polisomnográficos de cuatro lactantes. Los datos se dividieron en cinco conjuntos: un conjunto de entrenamiento, un conjunto de validación y otro de prueba sin artefactos (SA), y un conjunto de validación y otro de prueba con artefactos (CA). No se dispone de un conjunto de entrenamiento con artefactos, sino que se utiliza el mismo conjunto que para el caso sin artefactos.

El conjunto de entrenamiento es utilizado para optimizar los parámetros del modelo. El conjunto de validación se usa para escoger el mejor modelo ante datos no usados para el ajuste de los parámetros y el conjunto de prueba sirve para medir la capacidad de generalización del modelo ante datos completamente independientes. En la Tabla 2 se especifica el número de patrones por clase para cada uno de los cinco conjuntos descritos. Cada patrón corresponde a una página del registro polisomnográfico (20 ó 30 seg.).

Tabla 2. Base de Datos.

 

Conjunto

VI

SQ1

SQ2

SQ34

SP

SI

Total

Entrenamiento

70

39

45

49

38

4

245

Validación SA

28

13

33

49

12

3

138

Prueba SA

26

13

38

47

15

2

141

Validación CA

29

21

43

50

22

3

168

Prueba CA

28

20

57

50

22

2

179

Para las simulaciones que se realizaron en este trabajo, cuyos resultados se presentan en la próxima sección, se descartó la clase SI (sueño indeterminado) por contarse con un número muy reducido de ejemplos, en comparación con las otras clases.

4. Resultados.

A continuación se presentan los resultados de las simulaciones para las tareas de predicción y clasificación definidas en la sección anterior.

4.1 Serie de tiempo de dos regímenes.

La solución de este problema radica en ajustarse correctamente a los regímenes que componen la serie, de acuerdo a los valores de la variable switch, y descubrir los valores medios y varianzas respectivas. La parte encargada de modelar el switch es la red gatilladora, mientras que los expertos predicen los valores asociados a cada estado tomando como entradas los valores entregados por la variable switch. Por construcción, se tiene que una arquitectura de dos expertos y una red gatilladora es suficiente para solucionar esta tarea. Más aún, dadas sus características, basta que las redes se compongan de un solo peso, además de las varianzas para el caso de los expertos. Bajo estas consideraciones, el problema estará totalmente resuelto si el peso asociado al término constante de uno de los expertos converge a 4.0 y su varianza a 0.45, mientras que para el otro experto, su peso tiende a 10.0 y su varianza a 0.1. Con respecto a la red gatilladora, ésta debe ser capaz de asignar todo el crédito a uno u otro experto de acuerdo a los valores de la variable switch. Para que ello ocurra, y considerando que en este caso las salidas de la gatilladora se pueden calcular como

,

 

asociada al experto 1, y como , para el experto 2, basta que su peso, q , tome un valor elevado para cambiar correctamente de experto. Por ejemplo, si éste toma el valor 10, se tiene y cuando . Por otro lado, si , y , lo que cumple con lo requerido. Para realizar las diversas simulaciones se asignó el mismo valor inicial de varianza (1.0) a cada experto, para no dar preferencia a ninguno de los dos. Los pesos se inicializaron aleatoriamente en el intervalo [-0.5; 0.5]. En todas las simulaciones el modelo convergió a valores muy similares, siendo capaz de resolver totalmente el problema en sólo 3 a 4 épocas. El error cuadrático medio convergió a 0.24 en entrenamiento y 0.30 en validación. Estos errores remanentes se explican debido a que sólo interesa identificar el valor medio y la varianza de cada régimen, y no el ruido aditivo.

 

En la Fig. 4 se puede apreciar cómo la red gatilladora descubre el comportamiento del switch que rige la transición entre ambos estados sobre el conjunto de validación. La red da crédito al experto 1 por el estado de media 4 y al experto 2, por el de media 10. Esto fue posible gracias a que el peso de la red gatilladora convergió a 15. Las varianzas de los expertos comienzan con el mismo valor, 1.0, y convergen a 0.10 y a 0.44, respectivamente. Dichos valores coinciden con las varianzas observadas en la base de datos de 700 puntos (cuyos valores nominales son 0.10 y 0.45). A su vez los pesos (bias) de los expertos convergen a –4.0, para el experto 1 y 10.0 para el experto 2. El valor negativo del peso asociado al experto 1 se explica por el valor –1 de la variable switch. Cabe hacer notar la influencia de los valores iniciales en la asignación de tareas que hizo la red gatilladora. Si el peso inicial del experto 1 es menor, éste consigue un mejor desempeño para el proceso de media 4.0, por lo que la red gatilladora le da crédito por dicha tarea. Lo opuesto ocurre con el experto 2, el que es más apto para resolver el proceso de media 10.0.

Fig. 4 Comparación entre el switch que define la serie de tiempo (gráfico superior) y las salidas de la red gatilladora asociadas al experto 1 y 2 (gráficos medio e inferior, respectivamente), sobre el conjunto de validación.

A través de esta aplicación se ha ilustrado cómo funciona el modelo de mixtura de expertos, pudiéndose interpretar directamente la representación interna de los datos.

4.2 Clasificación de etapas de sueño.

Las mixturas de expertos neuronales se compararon con otros dos modelos: reticulados ganglionares (RG) [11] y redes perceptrón multicapa (MLP) [1,9]. Para más detalles sobre esta comparación ver [5] y [8].

Para los reticulados ganglionares se utilizó una estructura correspondiente a 5 unidades de razonamiento básico, sin conexiones entre sí, una para cada una de las 5 clases que componen el problema. Los antecedentes considerados para cada una de ellas, según la información proporcionada por los expertos médicos, fueron los siguientes:

VI = VI (DL, HS, MOR, TM).

SQ 1 = SQ 1 (DL, TH, HS, MOR).

SQ 2 = SQ 2 (DL, HS, MOR).

SQ 34 = SQ34 (DL, TH, MOR).

SP = SP (TH, HS, MOR, TM).

El RG resultante tiene 80 parámetros, al incluir los productos cruzados de hasta tercer o cuarto orden, según el número de antecedentes. Tanto la tasa de aprendizaje como el factor de inercia utilizados para entrenar el RG, mediante el método del gradiente, fueron determinados empíricamente para cada unidad por separado. Sus valores son los siguientes: VI: 0.01, 0.005; SQ1: 0.005, 0.0025; SQ2: 0.04, 0.02; SQ34: 0.04, 0.02; SP: 0.02, 0.0005.

 

La arquitectura de la red neuronal global MLP consistió en una capa oculta, alimentada directamente con las 5 entradas originales. Para determinar el número óptimo de unidades ocultas se hizo una exploración entre 3 y 9 unidades. Los resultados, con diez simulaciones arrojaron que para el caso sin artefactos (SA) la mejor red consta de 6 unidades en la capa oculta y de 7 para el caso con artefactos (CA). De esta manera, el número de parámetros asociado a este modelo es de 71 para el caso SA y de 82 para el CA.

 

En el modelo de mixtura de expertos, se utilizaron redes neuronales sin capas ocultas, tanto para los dos expertos como para la red gatilladora. Las 5 entradas originales alimentaron todas las unidades del modelo. El número de parámetros asciende a 54. Cabe notar que tanto para MLP como ME las tasas de aprendizaje son determinadas automáticamente por el algoritmo de segundo orden BPQ, de modo que no se requiere especificar parámetros de aprendizaje. En todos los casos el algoritmo de aprendizaje se detiene cuando el error en el conjunto de validación ha alcanzado un mínimo.

 

La Tabla 3 muestra los porcentajes de clasificaciones correctas obtenidos para cada uno de los tres modelos considerados, promediados sobre diez simulaciones con diferentes inicializaciones aleatorias de los pesos y sus respectivas desviaciones estándares, para el caso SA. La Tabla 4 muestra los resultados cuando se utilizan los conjuntos de validación y prueba con artefactos (CA). Se muestran además los valores de probabilidad (p) del test estadístico t-student para la hipótesis de que las medias poblaciones sean iguales. De las tablas 3 y 4 se aprecia que no hay diferencias estadísticamente significativas al nivel de significancia 0.01 entre el desempeño del modelo ME y el de los modelos RG y MLP, tanto para el caso con artefactos como sin artefactos. Nótese sin embargo que ME es el modelo que ofrece menor varianza en general.

Tabla 3. Resultados de entrenamiento, validación y prueba sin artefactos.

 

Porcentaje de Clasificaciones Correctas

Modelo

Entrenamiento

Validación

Prueba

MLP

100.0 ± 0.0

96.6 ± 0.7

92.0 ± 0.9

RG

96.7 ± 2.2

94.0 ± 2.5

93.4 ± 1.2

ME

100.0 ± 0.0

97.3 ± 0.3

92.7 ± 0.5

p ME RG

0.057

0.072

0.216

p ME MLP

---

0.114

0.043

 

Tabla 4. Resultados de entrenamiento, validación y prueba con artefactos.

 

Porcentaje de Clasificaciones Correctas

Modelo

Entrenamiento

Validación

Prueba

MLP

100.0 ± 0.0

88.8 ± 0.7

80.4 ± 1.1

RG

96.6 ± 2.2

86.8 ± 2.4

81.1 ± 1.7

ME

99.5 ± 0.5

89.6 ± 0.6

81.4 ± 1.1

p ME RG

0.071

0.088

0.653

p ME MLP

0.109

0.012

0.065

 

La Fig. 5 ilustra un mapa de Kohonen correspondiente al conjunto de entrenamiento. Se observa claramente que las clases son separables, lo que avala el resultado de clasificación perfecta en entrenamiento.

En [5] se mostró que los resultados obtenidos con el modelo ME son susceptibles de ser mejorados mediante técnicas de poda, binarización de entradas y filtraje por duración de estados. La poda se refiere a la selección de entradas. En el caso de la red global MLP no es posible eliminar ninguna entrada, ya que todas ellas son relevantes. El modelo RG incluye una selección de entradas dada por el médico experto. Para el modelo ME es posible eliminar algunas entradas a cada red, ya que se aplican las mismas entradas a las redes gatilladoras y expertas. La binarización de la entrada MOR usando un umbral cercano a cero, permitió eliminar la mayoría de las confusiones entre SQ1 y SP. Por si sola esta binarización condujo a una ganancia de aproximadamente 5 puntos en el porcentaje de clasificaciones correctas en prueba para ambos conjuntos de datos. El filtraje por duración de estados consiste en aplicar el criterio de los expertos que establece que un estado debe durar a lo menos un minuto (dos páginas de registro). Este criterio se detalla en [3, 12]. Por tanto cualquier variación en la combinación de patrones que se observe por menos de un minuto se clasifica de la misma forma que el estado determinado en el intervalo anterior.

 

Fig. 5 Mapa de Kohonen correspondiente al conjunto de entrenamiento. Las clases se identifican de la siguiente manera: A=VI, B=SQ1, C=SQ2, D=SQ34, E=SP. Las líneas destacan la separación entre las clases.

 

Las Tablas 5 y 6 muestran los resultados finales para los tres modelos conexionistas aplicados sobre ambos conjuntos de datos, CA y SA respectivamente. El modelo RG fue usado sólo como referencia [12], y por tanto no se aplicó en éste la binarización de la entrada MOR. Las redes MLP y ME en cambio si incluyen binarización de MOR. Con el conjunto de prueba sin artefactos no se encontraron diferencias estadísticamente significativas entre los tres modelos. En cambio, con el conjunto de datos con artefactos se encontraron diferencias significativas entre ME y MLP, al nivel de significancia 0.01.

Tabla 5. Resultados finales para el conjunto de datos sin artefactos (SA).

 

Porcentaje de Clasificaciones Correctas

Modelo

Entrenamiento

Validación

Prueba

MLP

100.0 ± 0.0

99.9 ± 0.2

98.6 ± 0.0

RG

97.7 ± 1.7

97.3 ± 2.0

97.1 ± 0.7

ME

99.3 ± 1.6

98.8 ± 0.6

98.6 ± 0.0

 

Tabla 6. Resultados finales para el conjunto de datos con artefactos (CA).

 

Porcentaje de Clasificaciones Correctas

Modelo

Entrenamiento

Validación

Prueba

MLP

100.0 ± 0.0

96.7 ± 0.8

90.7 ± 0.4

RG

97.7 ± 1.7

92.6 ± 2.0

87.9 ± 2.2

ME

99.4 ± 0.4

96.6 ± 0.7

94.3 ± 1.6

Al comparar los distintos modelos no sólo es importante considerar el desempeño de estos en generalización, sino que también el grado de comprensión o la interpretabilidad que el modelo ofrece. Esto es muy importante en ciertas áreas tales como medicina donde es relevante dar una explicación coherente del resultado. En este sentido interesa un modelo sencillo, con el menor número de parámetros, y con un número reducido de entradas por unidad.

Si se comparan las redes resultantes, se tiene que en el caso del MLP (red global) es muy difícil determinar de qué manera se está representando la data y cómo se está resolviendo el problema (efecto caja negra). Por su parte, el RG ofrece la ventaja de ser un modelo sencillo aunque con un gran número de parámetros asociados a términos de alto orden. En el modelo ME, en cambio, la manera de resolver el problema puede visualizarse en forma más natural al observar la salida de la red gatilladora. En la Fig. 6 se ilustra la salida de la red gatilladora, observándose que los expertos se responsabilizan básicamente por clases completas. Esto revela que existe un grupo de dos clases y otro de tres, que pueden ser separados linealmente. Los dos módulos expertos se especializan en los grupos VI-SP y SQ1-SQ2-SQ34, respectivamente.

Según los expertos médicos [3,12] la presencia de movimientos oculares rápidos es determinante para separar a VI y SP del resto de las clases. Esto podría explicar la respuesta de la red gatilladora, sin embargo, esta red también considera las entradas DL y HS las cuales sirven para separar a SQ2 del resto, por lo que, eventualmente habría dos tipos de soluciones. Al observar el mapa de Kohonen de la Fig. 5 para el conjunto de entrenamiento, se aprecia que las clases VI y SP son vecinas, lo que pudo favorecer su separación del resto. Un resultado más concluyente se podría haber conseguido si el conjunto de entrenamiento contara con artefactos. Por otro lado, el modelo final ME consta de 40 parámetros, lo que equivale a un 74% del modelo original. Si se compara con el número de parámetros requerido por MLP para CA (82), esto equivale sólo a un 49%. No se realizó una comparación exhaustiva de velocidad de convergencia, porque se ocupan algoritmos de primer orden en el caso RG, y de segundo orden en MLP y ME. Sin embargo, con RG se obtuvieron tiempos de convergencia de 10 minutos (en promedio) versus 20 segundos con MLP (las pruebas fueron hechas en una estación de trabajo SparcUltra de 167 MHz), lo cual indica claramente la superioridad del algoritmo de segundo orden.

 

Fig. 6 Salidas de la red gatilladora para ME en una de las simulaciones sobre el conjunto de entrenamiento. El gráfico superior indica en el eje de las ordenadas, el valor de la salida de la red gatilladora asociada al experto 1 y en el eje de las abscisas, el número de patrones. Los valores en el eje de las abscisas corresponden al término de cada categoría (que se ilustran en la parte superior de la figura). El gráfico inferior ilustra la salida gatilladora asociada al experto 2, que es el complemento de la salida gatilladora asociada al experto 1.

 

5. Conclusiones.

 

En este trabajo se ha aplicado el modelo de mixturas de expertos neuronales a tareas de predicción y clasificación. Primero se abordó el problema de la predicción de una serie de tiempo artificial de dos regímenes. Como segunda aplicación se trató el problema de la clasificación de etapas de sueño y vigilia. Para este último caso, se compararon los desempeños de tres modelos: reticulados ganglionares, red neuronal global MLP y mixtura de expertos neuronales. Es interesante destacar que a pesar de que los tres modelos comparados poseen arquitecturas diferentes, los resultados obtenidos en prueba (generalización) son muy similares. Esto quiere decir que siendo el problema de clasificación de etapas de sueño un problema no linealmente separable, hasta donde se conoce, éste se puede resolver alternativamente mediante la adición de una capa oculta en el modelo MLP, de términos de alto orden en el modelo RG o de una red gatilladora en ME.

Por otra parte se ha mostrado el efecto beneficioso de la poda de entradas, binarización de entradas y filtraje por duración de estados en el desempeño final de los modelos. De esta forma se han obtenido modelos con mejores tasas de clasificación y menos parámetros. En particular, los resultados sugieren que el modelo de mixtura de expertos es más robusto que los otros modelos ante la presencia de artefactos. Además el modelo ME obtenido no usa capas ocultas ni términos de alto orden, siendo más fácilmente interpretable.

Recientemente se ha expandido la base de datos de sueño en un factor de cinco, lo que podría ayudar a mejorar la representatividad de los conjuntos de entrenamiento, validación y prueba [3]. Por otra parte, se está explorando también un enfoque neuro-difuso que permita la extracción automática del conocimiento en la forma de reglas [10].

 

Agradecimientos.

Se agradece el financiamiento obtenido a través de Conicyt-Chile bajo el proyecto Fondecyt 1980909, y del Departamento de Ingeniería Eléctrica de la Universidad de Chile.

 

Referencias.

[1]Bishop C., Neural Networks for Pattern Recognition, Oxford University Press, New York, 1995.

[2] Dempster A. P., Laird N. M. y Rubin D. B., "Maximun Likelihood from Incomplete Data via the EM algorithm", J. R. Statist. Soc. B 39, pp. 1-38, 1977.

[3] Estévez, P., Held, C., Holzmann, C., Pérez, C., Pérez, J.P., Heiss, J., Garrido, M. and Peirano, P., "Polysomnograhic Pattern Recognition for Automated Classification of Sleep-Waking States in Infants", Medical & Biological Engineering & Computing, Enero 2002 (en prensa).

[4] Estévez, P., Paugam-Moisy, H., Puzenat, D. and Ugarte, M., "A Scalable Parallel Algorithm for Training a Hierarchical Mixture of Neural Experts", Parallel Computing (enviada).

[5] Estévez, P., Fernández, M., Held, C., Holzmann, C., Pérez, C. and Pérez, J.P., "Classification of Sleep-Waking States using

Modular Neural Networks", 2000 IEEE International Conference on Systems, Man and Cybernetics, Nashville, Tennessee, USA, Oct. 2000, pp. 2580-2585.

[6] Estévez P. A., "Clasificación de Patrones mediante Redes Neuronales Artificiales", Anales del Instituto de Ingenieros de Chile 111,1, pp. 24-31, Abril de 1999.

[7] Fernández M., "Mixtura de Expertos Neuronales para Tareas de Clasificación y Regresión", Memoria de Ingeniero Civil Electricista, Universidad de Chile, 2001.

[8] Fernández, M. y Estévez, P., "Comparación de Redes Neuronales y Reticulados Ganglionares para la Clasificación de Etapas de Sueño y Vigilia", Anales XIII Congreso Chileno de Ingeniería Eléctrica, Nov. 1999, pp. 430-435.

[9] Haykin, Neural Networks: A Comprehensive Fundation, IEEE Press, 1994.

[10] Heiss, J., Held, C., Estévez, P., Holzmann, C., Pérez, C. and Pérez, J.P., "Classification of Sleep-Waking States in Infants: A Neuro-fuzzy Approach", 23rd International Conference of the IEEE Engineering in Medicine and Biology, Istanbul, Turkey, Oct. 2001, 4 pp.

[11] Holzmann C., Ehijo A. y Pérez C. "Methodology for an Expert System on Fuzzy Analog Ganglionar Lattices", Medical Progress through Technology 21, pp. 147-158, 1996.

[12] Holzmann C., Pérez C., Held C., San Martín M., Pizarro F., Pérez J., Garrido M. y Peirano P.. "Expert System Classification of Sleep-Waking States in Infants". Medical & Biological Engineering & Computing, 37, pp. 466-476, 1999.

[13] Jacobs R. A., Jordan M. I., Nowlan S. J. y Hinton G. E., "Adaptive Mixtures of Local Experts", Neural Computation 3(1), pp. 79-87, 1991.

[14] Jacobs R. A., Jordan M. I., y Barto A. G., "Task Decomposition through Competition in a Modular Connectionist Architecture – the What and Where Vision Tasks", Cognitive Science 15(2), pp. 219-250, 1991.

[15] Jordan M. I. y Jacobs R. A., "Hierarchical Mixtures of Experts and the EM algorithm", Neural Computation 6(2), pp. 181-214, 1994.

[16] Pao, Y.H., Adaptive Pattern Recognition and Neural Networks, Addison-Wesley, 1989.

[17] Pizarro F. "Desarrollo de un Sistema Experto para Clasificar los Estados de Sueño y la Vigilia", Tesis de Magister en Ciencias, mención Computación, Universidad de Chile, Diciembre, 1998.

[18] Ronco E. y Gawthrop P., "Modular Neural Networks: a State of the Art", Technical Report CSC-95026, Centre for System and Control, University of Glasgow, Glasgow, Uk, 1995.

[19] Saito K. y Nakano R., "Partial BFGS Update and Efficient Step-length Calculation for Three-layer Neural Networks", Neural Computation 9, pp. 123-141, 1997.

[20] Sharkey, A., "Multi-net Systems", in Combining Artificial Neural Nets, Amanda Sharkey (ed.), Springer-Verlag, London, pp. 1-30, 1999.

[21] Waterhouse S. R., "Classification and Regression Using Mixtures of Experts", Ph.D. Thesis, University of Cambridge. 1998.

[22] Weigend A. S., Mangeas M. y Srivastava, A. N., "Nonlinear Gated Experts for Time Series – Discovering Regimes and Avoiding Overfitting", International Journal of Neural Systems 6(4), pp. 373-399, 1995.