Top Qs
Línea de tiempo
Chat
Contexto
Máquina de aprendizaje extremo
tipo de red neuronal artificial De Wikipedia, la enciclopedia libre
Remove ads
Las máquinas de aprendizaje extremo son redes neuronales prealimentadas o feedforward para clasificación, regresión, agrupación, aproximación dispersa, compresión y aprendizaje de características con una sola capa o varias capas de nodos ocultos, en las que es necesario ajustar los parámetros de los nodos ocultos (no sólo los pesos que conectan las entradas con los nodos ocultos). Estos nodos ocultos pueden asignarse aleatoriamente y no actualizarse nunca (es decir, son proyecciones aleatorias pero con transformaciones no lineales), o pueden heredarse de sus antecesores sin modificarse. En la mayoría de los casos, los pesos de salida de los nodos ocultos suelen aprenderse en un solo paso, lo que equivale esencialmente a aprender un modelo lineal.
Guang-Bin Huang dio el nombre de "máquina de aprendizaje extremo" (ELM, por sus siglas en inglés) a este tipo de modelos y propuso originalmente redes con cualquier tipo de nodos ocultos no lineales y continuos a trozos, incluidas neuronas biológicas y distintos tipos de funciones matemáticas básicas.[1] [2] La idea de las redes neuronales artificiales se remonta a Frank Rosenblatt, que no sólo publicó un perceptrón de una sola capa en 1958,[3] sino que también introdujo un perceptrón multicapa con 3 capas: una capa de entrada, una capa oculta con pesos aleatorios que no aprendían y una capa de salida que aprendía.[4][5]
Según algunos investigadores, estos modelos son capaces de producir un buen rendimiento de generalización y aprender miles de veces más rápido que las redes entrenadas mediante retropropagación.[6] En la literatura, también se muestra que estos modelos pueden superar a las máquinas de vectores de soporte tanto en aplicaciones de clasificación como de regresión.[1][7][8]
Remove ads
Historia
Resumir
Contexto
Entre 2001 y 2010, la investigación sobre ELM se centró principalmente en el marco de aprendizaje unificado para redes neuronales de una capa oculta (SLFN) "generalizadas", incluyendo, entre otras, redes sigmoidales, redes RBF, redes umbral,[9] redes trigonométricas, sistemas de inferencia difusa, series de Fourier,[10][11] transformada laplaciana, redes wavelet, etc.[12] Un logro significativo conseguido en esos años es demostrar con éxito las capacidades universales de aproximación y clasificación de ELM en teoría.[10][13][14]
De 2010 a 2015, la investigación sobre ELM se extendió al marco de aprendizaje unificado para el aprendizaje de kernel, SVM y algunos métodos típicos de aprendizaje de características, como el análisis de componentes principales (PCA) y la factorización no negativa de matrices (NMF). Se demuestra que SVM proporciona en realidad soluciones subóptimas en comparación con ELM, y ELM puede proporcionar el mapeo de kernel de caja blanca, que se implementa mediante el mapeo de características aleatorias de ELM, en lugar del kernel de caja negra utilizado en SVM. PCA y NMF pueden considerarse como casos especiales en los que se utilizan nodos ocultos lineales en ELM.[15][16]
De 2015 a 2017, se ha prestado una mayor atención a las implementaciones jerárquicas[17][18] de ELM. Además, desde 2011, se han realizado importantes estudios biológicos que apoyan ciertas teorías de ELM.[19][20][21]
A partir de 2017, para superar el problema de baja convergencia durante la descomposición LU de entrenamiento, los enfoques basados en la descomposición de Hessenberg y la descomposición QR con regularización han comenzado a atraer la atención.[22][23][24]
En 2017, Google Scholar Blog publicó una lista de "Classic Papers: Artículos que han resistido el paso del tiempo".[25] Entre ellos se encuentran dos artículos escritos sobre ELM que se muestran en los estudios 2 y 7 de la "Lista de 10 artículos clásicos sobre IA de 2006".[26][27][28]
Remove ads
Algoritmos
Resumir
Contexto
Dada una única capa oculta del ELM, supongamos que la función de salida del del nodo oculto es , donde y son los parámetros del nodo oculto i-ésimo. La función de salida del ELM para redes feedforward de capa oculta única (SLFN) con nodos ocultos es:
, donde es el peso de salida del nodo oculto .
es el mapeo de salida de la capa oculta del ELM. Dado muestras de entrenamiento, la matriz de salida de la capa oculta de ELM se da como:
y es la matriz objetivo de los datos de entrenamiento:
En términos generales, ELM es un tipo de redes neuronales de regularización pero con mapeos de capa oculta no sintonizados (formados por nodos ocultos aleatorios, kernels u otras implementaciones), su función objetivo es:
donde .
Diferentes combinaciones de , , y pueden utilizarse y dar lugar a diferentes algoritmos de aprendizaje para la regresión, la clasificación, la codificación dispersa, la compresión, el aprendizaje de características y la agrupación.
Como caso especial, un algoritmo de entrenamiento ELM más simple aprende un modelo de la forma (para redes neuronales sigmoidales de una sola capa oculta):
donde W1 es la matriz de pesos de entrada a capa oculta, es una función de activación, y W2 es la matriz de pesos de la capa oculta a la capa de salida. El algoritmo procede como sigue:
- Llenar W1 con valores aleatorios (por ejemplo, ruido aleatorio gaussiano);
- Estimar W2 por ajuste de mínimos cuadrados a una matriz de variables de respuesta Y, calculada mediante la pseudoinversa ⋅+, dada una matriz de diseño X :
Remove ads
Arquitecturas
En la mayoría de los casos, el ELM se utiliza como una red feedforward de una sola capa oculta (SLFN) que incluye, entre otras, redes sigmoidales, redes RBF, redes umbral, redes de inferencia difusa, redes neuronales complejas, redes wavelet, transformada de Fourier, transformada laplaciana, etc. Debido a sus diferentes implementaciones de algoritmos de aprendizaje para regresión, clasificación, codificación dispersa, compresión, aprendizaje de características y agrupación, los ELM múltiples se han utilizado para formar redes de varias capas ocultas, aprendizaje profundo o redes jerárquicas.[17][18][29]
Un nodo oculto en ELM es un elemento computacional, que no necesita ser considerado como una neurona clásica. Un nodo oculto en ELM puede ser neuronas artificiales clásicas, funciones base o una subred formada por algunos nodos ocultos.[13]
Teorías
Resumir
Contexto
En la literatura se han demostrado tanto la capacidad de aproximación universal como la de clasificación[1][7]para ELM. En particular, Guang-Bin Huang y su equipo dedicaron casi siete años (2001-2008) a demostrar rigurosamente la capacidad de aproximación universal del ELM.[10][13][14]
Capacidad de aproximación universal
En teoría, cualquier función continua a trozos no constante puede utilizarse como función de activación en los nodos ocultos del ELM, no es necesario que dicha función de activación sea diferencial. Si el ajuste de los parámetros de los nodos ocultos puede hacer que los SLFN se aproximen a cualquier función objetivo , entonces los parámetros del nodo oculto pueden generarse aleatoriamente según cualquier probabilidad de distribución continua, y se cumple con probabilidad uno con las ponderaciones de salida adecuadas .
Capacidad de clasificación
Dada cualquier función continua a trozos no constante como función de activación en los SLFN, si el ajuste de los parámetros de los nodos ocultos puede hacer que los SLFN se aproximen a cualquier función objetivo , entonces SLFNs con mapeo aleatorio de la capa oculta puede separar regiones disjuntas arbitrarias de cualquier forma.
Remove ads
Neuronas
Resumir
Contexto
Una amplia gama de funciones no lineales continuas a trozos puede utilizarse en neuronas ocultas de ELM, por ejemplo:
Dominio real
Función de Fourier:
Función Hardlimit:
Función multicuadrícula:
Dominio complejo
Funciones circulares:
Funciones circulares inversas:
Funciones hiperbólicas:
Funciones hiperbólicas inversas:
Remove ads
Fiabilidad
Véase también: Inteligencia artificial explicable
El carácter de caja negra de las redes neuronales en general y de las máquinas de aprendizaje extremo (ELM) en particular es una de las principales preocupaciones que repele a los ingenieros a la hora de aplicarlas en tareas de automatización poco seguras. Este problema concreto se ha abordado mediante varias técnicas diferentes. Un enfoque consiste en reducir la dependencia de la entrada aleatoria.[30][31] Otro enfoque se centra en la incorporación de restricciones continuas en el proceso de aprendizaje de las ELM.[32][33] que se derivan del conocimiento previo sobre la tarea específica. Esto es razonable, porque las soluciones de aprendizaje automático tienen que garantizar un funcionamiento seguro en muchos dominios de aplicación. Los estudios mencionados revelaron que la forma especial de los ELMs, con su separación funcional y los pesos lineales de lectura, es particularmente adecuada para la incorporación eficiente de restricciones continuas en regiones predefinidas del espacio de entrada.
Remove ads
Polémica
Resumir
Contexto
Hay dos quejas principales de la comunidad académica con respecto a este trabajo, la primera es sobre "reinventar e ignorar ideas anteriores", la segunda es sobre "nombrar y popularizar incorrectamente", como se muestra en algunos debates en 2008 y 2015.[34] En particular, se señaló en una carta[35] al editor de IEEE Transactions on Neural Networks que la idea de utilizar una capa oculta conectada a las entradas mediante pesos aleatorios no entrenados ya se había sugerido en los artículos originales sobre redes RNA a finales de la década de 1980; Guang-Bin Huang respondió señalando sutiles diferencias.[36] En un artículo de 2015,[1] Huang respondió a las quejas sobre su invención del nombre ELM para métodos ya existentes, quejándose de "comentarios muy negativos y poco útiles sobre ELM de manera ni académica ni profesional debido a diversas razones e intenciones" y un "ataque anónimo irresponsable que pretende destruir el ambiente de investigación en armonía", argumentando que su trabajo "proporciona una plataforma de aprendizaje unificadora" para varios tipos de redes neuronales,[1] incluyendo ELM estructurado jerárquico.[29] En 2015, Huang también dio una refutación formal a lo que consideró como "maligno y ataque"[37] Investigaciones recientes sustituyen los pesos aleatorios por pesos aleatorios restringidos.[7][38]
Remove ads
Fuentes abiertas
Véase también
Referencias
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads