Top Qs
Línea de tiempo
Chat
Contexto

Problema de desvanecimiento de gradiente

problema de entrenamiento del modelo de aprendizaje automático De Wikipedia, la enciclopedia libre

Remove ads

En aprendizaje de máquinas, el problema de desvanecimiento de gradiente es una dificultad encontrada para entrenar redes neuronales artificiales mediante métodos de aprendizaje basados en descenso estocástico de gradientes y de retropropagación. En tales métodos, cada uno de los pesos de la red neuronal recibe una actualización proporcional a la derivada parcial de la función de error con respecto al peso actual en cada iteración de entrenamiento.

El problema es que, en algunos casos, el gradiente se irá desvaneciendo a valores muy pequeños, impidiendo eficazmente el peso de cambiar su valor. En el caso peor, esto puede impedir que la red neuronal continúe su entrenamiento. Como ejemplo de la causa del problema, funciones de activación tradicionales como la función de la tangente hiperbólica tienen gradientes en la gama (-1, 1), y la retropropagación computa gradientes por la regla de la cadena. Esto tiene el efecto de multiplicar n de estos números pequeños para computar gradientes de las "capas" de frente en una red de n capas, significando que el gradiente (señal de error) disminuye exponencialmente con n mientras las capas de frente se entrenan muy despacio.

La retropropagación permitió a los investigadores entrenar redes neuronales supervisadas profundas desde un inicio con muy poco éxito. La tesis de diploma de 1991 de Hochreiter identificó formalmente la razón de este fracaso en el "problema de desvanecimiento de gradiente", lo cual no sólo afectará a las redes prealimentadas de muchas capas, sino también a las redes recurrentes. Estas últimas se entrenan por desdoblamiento en redes neuronales prealimentadas muy profundas, donde se crea una capa nueva cada vez que se da un paso en la secuencia de entrada por la red.[1][2][3][4]

Cuando se usan funciones de activación cuyas derivadas pueden tomar valores más grandes, uno de los riesgos es encontrar el denominado problema de gradiente explosivo.

Remove ads

Modelos prototípicos

Resumir
Contexto

Esta sección se basa en el artículo On the difficulty of training Recurrent Neural Networks de Pascanu, Mikolov y Bengio.[5]

Modelo de red recurrente

Una red recurrente genérica tiene estados ocultos , entradas y salidas . Se parametriza con , de modo que el sistema evoluciona comoA menudo, la salida es una función de , como en . El problema del gradiente que desaparece ya se presenta claramente cuando , por lo que simplificamos nuestra notación al caso especial:Ahora, tomemos su forma diferencial:Entrenar la red requiere definir una función de pérdida a minimizar. Sea [Nota 1] entonces minimizarla mediante descenso de gradiente da como resultado

 

 

 

 

(loss differential)

donde es la tasa de aprendizaje.

El problema del gradiente que desaparece/explota surge debido a multiplicaciones repetidas, de la forma

Ejemplo: red recurrente con activación sigmoide

Para un ejemplo concreto, consideremos una red recurrente típica definida por

donde es el parámetro de la red, es la función sigmoide,[Nota 2] aplicada a cada coordenada del vector por separado, y es el vector de sesgo.

Entonces, , y por lo tanto Dado que , la norma de operador de la multiplicación anterior está acotada por . Así, si el radio espectral de es , entonces para valores grandes de , la multiplicación anterior tiene una norma de operador acotada superiormente por . Este es el problema prototípico del gradiente que desaparece.

El efecto de un gradiente que desaparece es que la red no puede aprender efectos a largo plazo. Recordemos la Ecuación (loss differential):Los componentes de son solo componentes de y , por lo que si están acotados, entonces también está acotado por algún , y por lo tanto los términos en decaen como . Esto significa que, efectivamente, se ve afectado solo por los primeros términos en la suma.

Si , el análisis anterior no funciona del todo.[Nota 3] Para el problema prototípico del gradiente que explota, el siguiente modelo es más claro.

Modelo de sistemas dinámicos

Thumb
Diagrama de bifurcación de la red recurrente de una sola neurona. El eje horizontal es b, y el eje vertical es x. La curva negra es el conjunto de equilibrios estables e inestables. Nótese que el sistema exhibe histéresis, y puede ser usado como una memoria de un bit.

Siguiendo a (Doya, 1993),[6] consideremos esta red recurrente de una sola neurona con activación sigmoide:En el límite de pequeño, la dinámica de la red se convierte enConsideremos primero el caso autónomo, con . Establezcamos y variemos en . A medida que disminuye, el sistema tiene un punto estable, luego tiene 2 puntos estables y 1 punto inestable, y finalmente vuelve a tener 1 punto estable. Explícitamente, los puntos estables son .

Ahora consideremos y , donde es lo suficientemente grande como para que el sistema se haya estabilizado en uno de los puntos estables.

Si coloca el sistema muy cerca de un punto inestable, entonces una pequeña variación en o haría que se mueva de un punto estable a otro. Esto hace que y sean ambos muy grandes, un caso del gradiente que explota.

Si coloca el sistema lejos de un punto inestable, entonces una pequeña variación en no tendría efecto en , haciendo que , un caso del gradiente que desaparece.

Nótese que en este caso, no decae a cero ni explota hasta el infinito. De hecho, es el único gradiente bien comportado, lo que explica por qué las investigaciones iniciales se centraron en aprender o diseñar sistemas de redes recurrentes que pudieran realizar cálculos a largo plazo (como devolver la primera entrada que ven al final de un episodio) modelando sus atractores estables.[7]

Para el caso general, la intuición sigue siendo válida (Figuras 3, 4 y 5).[5]

Modelo geométrico

Continuemos usando la red de una sola neurona mencionada, fijando , y consideremos una función de pérdida definida por . Esto produce un paisaje de pérdida bastante patológico: a medida que se acerca a desde arriba, la pérdida se aproxima a cero, pero tan pronto como cruza , la cuenca del atractor cambia y la pérdida salta a 0.50.[Nota 4]

En consecuencia, intentar entrenar mediante descenso de gradiente "chocaría con una pared en el paisaje de pérdida" y causaría un gradiente que explota. Una situación ligeramente más compleja se grafica en,[5] Figura 6.

Remove ads

Véase también

Notas

  1. Una función de pérdida más general podría depender de toda la secuencia de salidas, como en , para lo cual el problema es el mismo, solo que con notaciones más complejas.
  2. Cualquier función de activación funciona, siempre que sea diferenciable con derivada acotada.
  3. Consideremos y , con y . Entonces tiene un radio espectral , y , lo cual podría ir al infinito o a cero dependiendo de la elección de .
  4. Esto se debe a que en , los dos atractores estables son , y el atractor inestable es .
Remove ads

Referencias

Enlaces externos

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads