Problema de desvanecimiento de gradiente

En aprendizaje de máquinas, el problema de desvanecimiento de gradiente es una dificultad encontrada para entrenar redes neuronales artificiales mediante métodos de aprendizaje basados en descenso estocástico de gradientes y de retropropagación. En tales métodos, cada uno de los pesos de la red neuronal recibe una actualización proporcional a la derivada parcial de la función de error con respecto al peso actual en cada iteración de entrenamiento.

El problema es que, en algunos casos, el gradiente se irá desvaneciendo a valores muy pequeños, impidiendo eficazmente el peso de cambiar su valor. En el caso peor, esto puede impedir que la red neuronal continúe su entrenamiento. Como ejemplo de la causa del problema, funciones de activación tradicionales como la función de la tangente hiperbólica tienen gradientes en la gama (-1, 1), y la retropropagación computa gradientes por la regla de la cadena. Esto tiene el efecto de multiplicar n de estos números pequeños para computar gradientes de las "capas" de frente en una red de n capas, significando que el gradiente (señal de error) disminuye exponencialmente con n mientras las capas de frente se entrenan muy despacio.

La retropropagación permitió a los investigadores entrenar redes neuronales supervisadas profundas desde un inicio con muy poco éxito. La tesis de diploma de 1991 de Hochreiter identificó formalmente la razón de este fracaso en el "problema de desvanecimiento de gradiente", lo cual no sólo afectará a las redes prealimentadas de muchas capas, sino también a las redes recurrentes. Estas últimas se entrenan por desdoblamiento en redes neuronales prealimentadas muy profundas, donde se crea una capa nueva cada vez que se da un paso en la secuencia de entrada por la red.^[1]^[2]^[3]^[4]

Cuando se usan funciones de activación cuyas derivadas pueden tomar valores más grandes, uno de los riesgos es encontrar el denominado problema de gradiente explosivo.

Esta sección se basa en el artículo On the difficulty of training Recurrent Neural Networks de Pascanu, Mikolov y Bengio.^[5]

Modelo de red recurrente

Una red recurrente genérica tiene estados ocultos $h_{1},h_{2},...$ , entradas $u_{1},u_{2},...$ y salidas $x_{1},x_{2},...$ . Se parametriza con $\theta$ , de modo que el sistema evoluciona como $(h_{t},x_{t})=F(h_{t-1},u_{t},\theta )$ A menudo, la salida $x_{t}$ es una función de $h_{t}$ , como en $x_{t}=G(h_{t})$ . El problema del gradiente que desaparece ya se presenta claramente cuando $x_{t}=h_{t}$ , por lo que simplificamos nuestra notación al caso especial: $x_{t}=F(x_{t-1},u_{t},\theta )$ Ahora, tomemos su forma diferencial: ${\begin{aligned}dx_{t}&=\nabla _{\theta }F(x_{t-1},u_{t},\theta )d\theta +\nabla _{x}F(x_{t-1},u_{t},\theta )dx_{t-1}\\&=\nabla _{\theta }F(x_{t-1},u_{t},\theta )d\theta +\nabla _{x}F(x_{t-1},u_{t},\theta )(\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )d\theta +\nabla _{x}F(x_{t-2},u_{t-1},\theta )dx_{t-2})\\&=\cdots \\&=\left(\nabla _{\theta }F(x_{t-1},u_{t},\theta )+\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )+\cdots \right)d\theta \end{aligned}}$ Entrenar la red requiere definir una función de pérdida a minimizar. Sea $L(x_{T},u_{1},...,u_{T})$ ^{[Nota 1]} entonces minimizarla mediante descenso de gradiente da como resultado

$dL=\nabla _{x}L(x_{T},u_{1},...,u_{T})\left(\nabla _{\theta }F(x_{t-1},u_{t},\theta )+\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )+\cdots \right)d\theta$

(loss differential)

$\Delta \theta =-\eta \cdot \left[\nabla _{x}L(x_{T})\left(\nabla _{\theta }F(x_{t-1},u_{t},\theta )+\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )+\cdots \right)\right]^{T}$ donde $\eta$ es la tasa de aprendizaje.

El problema del gradiente que desaparece/explota surge debido a multiplicaciones repetidas, de la forma $\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{x}F(x_{t-2},u_{t-1},\theta )\nabla _{x}F(x_{t-3},u_{t-2},\theta )\cdots$

Ejemplo: red recurrente con activación sigmoide

Para un ejemplo concreto, consideremos una red recurrente típica definida por

$x_{t}=F(x_{t-1},u_{t},\theta )=W_{rec}\sigma (x_{t-1})+W_{in}u_{t}+b$ donde $\theta =(W_{rec},W_{in})$ es el parámetro de la red, $\sigma$ es la función sigmoide,^{[Nota 2]} aplicada a cada coordenada del vector por separado, y $b$ es el vector de sesgo.

Entonces, $\nabla _{x}F(x_{t-1},u_{t},\theta )=W_{rec}\mathop {diag} (\sigma '(x_{t-1}))$ , y por lo tanto ${\begin{aligned}\nabla _{x}F(x_{t-1},u_{t},\theta )&\nabla _{x}F(x_{t-2},u_{t-1},\theta )\cdots \nabla _{x}F(x_{t-k},u_{t-k+1},\theta )\\=W_{rec}\mathop {diag} (\sigma '(x_{t-1}))&W_{rec}\mathop {diag} (\sigma '(x_{t-2}))\cdots W_{rec}\mathop {diag} (\sigma '(x_{t-k}))\end{aligned}}$ Dado que $|\sigma '|\leq 1$ , la norma de operador de la multiplicación anterior está acotada por $\|W_{rec}\|^{k}$ . Así, si el radio espectral de $W_{rec}$ es $\gamma <1$ , entonces para valores grandes de $k$ , la multiplicación anterior tiene una norma de operador acotada superiormente por $\gamma ^{k}\to 0$ . Este es el problema prototípico del gradiente que desaparece.

El efecto de un gradiente que desaparece es que la red no puede aprender efectos a largo plazo. Recordemos la Ecuación (loss differential): $\nabla _{\theta }L=\nabla _{x}L(x_{T},u_{1},...,u_{T})\left(\nabla _{\theta }F(x_{t-1},u_{t},\theta )+\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )+\cdots \right)$ Los componentes de $\nabla _{\theta }F(x,u,\theta )$ son solo componentes de $\sigma (x)$ y $u$ , por lo que si $u_{t},u_{t-1},...$ están acotados, entonces $\|\nabla _{\theta }F(x_{t-k-1},u_{t-k},\theta )\|$ también está acotado por algún $M>0$ , y por lo tanto los términos en $\nabla _{\theta }L$ decaen como $M\gamma ^{k}$ . Esto significa que, efectivamente, $\nabla _{\theta }L$ se ve afectado solo por los primeros términos $O(\gamma ^{-1})$ en la suma.

Si $\gamma \geq 1$ , el análisis anterior no funciona del todo.^{[Nota 3]} Para el problema prototípico del gradiente que explota, el siguiente modelo es más claro.

Modelo de sistemas dinámicos

Siguiendo a (Doya, 1993),^[6] consideremos esta red recurrente de una sola neurona con activación sigmoide: $x_{t+1}=(1-\epsilon )x_{t}+\epsilon \sigma (wx_{t}+b)+\epsilon w'u_{t}$ En el límite de $\epsilon$ pequeño, la dinámica de la red se convierte en ${\frac {dx}{dt}}=-x(t)+\sigma (wx(t)+b)+w'u(t)$ Consideremos primero el caso autónomo, con $u=0$ . Establezcamos $w=5.0$ y variemos $b$ en $[-3,-2]$ . A medida que $b$ disminuye, el sistema tiene un punto estable, luego tiene 2 puntos estables y 1 punto inestable, y finalmente vuelve a tener 1 punto estable. Explícitamente, los puntos estables son $(x,b)=\left(x,\ln \left({\frac {x}{1-x}}\right)-5x\right)$ .

Ahora consideremos ${\frac {\Delta x(T)}{\Delta x(0)}}$ y ${\frac {\Delta x(T)}{\Delta b}}$ , donde $T$ es lo suficientemente grande como para que el sistema se haya estabilizado en uno de los puntos estables.

Si $(x(0),b)$ coloca el sistema muy cerca de un punto inestable, entonces una pequeña variación en $x(0)$ o $b$ haría que $x(T)$ se mueva de un punto estable a otro. Esto hace que ${\frac {\Delta x(T)}{\Delta x(0)}}$ y ${\frac {\Delta x(T)}{\Delta b}}$ sean ambos muy grandes, un caso del gradiente que explota.

Si $(x(0),b)$ coloca el sistema lejos de un punto inestable, entonces una pequeña variación en $x(0)$ no tendría efecto en $x(T)$ , haciendo que ${\frac {\Delta x(T)}{\Delta x(0)}}=0$ , un caso del gradiente que desaparece.

Nótese que en este caso, ${\frac {\Delta x(T)}{\Delta b}}\approx {\frac {\partial x(T)}{\partial b}}=\left({\frac {1}{x(T)(1-x(T))}}-5\right)^{-1}$ no decae a cero ni explota hasta el infinito. De hecho, es el único gradiente bien comportado, lo que explica por qué las investigaciones iniciales se centraron en aprender o diseñar sistemas de redes recurrentes que pudieran realizar cálculos a largo plazo (como devolver la primera entrada que ven al final de un episodio) modelando sus atractores estables.^[7]

Para el caso general, la intuición sigue siendo válida (Figuras 3, 4 y 5).^[5]

Modelo geométrico

Continuemos usando la red de una sola neurona mencionada, fijando $w=5,x(0)=0.5,u(t)=0$ , y consideremos una función de pérdida definida por $L(x(T))=(0.855-x(T))^{2}$ . Esto produce un paisaje de pérdida bastante patológico: a medida que $b$ se acerca a $-2.5$ desde arriba, la pérdida se aproxima a cero, pero tan pronto como $b$ cruza $-2.5$ , la cuenca del atractor cambia y la pérdida salta a 0.50.^{[Nota 4]}

En consecuencia, intentar entrenar $b$ mediante descenso de gradiente "chocaría con una pared en el paisaje de pérdida" y causaría un gradiente que explota. Una situación ligeramente más compleja se grafica en,^[5] Figura 6.

Problema de desvanecimiento de gradiente

Modelos prototípicos

Modelo de red recurrente

Ejemplo: red recurrente con activación sigmoide

Modelo de sistemas dinámicos

Modelo geométrico

Véase también

Notas

Referencias

Enlaces externos

Wikiwand - on