Problema della scomparsa del gradiente
problema nell'addestramento delle reti neurali profonde / Da Wikipedia, l'enciclopedia encyclopedia
Il problema della scomparsa del gradiente (in lingua inglese vanishing gradient problem) è un fenomeno che crea difficoltà nell'addestramento delle reti neurali profonde tramite retropropagazione dell'errore mediante discesa stocastica del gradiente. In tale metodo, ogni parametro del modello riceve a ogni iterazione un aggiornamento proporzionale alla derivata parziale della funzione di costo rispetto al parametro stesso. Una delle principali cause è la presenza di funzioni di attivazione non lineari classiche, come la tangente iperbolica o la funzione logistica, che hanno gradiente a valori nell'intervallo . Poiché nell'algoritmo di retropropagazione i gradienti ai vari livelli vengono moltiplicati tramite la regola della catena, il prodotto di numeri in decresce esponenzialmente rispetto alla profondità della rete. Quando invece il gradiente delle funzioni di attivazione può assumere valori elevati, un problema analogo che può manifestarsi è quello dell'esplosione del gradiente.
La retropropagazione dell'errore permise di addestrare le reti neurali tramite apprendimento supervisionato, ma i primi tentativi ebbero limitato successo e nel 1991, nella sua tesi di laurea, Sepp Hochreiter attribuì questa difficoltà al problema da lui chiamato "scomparsa del gradiente"[1][2], che affligge sia le reti neurali feed-forward profonde[3] che quelle ricorsive[4], che dal punto di vista dell'apprendimento sono equivalenti a reti profonde in quanto vengono "srotolate" rispetto alla direzione temporale con un livello per ogni intervallo di tempo.[5]