Rétropropagation du gradient

En intelligence artificielle, plus précisément en apprentissage automatique, la rétropropagation du gradient est une méthode pour entraîner un réseau de neurones. Elle consiste à mettre à jour les poids de chaque neurone de la dernière couche vers la première. Elle vise à corriger les erreurs selon l'importance de la contribution de chaque élément à celles-ci. Dans le cas des réseaux de neurones, les poids synaptiques qui contribuent plus à une erreur sont modifiés de manière plus importante que les poids qui provoquent une erreur marginale.

Faits en bref Type, Inventeur ...

Type	Algorithme d'optimisation
Inventeur	Seppo Linnainmaa
Date d'invention	1970, 1974

Thumb — Représentation d'une rétropropagation

De façon abusive, on appelle souvent^[Qui ?]^{[réf. nécessaire]} « technique de rétropropagation du gradient » l'algorithme classique de correction des erreurs reposant sur le calcul du gradient grâce à la rétropropagation. C'est cette méthode qui est présentée ici. La correction des erreurs peut se faire selon d'autres méthodes, par exemple le calcul de la dérivée seconde.

Ce principe fonde les méthodes de type algorithme du gradient, qui sont utilisées dans des réseaux de neurones multicouches comme les perceptrons multicouches. L'algorithme du gradient a pour but de converger de manière itérative vers une configuration optimale des poids synaptiques. Cette configuration peut être un minimum local de la fonction dite fonction de coût, ou, idéalement, le minimum global de cette fonction. Normalement, la fonction de coût est non linéaire au regard des poids synaptiques. Elle dispose également d'une borne inférieure et moyennant quelques précautions lors de l'apprentissage, les procédures d'optimisation finissent par aboutir à une configuration stable au sein du réseau de neurones.

Remove ads

Historique

La méthode de rétropropagation du gradient a fait l'objet de communications dès 1975 (Werbos)^[1], puis 1985 (Parker^[2] et LeCun^{[réf. nécessaire]}), mais ce sont les travaux de Rumelhart, Hinton et Williams en 1986^[3] qui ont suscité le véritable début de l'engouement pour cette méthode^[4].

Jürgen Schmidhuber, dans un état de l'art publié en 2015^[5] établit que la méthode a été mise au point pour la première fois par Seppo Linnainmaa dans son mémoire de maîtrise soutenu à l'université d'Helsinki en 1970^[6]^,^[7].

Remove ads

Utilisation au sein d'un apprentissage supervisé

Dans le cas d'un apprentissage supervisé, des données sont présentées à l'entrée du réseau de neurones et celui-ci produit des sorties. La valeur des sorties dépend des paramètres liés à la structure du réseau de neurones : connectique entre neurones, fonctions d'agrégation et d'activation ainsi que les poids synaptiques.

Les différences entre ces sorties et les sorties désirées forment des erreurs qui sont corrigées via la rétropropagation, les poids du réseau de neurones sont alors changés. La manière de quantifier cette erreur peut varier selon le type d'apprentissage à effectuer. En appliquant cette étape plusieurs fois, l'erreur tend à diminuer et le réseau offre une meilleure prédiction. Il se peut toutefois qu'il ne parvienne pas à échapper à un minimum local, c'est pourquoi on ajoute en général un terme d'inertie (« momentum ») à la formule de la rétropropagation pour aider l'algorithme du gradient à sortir de ces minimums locaux.

Remove ads

Algorithme

Résumé

Contexte

Les poids dans le réseau de neurones sont au préalable initialisés avec des valeurs aléatoires. On considère ensuite un ensemble de données qui vont servir à l'apprentissage. Chaque échantillon possède ses valeurs cibles qui sont celles que le réseau de neurones doit à terme prédire lorsqu'on lui présente le même échantillon. L'algorithme suit les étapes suivantes.

Propagation vers l'avant

L'objectif de cette étape est d'obtenir le résultat ${\vec {y}}$ fourni par le réseau de neurones lorsqu'on lui présente une entrée ${\vec {x}}$ . C'est le même mécanisme que l'on utilise lors de l'inférence pour obtenir la réponse du réseau de neurones.

Soient un échantillon ${\vec {x}}$ que l'on présente à l'entrée du réseau de neurones et ${\vec {t}}$ la sortie désirée pour cet échantillon.

On propage les données de l'entrée du réseau de neurone ( ${\vec {x}}_{0}={\vec {x}}$ ) vers la sortie, couche par couche. Le calcul de l'activation $x_{j}^{(n)}$ du neurone $j$ de la couche $n$ se fait à partir des activations des neurones de la couche précédente $n-1$ . La fonction d'activation pour la couche $n$ , notée $g^{(n)}$ est appliquée à la somme pondérée par les poids synaptiques $w_{jk}^{(n)}$ du réseau entre les neurones $k$ de la couche $n-1$ et le neurone $j$ de la couche $n$ , ainsi que du biais $b_{j}^{(n)}$ du neurone $j$ . Cette somme intermédiaire sera appelée $h_{j}^{(n)}$

h_{j}^{(n)}=\sum _{k}w_{jk}^{(n)}x_{k}^{(n-1)}+b_{j}^{(n)}

x_{j}^{(n)}=g^{(n)}(h_{j}^{(n)})

Lorsque la propagation vers l'avant est terminée, on obtient à la sortie le résultat ${\vec {y}}$ , c'est-à-dire, ${\vec {y}}_{i}=x_{i}^{sortie}$ .

Rétropropagation de l'erreur

Le calcul de l'erreur se fait à partir d'une fonction de coût, que nous allons appeler $cost$ . Habituellement, il s'agit d'une fonction quadratique $cost(y,t)=\sum _{i}(y_{i}-t_{i})^{2}$ , mais d'autres fonctions peuvent être utilisées ^[8]. Nous noterons $C=cost(y,t)$

Nous allons définir un terme d'erreur pour chaque neurone, qui correspond à $e_{i}^{(n)}={\frac {\partial C}{\partial h_{i}^{(n)}}}$ ^[9]

On commence par calculer l'erreur pour les neurones de la couche de sortie. Pour chaque neurone $i$ de la couche de sortie, on calcule le terme d'erreur $e_{i}^{\text{sortie}}$ en utilisant la dérivée de la fonction d'activation $g'$ et la dérivée de la fonction de coût $cost'$ :

e_{i}^{\text{sortie}}=cost'(y_{i})\cdot g'^{(sortie)}(h_{i}^{\text{sortie}})

Soit pour une fonction de coût quadratique :

e_{i}^{\text{sortie}}=2(y_{i}-t_{i})\cdot g'^{(sortie)}(h_{i}^{\text{sortie}})

On propage ensuite l'erreur vers l'arrière, de la dernière couche vers la première (d'où le nom de rétropropagation). Le terme d'erreur de chaque neurone $j$ de la couche $n-1$ est calculé en fonction des termes d'erreur des neurones de la couche suivante $n$ :

e_{j}^{(n-1)}=g'^{(n-1)}(h_{j}^{(n-1)})\sum _{i}w_{ij}^{(n)}e_{i}^{(n)}

Mise à jour des poids et des biais

Une fois les erreurs calculées, il est facile d'obtenir les gradients pour les poids et biais. On met à jour les poids et les biais dans toutes les couches du réseau en utilisant un taux d'apprentissage $\lambda$ (un nombre faible, compris entre 0 et 1), et les gradiants :

w_{ij}^{(n)}=w_{ij}^{(n)}-\lambda \cdot e_{i}^{(n)}x_{j}^{(n-1)}

b_{i}^{(n)}=b_{i}^{(n)}-\lambda \cdot e_{i}^{(n)}

Stop ou encore?

Après chaque itération, on peut soit arrêter, soit faire une nouvelle itération des étapes ci-dessus pour renforcer l'apprentissage, tout en faisant attention d'éviter le surapprentissage.

Remove ads

Implémentation

L'algorithme présenté ici est de type « online », c'est-à-dire que l'on met à jour les poids pour chaque échantillon d'apprentissage présenté dans le réseau de neurones. Une autre méthode est dite en « batch », c'est-à-dire que l'on calcule d'abord les erreurs pour tous les échantillons sans mettre à jour les poids (on additionne les erreurs) et lorsque l'ensemble des données est passé une fois dans le réseau, on applique la rétropropagation en utilisant l'erreur totale. Cette façon de faire (batch) est préférée pour des raisons de rapidité et de convergence.

L'algorithme est itératif et la correction s'applique autant de fois que nécessaire pour obtenir une bonne prédiction. Il faut cependant veiller aux problèmes de surapprentissage liés à un mauvais dimensionnement du réseau ou un apprentissage trop poussé.

Remove ads

Ajout d'inertie

Pour éviter les problèmes liés à une stabilisation dans un minimum local, on ajoute un terme d'inertie (momentum). Celui-ci permet de sortir des minimums locaux dans la mesure du possible et de poursuivre la descente de la fonction d'erreur. À chaque itération, le changement de poids conserve les informations des changements précédents. Cet effet de mémoire permet d'éviter les oscillations et accélère l'optimisation du réseau. Par rapport à la formule de modification des poids présentée auparavant, le changement des poids avec inertie au temps $t$ se traduit par :

w_{ij}^{(l)}(t)=w_{ij}^{(l)}(t-1)-\alpha \lambda e_{i}^{(l)}x_{j}^{(l-1)}+(1-\alpha )\Delta w_{ij}^{(l)}(t-1)

avec $\alpha$ un paramètre compris entre 0 et 1.

Remove ads

Analogie biologique

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

Un phénomène biologique équivalent à la rétropropagation d'information dans les réseaux de neurones  a été attesté par Stuart et ses collègues^[10] : c'est la rétropropagation neuronale. L'interaction entre les potentiels post-synaptiques et cette rétropropagation semble intervenir dans la plasticité synaptique^[11].

Remove ads

Notes et références

Loading content...

Voir aussi

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads