Attention (apprentissage automatique)

L'attention, en apprentissage automatique, est une méthode consistant à déterminer l'importance relative de chaque élément au sein d'une séquence. Ainsi, par exemple en traitement automatique des langues, cette attention est représentée par des coefficients attribués à chaque mot d'une phrase en fonction de son importance dans la phrase^[1]. L'attention s'applique plus généralement à une séquence de vecteurs (plongement lexical par exemple) de longueur arbitraire.

Contrairement à des paramètres qui seraient déterminés lors de la phase d'apprentissage puis fixés lors de l'utilisation (par exemple dans un réseau de neurones à action directe), les coefficients attribués par l'attention sont calculés en fonction de l'entrée et vont donc varier en fonction des valeurs d'entrée. Ces poids peuvent être calculés séquentiellement comme dans les réseaux de neurones récurrents (RNN), ou plus récemment en parallèle comme dans les transformeurs^[2]^,^[3].

Le mécanisme d'attention des transformeurs a en particulier été conçu pour remédier aux faiblesses liées aux RNN. Dans un RNN, chaque mot hérite d'une partie de l'information du mot précédent, qui lui même hérite d'une partie de l'information du mot précédent.Ainsi, l'information récupérée d'un mot décroît exponentiellement avec le nombre de mots qui le sépare du mot actuel. Ce qui fait que ces réseaux n'ont qu'une mémoire à relativement court terme. À l'inverse, l'attention, telle qu'implémentée dans les transformeurs, permet de combiner directement l'information à différents endroits du texte^[4].

[1]

[2]

[3]

[4]

Attention (apprentissage automatique)

Produit scalaire pondéré

Attention à têtes multiples

Auto-attention

Références

Wikiwand - on