Mécanisme d'Attention — Glossaire

Définition

Un mécanisme d’attention est un composant des réseaux neuronaux qui permet aux modèles de se concentrer dynamiquement sur les parties pertinentes de la séquence d’entrée lors de la génération de chaque partie de la sortie. Plutôt que de compresser toute l’entrée en une seule représentation de taille fixe, l’attention permet au modèle de « porter attention » sélectivement à différents éléments d’entrée en fonction de leur pertinence pour la tâche en cours.

Pourquoi c’est important

Les mécanismes d’attention résolvent les limitations fondamentales des modèles de séquence antérieurs :

Gestion des longues séquences — l’attention connecte directement les éléments distants sans perte d’information à travers de nombreuses étapes
Interprétabilité — les poids d’attention révèlent quelles entrées ont influencé chaque sortie, facilitant le débogage et la confiance
Parallélisation — les calculs d’attention peuvent s’exécuter simultanément, contrairement aux RNN séquentiels
Contexte dynamique — le modèle apprend sur quoi se concentrer plutôt que d’utiliser des motifs fixes

L’attention est l’innovation centrale derrière les Transformers et les modèles de langage modernes.

Comment ça fonctionne

┌──────────────────────────────────────────────────────┐
│                MÉCANISME D'ATTENTION                 │
├──────────────────────────────────────────────────────┤
│                                                      │
│  Query (Q) ─────┐                                    │
│                 ├──→ Score ──→ Softmax ──→ Poids     │
│  Key (K) ───────┘                           │        │
│                                             ▼        │
│  Value (V) ─────────────────────────→ Somme Pondérée │
│                                             │        │
│                                             ▼        │
│                                         Sortie       │
└──────────────────────────────────────────────────────┘

Query, Key, Value — l’entrée est transformée en trois représentations
Scoring — les queries sont comparées aux keys pour calculer les scores de pertinence
Softmax — les scores sont normalisés pour sommer à 1 (poids d’attention)
Combinaison pondérée — les values sont combinées en utilisant les poids d’attention
Sortie — représentation contextuellement informée pour chaque position

La formule : Attention(Q,K,V) = softmax(QK^T / √d_k) × V

Questions fréquentes

Q : Quelle est la différence entre attention et auto-attention ?

R : L’attention standard calcule la pertinence entre deux séquences différentes (par ex., sorties de l’encodeur et état du décodeur). L’auto-attention calcule la pertinence au sein d’une seule séquence—chaque élément s’attend à tous les autres de la même séquence.

Q : Pourquoi diviser par √d_k dans la formule d’attention ?

R : Cette « attention par produit scalaire à l’échelle » empêche les produits scalaires de devenir trop grands en haute dimension, ce qui pousserait le softmax dans des régions avec des gradients qui s’évanouissent.

Q : L’attention peut-elle être visualisée ?

R : Oui, les poids d’attention peuvent être tracés sous forme de cartes thermiques montrant à quels tokens d’entrée chaque token de sortie a porté attention, offrant de l’interprétabilité.

Termes associés

Architecture Transformer — entièrement construite sur les mécanismes d’attention
Auto-Attention — attention au sein d’une seule séquence
Attention Multi-Têtes — attention parallèle pour des représentations diverses
LLM — modèles de langage alimentés par l’attention

Références

Bahdanau et al. (2015), “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR. [35 000+ citations]

Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS. [130 000+ citations]

Luong et al. (2015), “Effective Approaches to Attention-based Neural Machine Translation”, EMNLP. [12 000+ citations]

Galassi et al. (2020), “Attention in Natural Language Processing”, IEEE TNNLS. [1 000+ citations]

References

Bahdanau et al. (2015), “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR. [35,000+ citations]

Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS. [130,000+ citations]

Luong et al. (2015), “Effective Approaches to Attention-based Neural Machine Translation”, EMNLP. [12,000+ citations]

Galassi et al. (2020), “Attention in Natural Language Processing”, IEEE TNNLS. [1,000+ citations]