Architecture Transformer — Glossaire

Définition

Le Transformer est une architecture de réseau neuronal introduite en 2017 qui a révolutionné le traitement du langage naturel. Contrairement aux modèles séquentiels précédents (RNN, LSTM), les Transformers traitent tous les tokens d’entrée simultanément en utilisant des mécanismes d’auto-attention, permettant une parallélisation massive et la capture de dépendances à longue distance dans le texte.

Pourquoi c’est important

L’architecture Transformer est le fondement de pratiquement tous les grands modèles de langage modernes, notamment GPT, BERT, Claude et PaLM. Sa capacité à :

Évoluer efficacement — le traitement parallèle permet l’entraînement avec des milliards de paramètres
Capturer le contexte — les mécanismes d’attention relient n’importe quel mot à n’importe quel autre quelle que soit la distance
Transférer les connaissances — les Transformers pré-entraînés peuvent être affinés pour d’innombrables tâches en aval

Cela le rend essentiel pour construire des systèmes d’IA qui comprennent et génèrent le langage naturel.

Comment ça fonctionne

┌─────────────────────────────────────────────────────────┐
│                    TRANSFORMER                          │
├─────────────────────────────────────────────────────────┤
│  Entrée → Embedding + Position → [ENCODEUR] → [DÉCODEUR]│
│                                      │          │       │
│                                      ▼          ▼       │
│                              Auto-Attention  Cross-Attn │
│                                      │          │       │
│                                 Feed-Forward  Sortie    │
└─────────────────────────────────────────────────────────┘

Embedding d’entrée — les tokens sont convertis en vecteurs denses
Encodage positionnel — information de position ajoutée (car le traitement est parallèle)
Couches d’auto-attention — chaque token s’attend à tous les autres pour construire des représentations contextuelles
Réseaux feed-forward — transforment les sorties de l’attention
Génération de sortie — le décodeur produit la séquence finale

Questions fréquentes

Q : Pourquoi les Transformers ont-ils remplacé les RNN et LSTM ?

R : Les RNN traitent les tokens séquentiellement, créant des goulots d’étranglement pour les longues séquences et rendant la parallélisation impossible. Les Transformers traitent tous les tokens simultanément, permettant un entraînement plus rapide et une meilleure modélisation des dépendances à longue distance.

Q : Que sont les Transformers encoder-only vs decoder-only ?

R : Les modèles encoder-only (comme BERT) sont optimisés pour les tâches de compréhension (classification, NER). Les modèles decoder-only (comme GPT) sont optimisés pour la génération. Le Transformer original utilisait les deux.

Q : Comment les Transformers gèrent-ils l’ordre des séquences sans récurrence ?

R : Des encodages positionnels sont ajoutés aux embeddings d’entrée, fournissant des informations de position que le modèle apprend à utiliser pendant l’attention.

Termes associés

LLM — grands modèles de langage construits sur l’architecture Transformer
Mécanisme d’Attention — l’innovation centrale permettant les Transformers
Auto-Attention — mécanisme permettant aux tokens de s’attendre mutuellement
Attention Multi-Têtes — attention parallèle pour des représentations plus riches

Références

Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS. [130 000+ citations]

Devlin et al. (2019), “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, NAACL. [90 000+ citations]

Lin et al. (2022), “A Survey of Transformers”, AI Open. [2 500+ citations]

Wolf et al. (2020), “Transformers: State-of-the-Art Natural Language Processing”, EMNLP. [7 500+ citations]

References

Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS. [130,000+ citations]

Devlin et al. (2019), “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, NAACL. [90,000+ citations]

Lin et al. (2022), “A Survey of Transformers”, AI Open. [2,500+ citations]

Wolf et al. (2020), “Transformers: State-of-the-Art Natural Language Processing”, EMNLP. [7,500+ citations]