Définition
Le Transformer est une architecture de réseau neuronal introduite en 2017 qui a révolutionné le traitement du langage naturel. Contrairement aux modèles séquentiels précédents (RNN, LSTM), les Transformers traitent tous les tokens d’entrée simultanément en utilisant des mécanismes d’auto-attention, permettant une parallélisation massive et la capture de dépendances à longue distance dans le texte.
Pourquoi c’est important
L’architecture Transformer est le fondement de pratiquement tous les grands modèles de langage modernes, notamment GPT, BERT, Claude et PaLM. Sa capacité à :
- Évoluer efficacement — le traitement parallèle permet l’entraînement avec des milliards de paramètres
- Capturer le contexte — les mécanismes d’attention relient n’importe quel mot à n’importe quel autre quelle que soit la distance
- Transférer les connaissances — les Transformers pré-entraînés peuvent être affinés pour d’innombrables tâches en aval
Cela le rend essentiel pour construire des systèmes d’IA qui comprennent et génèrent le langage naturel.
Comment ça fonctionne
┌─────────────────────────────────────────────────────────┐
│ TRANSFORMER │
├─────────────────────────────────────────────────────────┤
│ Entrée → Embedding + Position → [ENCODEUR] → [DÉCODEUR]│
│ │ │ │
│ ▼ ▼ │
│ Auto-Attention Cross-Attn │
│ │ │ │
│ Feed-Forward Sortie │
└─────────────────────────────────────────────────────────┘
- Embedding d’entrée — les tokens sont convertis en vecteurs denses
- Encodage positionnel — information de position ajoutée (car le traitement est parallèle)
- Couches d’auto-attention — chaque token s’attend à tous les autres pour construire des représentations contextuelles
- Réseaux feed-forward — transforment les sorties de l’attention
- Génération de sortie — le décodeur produit la séquence finale
Questions fréquentes
Q : Pourquoi les Transformers ont-ils remplacé les RNN et LSTM ?
R : Les RNN traitent les tokens séquentiellement, créant des goulots d’étranglement pour les longues séquences et rendant la parallélisation impossible. Les Transformers traitent tous les tokens simultanément, permettant un entraînement plus rapide et une meilleure modélisation des dépendances à longue distance.
Q : Que sont les Transformers encoder-only vs decoder-only ?
R : Les modèles encoder-only (comme BERT) sont optimisés pour les tâches de compréhension (classification, NER). Les modèles decoder-only (comme GPT) sont optimisés pour la génération. Le Transformer original utilisait les deux.
Q : Comment les Transformers gèrent-ils l’ordre des séquences sans récurrence ?
R : Des encodages positionnels sont ajoutés aux embeddings d’entrée, fournissant des informations de position que le modèle apprend à utiliser pendant l’attention.
Termes associés
- LLM — grands modèles de langage construits sur l’architecture Transformer
- Mécanisme d’Attention — l’innovation centrale permettant les Transformers
- Auto-Attention — mécanisme permettant aux tokens de s’attendre mutuellement
- Attention Multi-Têtes — attention parallèle pour des représentations plus riches
Références
Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS. [130 000+ citations]
Devlin et al. (2019), “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, NAACL. [90 000+ citations]
Lin et al. (2022), “A Survey of Transformers”, AI Open. [2 500+ citations]
Wolf et al. (2020), “Transformers: State-of-the-Art Natural Language Processing”, EMNLP. [7 500+ citations]
References
Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS. [130,000+ citations]
Devlin et al. (2019), “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, NAACL. [90,000+ citations]
Lin et al. (2022), “A Survey of Transformers”, AI Open. [2,500+ citations]
Wolf et al. (2020), “Transformers: State-of-the-Art Natural Language Processing”, EMNLP. [7,500+ citations]