Chain-of-Thought — Glossaire

Définition

Le prompting chain-of-thought (CoT) est une technique qui encourage les grands modèles de langage à générer des étapes de raisonnement intermédiaires avant d’arriver à une réponse finale. Au lieu de produire directement une réponse, le modèle génère une série d’étapes logiques menant à la conclusion. Cette approche améliore significativement les performances sur les tâches nécessitant raisonnement multi-étapes, calcul mathématique, inférence logique et résolution de problèmes complexes. Le CoT peut être suscité par des exemples few-shot avec traces de raisonnement ou simplement en ajoutant “Réfléchissons étape par étape”.

Pourquoi c’est important

Chain-of-thought transforme les capacités des LLM:

Boost de précision — amélioration de 50-90% sur benchmarks de raisonnement
Transparence — montre COMMENT le modèle est arrivé à sa réponse
Détection d’erreurs — étapes intermédiaires révèlent logique fautive
Tâches complexes — permet maths, logique, raisonnement multi-hop
Débogage — identifier exactement où le raisonnement échoue
Construction de confiance — raisonnement vérifiable pour décisions critiques

Comment ça fonctionne

┌────────────────────────────────────────────────────────────┐
│                   CHAIN-OF-THOUGHT                          │
├────────────────────────────────────────────────────────────┤
│                                                            │
│  PROMPTING STANDARD vs CHAIN-OF-THOUGHT:                   │
│  ───────────────────────────────────────                   │
│                                                            │
│  Problème: "Jean a 3 pommes et achète 2 sacs              │
│           avec 4 pommes chacun. Combien en tout?"         │
│                                                            │
│                                                            │
│  PROMPTING STANDARD:                                       │
│  ┌─────────────────────────────────────────────────────┐ │
│  │  Utilisateur: [problème]                             │ │
│  │                                                      │ │
│  │  Modèle: 11 pommes  ← Réponse directe (souvent faux)│ │
│  │                                                      │ │
│  │  Pourquoi ça échoue:                                │ │
│  │  • Modèle peut manquer nature multi-étapes         │ │
│  │  • Pas de calcul intermédiaire                     │ │
│  │  • Impossible vérifier raisonnement                │ │
│  └─────────────────────────────────────────────────────┘ │
│                                                            │
│                                                            │
│  PROMPTING CHAIN-OF-THOUGHT:                               │
│  ┌─────────────────────────────────────────────────────┐ │
│  │  Utilisateur: [problème]                             │ │
│  │        Réfléchissons étape par étape.               │ │
│  │                                                      │ │
│  │  Modèle:                                             │ │
│  │  Étape 1: Jean commence avec 3 pommes               │ │
│  │  Étape 2: Il achète 2 sacs                          │ │
│  │  Étape 3: Chaque sac contient 4 pommes              │ │
│  │  Étape 4: Pommes des sacs = 2 × 4 = 8              │ │
│  │  Étape 5: Total = 3 + 8 = 11 pommes                │ │
│  │                                                      │ │
│  │  Réponse: 11 pommes ✓                               │ │
│  │                                                      │ │
│  └─────────────────────────────────────────────────────┘ │
│                                                            │
│                                                            │
│  VARIANTES COT:                                            │
│  ──────────────                                            │
│                                                            │
│  1. COT ZERO-SHOT:                                         │
│  ┌─────────────────────────────────────────────────────┐ │
│  │  Ajouter "Réfléchissons étape par étape"           │ │
│  │                                                      │ │
│  │  Prompt: "Que fait 17 × 24?"                        │ │
│  │          "Réfléchissons étape par étape."          │ │
│  │                                                      │ │
│  │  Modèle: "D'abord, je décompose:                    │ │
│  │          17 × 24 = 17 × (20 + 4)                   │ │
│  │                  = 17 × 20 + 17 × 4                │ │
│  │                  = 340 + 68                         │ │
│  │                  = 408"                             │ │
│  └─────────────────────────────────────────────────────┘ │
│                                                            │
│  2. COT FEW-SHOT (avec exemples):                         │
│  ┌─────────────────────────────────────────────────────┐ │
│  │  Exemple 1:                                          │ │
│  │  Q: Un magasin a 5 boîtes. Chaque boîte 3 items.   │ │
│  │     2 items sont vendus. Combien restent?          │ │
│  │  R: Réfléchissons étape par étape.                 │ │
│  │     Étape 1: Total items = 5 × 3 = 15             │ │
│  │     Étape 2: Après vente: 15 - 2 = 13             │ │
│  │     Réponse: 13 items                              │ │
│  │                                                      │ │
│  │  Maintenant résoudre:                               │ │
│  │  Q: [nouveau problème]                              │ │
│  │                                                      │ │
│  │  Modèle suit le patron de raisonnement démontré!   │ │
│  └─────────────────────────────────────────────────────┘ │
│                                                            │
│                                                            │
│  TECHNIQUES COT AVANCÉES:                                  │
│  ────────────────────────                                  │ │
│                                                            │
│  SELF-CONSISTENCY:                                         │
│  ┌─────────────────────────────────────────────────────┐ │
│  │  Générer multiples chemins, voter sur réponse      │ │
│  │                                                      │ │
│  │  Chemin 1: 3 + (2×4) = 3 + 8 = 11 ←─┐              │ │
│  │  Chemin 2: 3 + 4 + 4 = 11           ←─┼─ Vote: 11 ✓│ │
│  │  Chemin 3: 3×2 + 4 = 10 (faux)     ←─┘              │ │
│  │                                                      │ │
│  │  Vote majoritaire filtre erreurs de raisonnement   │ │
│  └─────────────────────────────────────────────────────┘ │
│                                                            │
│                                                            │
│  AMÉLIORATIONS BENCHMARKS AVEC COT:                        │
│  ──────────────────────────────────                        │
│                                                            │
│  ┌────────────────────┬─────────────┬───────────────────┐│
│  │ Benchmark          │ Standard    │ Avec CoT          ││
│  ├────────────────────┼─────────────┼───────────────────┤│
│  │ GSM8K (maths)      │ ~18%        │ ~57% (+217%)      ││
│  │ MultiArith         │ ~35%        │ ~93% (+166%)      ││
│  │ StrategyQA         │ ~65%        │ ~75% (+15%)       ││
│  └────────────────────┴─────────────┴───────────────────┘│
│                                                            │
│  (Résultats varient selon taille modèle)                  │
│                                                            │
└────────────────────────────────────────────────────────────┘

Questions fréquentes

Q: Quand utiliser le prompting chain-of-thought?

R: Utiliser CoT pour: (1) problèmes mathématiques, (2) raisonnement multi-étapes, (3) inférence logique, (4) tâches nécessitant explication, (5) prise de décision complexe. Éviter CoT pour questions factuelles simples ou tâches créatives.

Q: CoT fonctionne-t-il avec modèles plus petits?

R: Bénéfices CoT augmentent dramatiquement avec taille modèle. Modèles sous ~10B paramètres montrent amélioration minimale. CoT “émerge” comme capacité dans grands modèles (62B+).

Q: Comment gérer erreurs CoT quand raisonnement est faux mais confiant?

R: Utiliser self-consistency (générer 5-10 chemins, voter), ajouter étapes vérification, ou implémenter vérification explicite avec second modèle.

Q: CoT est-il juste prompting ou modèles peuvent être entraînés?

R: Les deux. Prompting extrait capacité latente. Entraînement sur traces de raisonnement améliore significativement qualité CoT.

Termes associés

Few-shot learning — fournir exemples pour CoT
Zero-shot learning — CoT sans exemples
In-context learning — patron d’apprentissage utilisé
Prompt engineering — techniques prompting plus larges

Références

Wei et al. (2022), “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”, NeurIPS. [Article CoT original]

Kojima et al. (2022), “Large Language Models are Zero-Shot Reasoners”, NeurIPS. [Zero-shot CoT]

Wang et al. (2022), “Self-Consistency Improves Chain of Thought Reasoning”, ICLR. [Self-consistency pour CoT]

Yao et al. (2023), “Tree of Thoughts: Deliberate Problem Solving with Large Language Models”, NeurIPS. [Extension Tree of Thoughts]

References

Wei et al. (2022), “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”, NeurIPS. [Original CoT paper]

Kojima et al. (2022), “Large Language Models are Zero-Shot Reasoners”, NeurIPS. [Zero-shot CoT “Let’s think step by step”]

Wang et al. (2022), “Self-Consistency Improves Chain of Thought Reasoning”, ICLR. [Self-consistency for CoT]

Yao et al. (2023), “Tree of Thoughts: Deliberate Problem Solving with Large Language Models”, NeurIPS. [Tree of Thoughts extension]