Skip to main content
IA & Machine Learning

Apprentissage par Renforcement

Une approche de machine learning où les agents apprennent un comportement optimal par essais-erreurs avec un environnement.

Également appelé: RL, Apprentissage basé récompenses, Apprentissage par essais-erreurs, Apprentissage basé agents

Définition

L’apprentissage par renforcement (RL) est un paradigme de machine learning où un agent apprend à prendre des décisions en interagissant avec un environnement. L’agent effectue des actions, reçoit des retours sous forme de récompenses ou pénalités, et apprend une politique qui maximise la récompense cumulative au fil du temps. Contrairement à l’apprentissage supervisé (qui nécessite des exemples étiquetés) ou non supervisé (qui trouve des patterns), le RL apprend des conséquences des actions par essais et erreurs.

Pourquoi c’est important

L’apprentissage par renforcement permet à l’IA d’apprendre des comportements complexes :

  • Apprend sans étiquettes — n’a besoin que d’un signal de récompense
  • Gère les décisions séquentielles — optimise les résultats à long terme
  • Performance surhumaine — AlphaGo, agents de jeux, robotique
  • Contrôle réel — véhicules autonomes, systèmes de recommandation
  • Fondement du RLHF — technique clé pour aligner les LLMs aux préférences humaines

Le RL fait le pont entre l’IA et la prise de décision dans des environnements complexes.

Comment ça fonctionne

┌────────────────────────────────────────────────────────────┐
│              APPRENTISSAGE PAR RENFORCEMENT                │
├────────────────────────────────────────────────────────────┤
│                                                            │
│  LA BOUCLE RL:                                             │
│  ─────────────                                             │
│                                                            │
│         ┌─────────────────────────────────────┐           │
│         │          ENVIRONNEMENT              │           │
│         │    (Jeu, Monde Robot, Site Web)     │           │
│         └──────────────┬──────────────────────┘           │
│                        │                                   │
│              État s    │   Récompense r                    │
│                ↓       │       ↓                           │
│         ┌──────────────▼───────────────────┐              │
│         │              AGENT               │              │
│         │                                  │              │
│         │  1. Observer état s             │              │
│         │  2. Choisir action a (politique)│              │
│         │  3. Recevoir récompense r       │              │
│         │  4. MAJ politique pour max r    │              │
│         │                                  │              │
│         └──────────────┬───────────────────┘              │
│                        │                                   │
│              Action a  ↓                                   │
│         ┌──────────────▼──────────────────────┐           │
│         │          ENVIRONNEMENT              │           │
│         │    (répond à l'action, nouvel état) │           │
│         └─────────────────────────────────────┘           │
│                                                            │
│  CONCEPTS CLÉS:                                            │
│  ──────────────                                            │
│                                                            │
│  État (s):       Situation actuelle                       │
│  Action (a):     Choix de l'agent                         │
│  Récompense (r): Signal de retour (+positif, -négatif)    │
│  Politique (π):  Stratégie pour choisir actions           │
│  Valeur (V):     Récompense cumulative future attendue    │
│                                                            │
│  EXPLORATION VS EXPLOITATION:                              │
│  ────────────────────────────                              │
│                                                            │
│  ┌─────────────────┐    ┌─────────────────┐               │
│  │   EXPLORATION   │    │   EXPLOITATION  │               │
│  │                 │    │                 │               │
│  │ Essayer nouveau │    │ Utiliser ce qui │               │
│  │ pour découvrir  │    │ fonctionne pour │               │
│  │ meilleures opt. │    │ max récompenses │               │
│  │                 │    │                 │               │
│  │   "Explorer"    │    │   "Exploiter"   │               │
│  └─────────────────┘    └─────────────────┘               │
│                                                            │
│           Doit ÉQUILIBRER les deux pour optimiser          │
│                                                            │
│  ALGORITHMES RL COURANTS:                                  │
│  ────────────────────────                                  │
│  Q-Learning:     Apprendre valeur paires état-action      │
│  Policy Gradient: Optimiser directement la politique      │
│  Actor-Critic:   Combiner estimation valeur + politique   │
│  PPO:           Optimisation politique stable (RLHF)      │
│  DQN:           Deep Q-networks pour états complexes      │
│                                                            │
└────────────────────────────────────────────────────────────┘

Paradigmes RL:

ApprocheComment ça apprendExemple
Basé valeurEstimer valeur états/actionsDQN jouant Atari
Basé politiqueApprendre directement probabilités actionsGradient politique en robotique
Basé modèleApprendre dynamique environnementPlanification jeux
Sans modèleApprendre directement de l’expériencePlupart agents de jeux

Questions fréquentes

Q : Comment le RL diffère du supervisé ?

R : En apprentissage supervisé, vous donnez à l’agent la bonne réponse pour chaque entrée. En RL, l’agent ne reçoit que des signaux de récompense—il doit découvrir le bon comportement par exploration. Le RL gère des décisions séquentielles où les actions affectent les états futurs; le supervisé gère typiquement des prédictions indépendantes.

Q : Qu’est-ce que le RLHF et comment ça se rapporte au RL ?

R : Le RLHF (Reinforcement Learning from Human Feedback) utilise le RL pour affiner les LLMs. Les préférences humaines deviennent le signal de récompense—un modèle séparé prédit combien les humains préféreraient une réponse à une autre, et le RL optimise le LLM pour générer des réponses préférées.

Q : Pourquoi exploration vs exploitation est important ?

R : Si un agent n’exploite que les bonnes actions connues, il pourrait manquer de meilleures options. S’il n’explore, il n’exploite jamais ce qu’il a appris. Trouver le bon équilibre est crucial—trop peu d’exploration mène à des politiques sous-optimales, trop en gaspille du temps sur de mauvaises actions.

Q : Le RL peut-il résoudre tout problème de décision ?

R : En théorie, le RL peut optimiser tout système avec des récompenses définissables. En pratique, le RL lutte avec : récompenses rares (feedback rare), efficacité d’échantillonnage (besoin de beaucoup d’essais), attribution de crédit (quelle action a causé la récompense ?), et définir de bons signaux de récompense.

Termes associés


Références

Sutton & Barto (2018), “Reinforcement Learning: An Introduction”, MIT Press. [Le manuel RL fondateur]

Mnih et al. (2015), “Human-level control through deep reinforcement learning”, Nature. [Article DQN, 20 000+ citations]

Silver et al. (2016), “Mastering the game of Go with deep neural networks”, Nature. [Article AlphaGo]

Schulman et al. (2017), “Proximal Policy Optimization Algorithms”, arXiv. [PPO - utilisé dans RLHF]

References

Sutton & Barto (2018), “Reinforcement Learning: An Introduction”, MIT Press. [The foundational RL textbook]

Mnih et al. (2015), “Human-level control through deep reinforcement learning”, Nature. [DQN paper, 20,000+ citations]

Silver et al. (2016), “Mastering the game of Go with deep neural networks”, Nature. [AlphaGo paper]

Schulman et al. (2017), “Proximal Policy Optimization Algorithms”, arXiv. [PPO - used in RLHF]