Skip to main content
AI & Machine Learning

Reinforcement Learning

Een machine learning aanpak waarbij agents optimaal gedrag leren door trial-and-error interacties met een omgeving.

Ook bekend als: RL, Beloning-gebaseerd leren, Trial-and-error leren, Agent-gebaseerd leren

Definitie

Reinforcement learning (RL) is een machine learning paradigma waarbij een agent leert beslissingen te nemen door interactie met een omgeving. De agent neemt acties, ontvangt feedback in de vorm van beloningen of straffen, en leert een beleid dat cumulatieve beloning over tijd maximaliseert. In tegenstelling tot supervised learning (dat gelabelde voorbeelden nodig heeft) of unsupervised learning (dat patronen vindt), leert RL van de consequenties van acties door trial and error.

Waarom het belangrijk is

Reinforcement learning stelt AI in staat complex gedrag te leren:

  • Leert zonder labels — heeft alleen een beloningssignaal nodig, geen gelabelde voorbeelden
  • Handelt sequentiële beslissingen — optimaliseert langetermijn uitkomsten, niet alleen directe
  • Bovenmenselijke prestaties — AlphaGo, game-playing agents, robotica
  • Real-world control — autonome voertuigen, aanbevelingssystemen
  • Fundament voor RLHF — kerntechtiek voor het afstemmen van LLMs op menselijke voorkeuren

RL overbrugt de kloof tussen AI en besluitvorming in complexe omgevingen.

Hoe het werkt

┌────────────────────────────────────────────────────────────┐
│                  REINFORCEMENT LEARNING                    │
├────────────────────────────────────────────────────────────┤
│                                                            │
│  DE RL LOOP:                                               │
│  ───────────                                               │
│                                                            │
│         ┌─────────────────────────────────────┐           │
│         │           OMGEVING                  │           │
│         │    (Game, Robot Wereld, Website)    │           │
│         └──────────────┬──────────────────────┘           │
│                        │                                   │
│             Toestand s │   Beloning r                      │
│                ↓       │       ↓                           │
│         ┌──────────────▼───────────────────┐              │
│         │              AGENT               │              │
│         │                                  │              │
│         │  1. Observeer toestand s        │              │
│         │  2. Kies actie a (via beleid)   │              │
│         │  3. Ontvang beloning r          │              │
│         │  4. Update beleid om r te max.  │              │
│         │                                  │              │
│         └──────────────┬───────────────────┘              │
│                        │                                   │
│              Actie a   ↓                                   │
│         ┌──────────────▼──────────────────────┐           │
│         │           OMGEVING                  │           │
│         │    (reageert op actie, nieuwe staat)│           │
│         └─────────────────────────────────────┘           │
│                                                            │
│  KERNCONCEPTEN:                                            │
│  ──────────────                                            │
│                                                            │
│  Toestand (s): Huidige situatie                           │
│  Actie (a):    Keuze die agent maakt                      │
│  Beloning (r): Feedbacksignaal (+positief, -negatief)     │
│  Beleid (π):   Strategie voor acties kiezen               │
│  Waarde (V):   Verwachte toekomstige cumulatieve beloning │
│                                                            │
│  EXPLORATIE VS EXPLOITATIE:                                │
│  ──────────────────────────                                │
│                                                            │
│  ┌─────────────────┐    ┌─────────────────┐               │
│  │   EXPLORATIE    │    │   EXPLOITATIE   │               │
│  │                 │    │                 │               │
│  │  Probeer nieuwe │    │  Gebruik wat    │               │
│  │  dingen om      │    │  werkt om       │               │
│  │  betere opties  │    │  bekende belon. │               │
│  │  te ontdekken   │    │  te maximaliseren│              │
│  │                 │    │                 │               │
│  │   "Verkennen"   │    │   "Benutten"    │               │
│  └─────────────────┘    └─────────────────┘               │
│                                                            │
│           Moet BALANCEREN voor optimaal leren              │
│                                                            │
│  VEELGEBRUIKTE RL ALGORITMEN:                              │
│  ────────────────────────────                              │
│  Q-Learning:     Leer waarde van toestand-actie paren     │
│  Policy Gradient: Direct het beleid optimaliseren         │
│  Actor-Critic:   Combineer waardeschatting + beleid       │
│  PPO:           Stabiele beleidsoptimalisatie (RLHF)      │
│  DQN:           Deep Q-networks voor complexe toestanden  │
│                                                            │
└────────────────────────────────────────────────────────────┘

RL paradigma’s:

AanpakHoe het leertVoorbeeld
WaardegebaseerdSchat waarde van toestanden/actiesDQN speelt Atari
BeleidsgebaseerdLeer direct actiekansenPolicy gradient in robotica
ModelgebaseerdLeer omgevingsdynamiekPlanning in games
ModelvrijLeer direct van ervaringMeeste game-playing agents

Veelgestelde vragen

V: Hoe verschilt RL van supervised learning?

A: Bij supervised learning vertel je de agent het correcte antwoord voor elke input. Bij RL krijgt de agent alleen beloningssignalen—het moet goed gedrag ontdekken door exploratie. RL handelt sequentiële beslissingen waar acties toekomstige toestanden beïnvloeden; supervised learning handelt typisch onafhankelijke voorspellingen.

V: Wat is RLHF en hoe verhoudt het zich tot RL?

A: RLHF (Reinforcement Learning from Human Feedback) gebruikt RL om LLMs te fine-tunen. Menselijke voorkeuren worden het beloningssignaal—een apart model voorspelt hoeveel mensen de ene respons boven de andere zouden verkiezen, en RL optimaliseert het LLM om geprefereerde responsen te genereren.

V: Waarom is exploratie vs exploitatie belangrijk?

A: Als een agent alleen bekende goede acties exploiteert, mist het mogelijk betere opties. Als het alleen exploreert, benut het nooit wat het geleerd heeft. De juiste balans vinden is cruciaal—te weinig exploratie leidt tot suboptimaal beleid, te veel verspilt tijd aan slechte acties.

V: Kan RL elk beslissingsprobleem oplossen?

A: In theorie kan RL elk systeem met definieerbare beloningen optimaliseren. In de praktijk heeft RL moeite met: schaarse beloningen (zeldzame feedback), sample-efficiëntie (heeft veel trials nodig), credit assignment (welke actie veroorzaakte de beloning?), en het definiëren van goede beloningssignalen.

Gerelateerde termen


Referenties

Sutton & Barto (2018), “Reinforcement Learning: An Introduction”, MIT Press. [Het fundamentele RL leerboek]

Mnih et al. (2015), “Human-level control through deep reinforcement learning”, Nature. [DQN paper, 20.000+ citaties]

Silver et al. (2016), “Mastering the game of Go with deep neural networks”, Nature. [AlphaGo paper]

Schulman et al. (2017), “Proximal Policy Optimization Algorithms”, arXiv. [PPO - gebruikt in RLHF]

References

Sutton & Barto (2018), “Reinforcement Learning: An Introduction”, MIT Press. [The foundational RL textbook]

Mnih et al. (2015), “Human-level control through deep reinforcement learning”, Nature. [DQN paper, 20,000+ citations]

Silver et al. (2016), “Mastering the game of Go with deep neural networks”, Nature. [AlphaGo paper]

Schulman et al. (2017), “Proximal Policy Optimization Algorithms”, arXiv. [PPO - used in RLHF]