Definitie
Reinforcement learning (RL) is een machine learning paradigma waarbij een agent leert beslissingen te nemen door interactie met een omgeving. De agent neemt acties, ontvangt feedback in de vorm van beloningen of straffen, en leert een beleid dat cumulatieve beloning over tijd maximaliseert. In tegenstelling tot supervised learning (dat gelabelde voorbeelden nodig heeft) of unsupervised learning (dat patronen vindt), leert RL van de consequenties van acties door trial and error.
Waarom het belangrijk is
Reinforcement learning stelt AI in staat complex gedrag te leren:
- Leert zonder labels — heeft alleen een beloningssignaal nodig, geen gelabelde voorbeelden
- Handelt sequentiële beslissingen — optimaliseert langetermijn uitkomsten, niet alleen directe
- Bovenmenselijke prestaties — AlphaGo, game-playing agents, robotica
- Real-world control — autonome voertuigen, aanbevelingssystemen
- Fundament voor RLHF — kerntechtiek voor het afstemmen van LLMs op menselijke voorkeuren
RL overbrugt de kloof tussen AI en besluitvorming in complexe omgevingen.
Hoe het werkt
┌────────────────────────────────────────────────────────────┐
│ REINFORCEMENT LEARNING │
├────────────────────────────────────────────────────────────┤
│ │
│ DE RL LOOP: │
│ ─────────── │
│ │
│ ┌─────────────────────────────────────┐ │
│ │ OMGEVING │ │
│ │ (Game, Robot Wereld, Website) │ │
│ └──────────────┬──────────────────────┘ │
│ │ │
│ Toestand s │ Beloning r │
│ ↓ │ ↓ │
│ ┌──────────────▼───────────────────┐ │
│ │ AGENT │ │
│ │ │ │
│ │ 1. Observeer toestand s │ │
│ │ 2. Kies actie a (via beleid) │ │
│ │ 3. Ontvang beloning r │ │
│ │ 4. Update beleid om r te max. │ │
│ │ │ │
│ └──────────────┬───────────────────┘ │
│ │ │
│ Actie a ↓ │
│ ┌──────────────▼──────────────────────┐ │
│ │ OMGEVING │ │
│ │ (reageert op actie, nieuwe staat)│ │
│ └─────────────────────────────────────┘ │
│ │
│ KERNCONCEPTEN: │
│ ────────────── │
│ │
│ Toestand (s): Huidige situatie │
│ Actie (a): Keuze die agent maakt │
│ Beloning (r): Feedbacksignaal (+positief, -negatief) │
│ Beleid (π): Strategie voor acties kiezen │
│ Waarde (V): Verwachte toekomstige cumulatieve beloning │
│ │
│ EXPLORATIE VS EXPLOITATIE: │
│ ────────────────────────── │
│ │
│ ┌─────────────────┐ ┌─────────────────┐ │
│ │ EXPLORATIE │ │ EXPLOITATIE │ │
│ │ │ │ │ │
│ │ Probeer nieuwe │ │ Gebruik wat │ │
│ │ dingen om │ │ werkt om │ │
│ │ betere opties │ │ bekende belon. │ │
│ │ te ontdekken │ │ te maximaliseren│ │
│ │ │ │ │ │
│ │ "Verkennen" │ │ "Benutten" │ │
│ └─────────────────┘ └─────────────────┘ │
│ │
│ Moet BALANCEREN voor optimaal leren │
│ │
│ VEELGEBRUIKTE RL ALGORITMEN: │
│ ──────────────────────────── │
│ Q-Learning: Leer waarde van toestand-actie paren │
│ Policy Gradient: Direct het beleid optimaliseren │
│ Actor-Critic: Combineer waardeschatting + beleid │
│ PPO: Stabiele beleidsoptimalisatie (RLHF) │
│ DQN: Deep Q-networks voor complexe toestanden │
│ │
└────────────────────────────────────────────────────────────┘
RL paradigma’s:
| Aanpak | Hoe het leert | Voorbeeld |
|---|---|---|
| Waardegebaseerd | Schat waarde van toestanden/acties | DQN speelt Atari |
| Beleidsgebaseerd | Leer direct actiekansen | Policy gradient in robotica |
| Modelgebaseerd | Leer omgevingsdynamiek | Planning in games |
| Modelvrij | Leer direct van ervaring | Meeste game-playing agents |
Veelgestelde vragen
V: Hoe verschilt RL van supervised learning?
A: Bij supervised learning vertel je de agent het correcte antwoord voor elke input. Bij RL krijgt de agent alleen beloningssignalen—het moet goed gedrag ontdekken door exploratie. RL handelt sequentiële beslissingen waar acties toekomstige toestanden beïnvloeden; supervised learning handelt typisch onafhankelijke voorspellingen.
V: Wat is RLHF en hoe verhoudt het zich tot RL?
A: RLHF (Reinforcement Learning from Human Feedback) gebruikt RL om LLMs te fine-tunen. Menselijke voorkeuren worden het beloningssignaal—een apart model voorspelt hoeveel mensen de ene respons boven de andere zouden verkiezen, en RL optimaliseert het LLM om geprefereerde responsen te genereren.
V: Waarom is exploratie vs exploitatie belangrijk?
A: Als een agent alleen bekende goede acties exploiteert, mist het mogelijk betere opties. Als het alleen exploreert, benut het nooit wat het geleerd heeft. De juiste balans vinden is cruciaal—te weinig exploratie leidt tot suboptimaal beleid, te veel verspilt tijd aan slechte acties.
V: Kan RL elk beslissingsprobleem oplossen?
A: In theorie kan RL elk systeem met definieerbare beloningen optimaliseren. In de praktijk heeft RL moeite met: schaarse beloningen (zeldzame feedback), sample-efficiëntie (heeft veel trials nodig), credit assignment (welke actie veroorzaakte de beloning?), en het definiëren van goede beloningssignalen.
Gerelateerde termen
- Machine Learning — het bredere vakgebied
- RLHF — RL gebruiken om LLMs af te stemmen op voorkeuren
- Deep Learning — maakt Deep RL mogelijk
- Neuraal Netwerk — functie-approximators in Deep RL
Referenties
Sutton & Barto (2018), “Reinforcement Learning: An Introduction”, MIT Press. [Het fundamentele RL leerboek]
Mnih et al. (2015), “Human-level control through deep reinforcement learning”, Nature. [DQN paper, 20.000+ citaties]
Silver et al. (2016), “Mastering the game of Go with deep neural networks”, Nature. [AlphaGo paper]
Schulman et al. (2017), “Proximal Policy Optimization Algorithms”, arXiv. [PPO - gebruikt in RLHF]
References
Sutton & Barto (2018), “Reinforcement Learning: An Introduction”, MIT Press. [The foundational RL textbook]
Mnih et al. (2015), “Human-level control through deep reinforcement learning”, Nature. [DQN paper, 20,000+ citations]
Silver et al. (2016), “Mastering the game of Go with deep neural networks”, Nature. [AlphaGo paper]
Schulman et al. (2017), “Proximal Policy Optimization Algorithms”, arXiv. [PPO - used in RLHF]