Verstärkendes Lernen — Glossar

Definition

Reinforcement Learning (RL) ist ein Machine-Learning-Paradigma, bei dem ein Agent lernt, Entscheidungen zu treffen, indem er mit einer Umgebung interagiert. Der Agent führt Aktionen aus, erhält Feedback in Form von Belohnungen oder Strafen und lernt eine Politik, die die kumulative Belohnung über die Zeit maximiert. Anders als überwachtes Lernen (das gelabelte Beispiele braucht) oder unüberwachtes Lernen (das Muster findet), lernt RL aus den Konsequenzen von Aktionen durch Versuch und Irrtum.

Warum es wichtig ist

Reinforcement Learning ermöglicht KI, komplexe Verhaltensweisen zu lernen:

Lernt ohne Labels — braucht nur ein Belohnungssignal, keine gelabelten Beispiele
Behandelt sequentielle Entscheidungen — optimiert langfristige Ergebnisse
Übermenschliche Leistung — AlphaGo, Spielagenten, Robotik
Real-World-Kontrolle — autonome Fahrzeuge, Empfehlungssysteme
Fundament für RLHF — Schlüsseltechnik für die Ausrichtung von LLMs an menschlichen Präferenzen

RL überbrückt die Lücke zwischen KI und Entscheidungsfindung in komplexen Umgebungen.

Wie es funktioniert

┌────────────────────────────────────────────────────────────┐
│                  REINFORCEMENT LEARNING                    │
├────────────────────────────────────────────────────────────┤
│                                                            │
│  DIE RL-SCHLEIFE:                                          │
│  ────────────────                                          │
│                                                            │
│         ┌─────────────────────────────────────┐           │
│         │           UMGEBUNG                  │           │
│         │    (Spiel, Roboterwelt, Website)    │           │
│         └──────────────┬──────────────────────┘           │
│                        │                                   │
│             Zustand s  │   Belohnung r                     │
│                ↓       │       ↓                           │
│         ┌──────────────▼───────────────────┐              │
│         │              AGENT               │              │
│         │                                  │              │
│         │  1. Beobachte Zustand s         │              │
│         │  2. Wähle Aktion a (via Politik)│              │
│         │  3. Erhalte Belohnung r         │              │
│         │  4. Update Politik um r zu max. │              │
│         │                                  │              │
│         └──────────────┬───────────────────┘              │
│                        │                                   │
│              Aktion a  ↓                                   │
│         ┌──────────────▼──────────────────────┐           │
│         │           UMGEBUNG                  │           │
│         │    (reagiert auf Aktion, neuer Zust.)│          │
│         └─────────────────────────────────────┘           │
│                                                            │
│  KERNKONZEPTE:                                             │
│  ─────────────                                             │
│                                                            │
│  Zustand (s):   Aktuelle Situation                        │
│  Aktion (a):    Wahl des Agenten                          │
│  Belohnung (r): Feedbacksignal (+positiv, -negativ)       │
│  Politik (π):   Strategie für Aktionswahl                 │
│  Wert (V):      Erwartete zukünftige kumulative Belohnung │
│                                                            │
│  EXPLORATION VS EXPLOITATION:                              │
│  ────────────────────────────                              │
│                                                            │
│  ┌─────────────────┐    ┌─────────────────┐               │
│  │   EXPLORATION   │    │   EXPLOITATION  │               │
│  │                 │    │                 │               │
│  │ Neues versuchen │    │ Nutze was       │               │
│  │ um bessere      │    │ funktioniert um │               │
│  │ Optionen zu     │    │ bekannte Bel.   │               │
│  │ entdecken       │    │ zu maximieren   │               │
│  │                 │    │                 │               │
│  │   "Erkunden"    │    │   "Ausnutzen"   │               │
│  └─────────────────┘    └─────────────────┘               │
│                                                            │
│           Muss BEIDES BALANCIEREN für optimales Lernen     │
│                                                            │
│  GÄNGIGE RL-ALGORITHMEN:                                   │
│  ───────────────────────                                   │
│  Q-Learning:     Lerne Wert von Zustand-Aktions-Paaren    │
│  Policy Gradient: Optimiere Politik direkt                │
│  Actor-Critic:   Kombiniere Wertschätzung + Politik       │
│  PPO:           Stabile Politikoptimierung (RLHF)         │
│  DQN:           Deep Q-Networks für komplexe Zustände     │
│                                                            │
└────────────────────────────────────────────────────────────┘

RL-Paradigmen:

Ansatz	Wie es lernt	Beispiel
Wertbasiert	Schätzt Wert von Zuständen/Aktionen	DQN spielt Atari
Politikbasiert	Lernt direkt Aktionswahrscheinlichkeiten	Policy Gradient in Robotik
Modellbasiert	Lernt Umgebungsdynamik	Planung in Spielen
Modellfrei	Lernt direkt aus Erfahrung	Die meisten Spielagenten

Häufige Fragen

F: Wie unterscheidet sich RL von überwachtem Lernen?

A: Beim überwachten Lernen teilen Sie dem Agenten die richtige Antwort für jede Eingabe mit. Bei RL erhält der Agent nur Belohnungssignale—er muss gutes Verhalten durch Exploration entdecken. RL behandelt sequentielle Entscheidungen, wo Aktionen zukünftige Zustände beeinflussen; überwachtes Lernen behandelt typischerweise unabhängige Vorhersagen.

F: Was ist RLHF und wie verhält es sich zu RL?

A: RLHF (Reinforcement Learning from Human Feedback) nutzt RL zum Fine-Tuning von LLMs. Menschliche Präferenzen werden zum Belohnungssignal—ein separates Modell sagt vorher, wie sehr Menschen eine Antwort gegenüber einer anderen bevorzugen würden, und RL optimiert das LLM, um bevorzugte Antworten zu generieren.

F: Warum ist Exploration vs Exploitation wichtig?

A: Wenn ein Agent nur bekannte gute Aktionen ausnutzt, verpasst er möglicherweise bessere Optionen. Wenn er nur exploriert, nutzt er nie, was er gelernt hat. Die richtige Balance zu finden ist entscheidend—zu wenig Exploration führt zu suboptimalen Politiken, zu viel verschwendet Zeit mit schlechten Aktionen.

F: Kann RL jedes Entscheidungsproblem lösen?

A: Theoretisch kann RL jedes System mit definierbaren Belohnungen optimieren. Praktisch kämpft RL mit: spärlichen Belohnungen (seltenes Feedback), Sample-Effizienz (braucht viele Versuche), Credit Assignment (welche Aktion verursachte die Belohnung?), und dem Definieren guter Belohnungssignale.

Referenzen

Sutton & Barto (2018), “Reinforcement Learning: An Introduction”, MIT Press. [Das grundlegende RL-Lehrbuch]

Mnih et al. (2015), “Human-level control through deep reinforcement learning”, Nature. [DQN-Paper, 20.000+ Zitationen]

Silver et al. (2016), “Mastering the game of Go with deep neural networks”, Nature. [AlphaGo-Paper]

Schulman et al. (2017), “Proximal Policy Optimization Algorithms”, arXiv. [PPO - verwendet in RLHF]

References

Sutton & Barto (2018), “Reinforcement Learning: An Introduction”, MIT Press. [The foundational RL textbook]

Mnih et al. (2015), “Human-level control through deep reinforcement learning”, Nature. [DQN paper, 20,000+ citations]

Silver et al. (2016), “Mastering the game of Go with deep neural networks”, Nature. [AlphaGo paper]

Schulman et al. (2017), “Proximal Policy Optimization Algorithms”, arXiv. [PPO - used in RLHF]