Definition
Top-p Sampling (auch Nucleus Sampling genannt) ist eine Textgenerierungsstrategie, die dynamisch aus der kleinstmöglichen Menge von Tokens auswählt, deren kumulative Wahrscheinlichkeit einen Schwellenwert p übersteigt. Anders als top-k, das eine feste Anzahl verwendet, passt sich top-p an die Konfidenz des Modells an—wählt weniger Tokens wenn das Modell sicher ist, mehr wenn unsicher.
Warum es wichtig ist
Top-p bietet intelligente Kontrolle über Output-Diversität:
- Adaptive Auswahl — passt Kandidatenpool basierend auf Modellkonfidenz an
- Qualitätsbalance — schließt Tokens niedriger Wahrscheinlichkeit aus, die Inkohärenz verursachen
- Flexibilität — funktioniert über verschiedene Kontexte ohne manuelles Tuning
- Komplementär — kombiniert gut mit Temperatur für feine Kontrolle
- Produktionsstandard — Standard-Sampling-Methode in den meisten LLM APIs
Top-p produziert oft natürlicheren Text als festes Top-k Sampling.
Wie es funktioniert
┌────────────────────────────────────────────────────────────┐
│ TOP-P (NUCLEUS) SAMPLING │
├────────────────────────────────────────────────────────────┤
│ │
│ Token-Wahrscheinlichkeiten (sortiert hoch nach niedrig): │
│ │
│ Token Wahrsch. Kumulativ │
│ ───────────────────────────── │
│ "der" 0.35 0.35 │
│ "ein" 0.25 0.60 │
│ "dieser" 0.15 0.75 │
│ "jener" 0.10 0.85 ◄── p=0.9 Schwelle │
│ "das" 0.08 0.93 ◄── inkludiert (übersteigt 0.9) │
│ "mein" 0.04 0.97 ausgeschlossen │
│ "dein" 0.02 0.99 ausgeschlossen │
│ "sein" 0.01 1.00 ausgeschlossen │
│ │
│ ┌────────────────────────────────────────────────┐ │
│ │ TOP-P = 0.9 │ │
│ │ │ │
│ │ Ausgewählter Nucleus: [der, ein, dieser, │ │
│ │ jener, das] │ │
│ │ Nur aus diesen 5 Tokens samplen │ │
│ │ │ │
│ │ ████████████████████████░░░░░░░░ │ │
│ │ ▲ ▲ │ │
│ │ Inkludiert (93%) Ausgeschlossen (7%) │ │
│ └────────────────────────────────────────────────┘ │
│ │
│ ADAPTIVES VERHALTEN: │
│ • Sichere Vorhersage → wählt 2-3 Tokens │
│ • Unsichere Vorhersage → wählt 10-20 Tokens │
│ │
└────────────────────────────────────────────────────────────┘
Übliche Top-p Werte:
| Wert | Verhalten | Anwendungsfall |
|---|---|---|
| 0.1 | Sehr restriktiv | Deterministische Aufgaben |
| 0.5 | Mäßig fokussiert | Faktische Generierung |
| 0.9 | Ausgewogen (Standard) | Allgemeine Nutzung |
| 0.95 | Diverser | Kreatives Schreiben |
| 1.0 | Alle Tokens | Maximale Diversität |
Häufige Fragen
F: Was ist der Unterschied zwischen top-p und top-k?
A: Top-k wählt immer genau k Tokens unabhängig von ihren Wahrscheinlichkeiten. Top-p wählt eine variable Anzahl basierend auf kumulativer Wahrscheinlichkeit. Top-p passt sich an: wenn ein Token 95% Wahrscheinlichkeit hat, wählt es nur dieses eine; wenn Wahrscheinlichkeiten verteilt sind, wählt es viele.
F: Was ist ein guter Standard-Top-p-Wert?
A: 0.9 ist ein üblicher Standard. Er inkludiert die meisten vernünftigen Tokens während der lange Schwanz unwahrscheinlicher Optionen ausgeschlossen wird. Für fokussiertere Ausgabe, versuchen Sie 0.5-0.7; für kreativer, 0.95.
F: Sollte ich top-p mit Temperatur verwenden?
A: Ja, sie ergänzen sich. Temperatur formt die Wahrscheinlichkeitsverteilung um; top-p samplet dann aus der angepassten Verteilung. Eine übliche Kombination: Temperatur 0.7 + top-p 0.9.
F: Bedeutet top-p = 1.0 keine Filterung?
A: Effektiv ja—alle Tokens sind inkludiert da kumulative Wahrscheinlichkeit immer 1.0 erreicht. Das gibt maximale Diversität, kann aber unsinnige Tokens niedriger Wahrscheinlichkeit enthalten.
Verwandte Begriffe
- Temperatur — formt Wahrscheinlichkeitsverteilung um
- Top-k Sampling — Alternative mit fester Anzahl
- Beam Search — andere Dekodierungsstrategie
- Inferenz — Generierungsprozess
Referenzen
Holtzman et al. (2020), “The Curious Case of Neural Text Degeneration”, ICLR. [2.500+ Zitationen]
Fan et al. (2018), “Hierarchical Neural Story Generation”, ACL. [1.000+ Zitationen]
Radford et al. (2019), “Language Models are Unsupervised Multitask Learners”, OpenAI. [10.000+ Zitationen]
Welleck et al. (2020), “Neural Text Generation With Unlikelihood Training”, ICLR. [500+ Zitationen]
References
Holtzman et al. (2020), “The Curious Case of Neural Text Degeneration”, ICLR. [2,500+ citations]
Fan et al. (2018), “Hierarchical Neural Story Generation”, ACL. [1,000+ citations]
Radford et al. (2019), “Language Models are Unsupervised Multitask Learners”, OpenAI. [10,000+ citations]
Welleck et al. (2020), “Neural Text Generation With Unlikelihood Training”, ICLR. [500+ citations]