Skip to main content
KI & Machine Learning

Top-p Sampling

Eine Sampling-Methode, die aus der kleinsten Menge von Tokens auswählt, deren kumulative Wahrscheinlichkeit einen Schwellenwert p übersteigt.

Auch bekannt als: Nucleus Sampling, Top-p Dekodierung, Wahrscheinlichkeitsmassen-Sampling

Definition

Top-p Sampling (auch Nucleus Sampling genannt) ist eine Textgenerierungsstrategie, die dynamisch aus der kleinstmöglichen Menge von Tokens auswählt, deren kumulative Wahrscheinlichkeit einen Schwellenwert p übersteigt. Anders als top-k, das eine feste Anzahl verwendet, passt sich top-p an die Konfidenz des Modells an—wählt weniger Tokens wenn das Modell sicher ist, mehr wenn unsicher.

Warum es wichtig ist

Top-p bietet intelligente Kontrolle über Output-Diversität:

  • Adaptive Auswahl — passt Kandidatenpool basierend auf Modellkonfidenz an
  • Qualitätsbalance — schließt Tokens niedriger Wahrscheinlichkeit aus, die Inkohärenz verursachen
  • Flexibilität — funktioniert über verschiedene Kontexte ohne manuelles Tuning
  • Komplementär — kombiniert gut mit Temperatur für feine Kontrolle
  • Produktionsstandard — Standard-Sampling-Methode in den meisten LLM APIs

Top-p produziert oft natürlicheren Text als festes Top-k Sampling.

Wie es funktioniert

┌────────────────────────────────────────────────────────────┐
│                   TOP-P (NUCLEUS) SAMPLING                 │
├────────────────────────────────────────────────────────────┤
│                                                            │
│  Token-Wahrscheinlichkeiten (sortiert hoch nach niedrig):  │
│                                                            │
│  Token    Wahrsch.  Kumulativ                              │
│  ─────────────────────────────                             │
│  "der"    0.35      0.35                                   │
│  "ein"    0.25      0.60                                   │
│  "dieser" 0.15      0.75                                   │
│  "jener"  0.10      0.85  ◄── p=0.9 Schwelle              │
│  "das"    0.08      0.93  ◄── inkludiert (übersteigt 0.9) │
│  "mein"   0.04      0.97      ausgeschlossen               │
│  "dein"   0.02      0.99      ausgeschlossen               │
│  "sein"   0.01      1.00      ausgeschlossen               │
│                                                            │
│  ┌────────────────────────────────────────────────┐        │
│  │  TOP-P = 0.9                                   │        │
│  │                                                │        │
│  │  Ausgewählter Nucleus: [der, ein, dieser,     │        │
│  │                         jener, das]           │        │
│  │  Nur aus diesen 5 Tokens samplen              │        │
│  │                                                │        │
│  │  ████████████████████████░░░░░░░░             │        │
│  │  ▲                      ▲                     │        │
│  │  Inkludiert (93%)       Ausgeschlossen (7%)   │        │
│  └────────────────────────────────────────────────┘        │
│                                                            │
│  ADAPTIVES VERHALTEN:                                      │
│  • Sichere Vorhersage → wählt 2-3 Tokens                   │
│  • Unsichere Vorhersage → wählt 10-20 Tokens               │
│                                                            │
└────────────────────────────────────────────────────────────┘

Übliche Top-p Werte:

WertVerhaltenAnwendungsfall
0.1Sehr restriktivDeterministische Aufgaben
0.5Mäßig fokussiertFaktische Generierung
0.9Ausgewogen (Standard)Allgemeine Nutzung
0.95DiverserKreatives Schreiben
1.0Alle TokensMaximale Diversität

Häufige Fragen

F: Was ist der Unterschied zwischen top-p und top-k?

A: Top-k wählt immer genau k Tokens unabhängig von ihren Wahrscheinlichkeiten. Top-p wählt eine variable Anzahl basierend auf kumulativer Wahrscheinlichkeit. Top-p passt sich an: wenn ein Token 95% Wahrscheinlichkeit hat, wählt es nur dieses eine; wenn Wahrscheinlichkeiten verteilt sind, wählt es viele.

F: Was ist ein guter Standard-Top-p-Wert?

A: 0.9 ist ein üblicher Standard. Er inkludiert die meisten vernünftigen Tokens während der lange Schwanz unwahrscheinlicher Optionen ausgeschlossen wird. Für fokussiertere Ausgabe, versuchen Sie 0.5-0.7; für kreativer, 0.95.

F: Sollte ich top-p mit Temperatur verwenden?

A: Ja, sie ergänzen sich. Temperatur formt die Wahrscheinlichkeitsverteilung um; top-p samplet dann aus der angepassten Verteilung. Eine übliche Kombination: Temperatur 0.7 + top-p 0.9.

F: Bedeutet top-p = 1.0 keine Filterung?

A: Effektiv ja—alle Tokens sind inkludiert da kumulative Wahrscheinlichkeit immer 1.0 erreicht. Das gibt maximale Diversität, kann aber unsinnige Tokens niedriger Wahrscheinlichkeit enthalten.

Verwandte Begriffe


Referenzen

Holtzman et al. (2020), “The Curious Case of Neural Text Degeneration”, ICLR. [2.500+ Zitationen]

Fan et al. (2018), “Hierarchical Neural Story Generation”, ACL. [1.000+ Zitationen]

Radford et al. (2019), “Language Models are Unsupervised Multitask Learners”, OpenAI. [10.000+ Zitationen]

Welleck et al. (2020), “Neural Text Generation With Unlikelihood Training”, ICLR. [500+ Zitationen]

References

Holtzman et al. (2020), “The Curious Case of Neural Text Degeneration”, ICLR. [2,500+ citations]

Fan et al. (2018), “Hierarchical Neural Story Generation”, ACL. [1,000+ citations]

Radford et al. (2019), “Language Models are Unsupervised Multitask Learners”, OpenAI. [10,000+ citations]

Welleck et al. (2020), “Neural Text Generation With Unlikelihood Training”, ICLR. [500+ citations]