Top-k Sampling — Glossar

Definition

Top-k Sampling ist eine Textgenerierungsstrategie, die den Auswahlpool auf die k Tokens mit der höchsten Wahrscheinlichkeit bei jedem Generierungsschritt beschränkt. Durch das Eliminieren von Tokens niedriger Wahrscheinlichkeit reduziert es das Risiko, inkohärenten oder unerwarteten Text zu generieren, während etwas Diversität in den Outputs erhalten bleibt.

Warum es wichtig ist

Top-k bietet vorhersagbare Kontrolle über Generierungsdiversität:

Rauschreduktion — eliminiert unwahrscheinliche Tokens, die Inkohärenz verursachen
Einfachheit — einzelner Integer-Parameter, leicht zu verstehen
Konsistenz — feste Kandidatenpoolgrõße unabhängig von Verteilungsform
Geschwindigkeit — effizient zu berechnen durch einfaches Sortieren und Abschneiden
Historische Bedeutung — früher Standard, der spätere Methoden beeinflusste

Top-k bleibt nützlich, obwohl top-p oft für adaptives Verhalten bevorzugt wird.

Wie es funktioniert

┌────────────────────────────────────────────────────────────┐
│                      TOP-K SAMPLING                        │
├────────────────────────────────────────────────────────────┤
│                                                            │
│  Token-Wahrscheinlichkeiten (sortiert hoch nach niedrig):  │
│                                                            │
│  Rang  Token     Wahrsch.                                  │
│  ─────────────────────                                     │
│  1     "der"     0.35   ◄── inkludiert                    │
│  2     "ein"     0.25   ◄── inkludiert                    │
│  3     "dieser"  0.15   ◄── inkludiert                    │
│  4     "jener"   0.10   ◄── inkludiert                    │
│  5     "das"     0.08   ◄── inkludiert (k=5)              │
│  6     "mein"    0.04       ausgeschlossen                 │
│  7     "dein"    0.02       ausgeschlossen                 │
│  8     "sein"    0.01       ausgeschlossen                 │
│                                                            │
│  ┌────────────────────────────────────────────────┐        │
│  │  TOP-K = 5                                     │        │
│  │                                                │        │
│  │  Immer aus genau 5 Tokens auswählen           │        │
│  │                                                │        │
│  │  Rang: [1] [2] [3] [4] [5] │ [6] [7] [8]...   │        │
│  │        ▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲│▲▲▲▲▲▲▲▲▲▲▲▲▲▲    │        │
│  │        KANDIDATENPOOL     │  AUSGESCHLOSSEN   │        │
│  └────────────────────────────────────────────────┘        │
│                                                            │
│  FESTE AUSWAHL (unabhängig von Wahrscheinlichkeitsform):   │
│                                                            │
│  Sicheres Modell          Unsicheres Modell                │
│  [0.90, 0.05, 0.02...]    [0.15, 0.14, 0.13...]            │
│  Wählt immer noch k=5     Wählt immer noch k=5             │
│                                                            │
└────────────────────────────────────────────────────────────┘

Übliche Top-k Werte:

Wert	Verhalten	Anwendungsfall
1	Greedy (deterministisch)	Exakte Aufgaben
10	Sehr fokussiert	Faktisches Q&A
40	Ausgewogen (üblicher Standard)	Allgemeine Nutzung
100	Divers	Kreative Aufgaben
0	Deaktiviert (alle Tokens)	Nur mit top-p

Häufige Fragen

F: Was ist der Unterschied zwischen top-k und top-p?

A: Top-k wählt immer genau k Tokens. Top-p (Nucleus Sampling) wählt eine variable Anzahl basierend auf kumulativer Wahrscheinlichkeit. Wenn Wahrscheinlichkeiten stark auf einem Token konzentriert sind, könnte top-p nur 1-2 Tokens wählen, während top-k immer noch alle k wählt.

F: Was ist ein guter top-k Wert?

A: 40-50 ist üblich für allgemeine Nutzung. Niedriger (5-20) für faktische Aufgaben, höher (100+) für kreative Arbeit. Der optimale Wert hängt von Vokabulargrõße und Aufgabenanforderungen ab.

F: Sollte ich top-k mit Temperatur verwenden?

A: Ja, sie funktionieren gut zusammen. Temperatur formt zuerst die Wahrscheinlichkeiten um, dann kürzt top-k auf die besten Kandidaten. Diese Kombination gibt Ihnen Kontrolle über sowohl Verteilungsform als auch Kandidatenpoolgrõße.

F: Was passiert mit top-k = 1?

A: Das ist äquivalent zu Greedy-Dekodierung—immer das wahrscheinlichste Token wählen. Output wird deterministisch (gleiche Eingabe → gleiche Ausgabe), kann aber repetitiv sein oder bessere Gesamtsequenzen verpassen.

Referenzen

Fan et al. (2018), “Hierarchical Neural Story Generation”, ACL. [1.000+ Zitationen]

Holtzman et al. (2020), “The Curious Case of Neural Text Degeneration”, ICLR. [2.500+ Zitationen]

Radford et al. (2019), “Language Models are Unsupervised Multitask Learners”, OpenAI. [10.000+ Zitationen]

Meister et al. (2020), “If Beam Search is the Answer, What was the Question?”, EMNLP. [200+ Zitationen]

References

Fan et al. (2018), “Hierarchical Neural Story Generation”, ACL. [1,000+ citations]

Holtzman et al. (2020), “The Curious Case of Neural Text Degeneration”, ICLR. [2,500+ citations]

Radford et al. (2019), “Language Models are Unsupervised Multitask Learners”, OpenAI. [10,000+ citations]

Meister et al. (2020), “If Beam Search is the Answer, What was the Question?”, EMNLP. [200+ citations]