Definition
Perplexität ist ein Maß dafür, wie gut ein Wahrscheinlichkeitsmodell eine Stichprobe vorhersagt. Für Sprachmodelle repräsentiert sie die Unsicherheit des Modells bei der Vorhersage des nächsten Tokens—niedrigere Perplexität bedeutet, dass das Modell weniger “perplex” oder sicherer ist. Mathematisch ist Perplexität die exponentierte durchschnittliche negative Log-Likelihood pro Token.
Warum es wichtig ist
Perplexität ist eine fundamentale Evaluationsmetrik:
- Modellvergleich — verschiedene Modelle auf demselben Datensatz vergleichen
- Trainingsüberwachung — Verbesserung während des Trainings verfolgen
- Domänenbewertung — messen, wie gut das Modell zu spezifischem Text passt
- Quantisierungsauswirkung — Qualitätsverlust durch Kompression bewerten
- Interpretierbare Skala — kann als effektive Vokabulargröße verstanden werden
Perplexität hilft zu beantworten: “Wie überrascht ist das Modell von diesem Text?”
Wie es funktioniert
┌────────────────────────────────────────────────────────────┐
│ PERPLEXITÄT │
├────────────────────────────────────────────────────────────┤
│ │
│ Formel: PPL = exp(-1/N × Σ log P(token_i | kontext)) │
│ │
│ Beispiel: "Die Katze saß" │
│ ───────────────────────── │
│ │
│ Token P(token|kontext) log P │
│ ───────────────────────────────────────── │
│ "Die" 0.10 -2.30 │
│ "Katze" 0.25 -1.39 │
│ "saß" 0.40 -0.92 │
│ │
│ Durchschnitt log P = (-2.30 + -1.39 + -0.92) / 3 = -1.54 │
│ Perplexität = exp(1.54) = 4.66 │
│ │
│ ┌────────────────────────────────────────────────┐ │
│ │ INTERPRETATION: │ │
│ │ │ │
│ │ PPL ≈ "effektive Wahlmöglichkeiten pro Pos."│ │
│ │ │ │
│ │ PPL = 1: Modell 100% sicher │ │
│ │ PPL = 10: ~10 gleich wahrscheinl. Optionen │ │
│ │ PPL = 50k: Zufällig (Vokabgröße)=kein Lern. │ │
│ └────────────────────────────────────────────────┘ │
│ │
│ PERPLEXITÄTS-SKALA: │
│ ─────────────────── │
│ │◄────────────────────────────────────────────►│ │
│ 1 10 50 100 1000 50000 │
│ Perfekt Super Gut Okay Schlecht Zufällig │
│ │
│ TYPISCHE WERTE: │
│ ─────────────── │
│ GPT-4 auf normalem Text: ~10-20 │
│ Kleines Modell: ~50-100 │
│ Domänen-Mismatch: ~100-500 │
│ Untrainiertes Modell: ~Vokabulargröße │
│ │
└────────────────────────────────────────────────────────────┘
Perplexitäts-Benchmarks:
| Bereich | Qualität | Interpretation |
|---|---|---|
| 1-10 | Ausgezeichnet | Hoch vorhersagbarer Text |
| 10-30 | Sehr gut | Typisch für starke LLMs |
| 30-50 | Gut | Vernünftiges Modell |
| 50-100 | Mäßig | Kann Verbesserung brauchen |
| 100+ | Schlecht | Signifikante Probleme oder Domänen-Mismatch |
Häufige Fragen
F: Was ist ein “guter” Perplexitätswert?
A: Es hängt vom Datensatz und der Modellgröße ab. State-of-the-Art-Modelle erreichen Perplexität ~15-25 auf Standard-Benchmarks wie WikiText. Innerhalb eines Projekts fokussieren Sie auf relative Verbesserungen statt absoluter Zahlen.
F: Kann Perplexität Modelle mit verschiedenen Tokenizern vergleichen?
A: Nicht direkt—verschiedene Tokenizer produzieren unterschiedliche Token-Zahlen für denselben Text. Vergleichen Sie Modelle mit demselben Tokenizer, oder normalisieren Sie nach Zeichen/Wortanzahl statt Token-Anzahl.
F: Warum kann Perplexität niedrig sein, aber Generierungsqualität schlecht?
A: Perplexität misst durchschnittliche Vorhersagegenauigkeit, nicht Output-Qualität. Ein Modell kann niedrige Perplexität haben, indem es häufige Wörter gut vorhersagt, während es bei kohärenter Langform-Generierung versagt. Verwenden Sie Perplexität neben anderen Metriken.
F: Wie verhält sich Perplexität zu Cross-Entropie-Verlust?
A: Perplexität = exp(Cross-Entropie). Sie messen dasselbe auf verschiedenen Skalen. Cross-Entropie wird typischerweise während des Trainings verwendet (einfachere Gradientenberechnung); Perplexität ist besser interpretierbar für Berichte.
Verwandte Begriffe
- Verlustfunktion — Trainingsziel
- LLM — Sprachmodelle, die evaluiert werden
- Tokenisierung — beeinflusst Perplexitätsberechnung
- Fine-tuning — verbessert Domänen-Perplexität
Referenzen
Jelinek et al. (1977), “Perplexity—a measure of the difficulty of speech recognition tasks”, JASA. [Grundlegendes Paper]
Merity et al. (2017), “Regularizing and Optimizing LSTM Language Models”, ICLR. [1.500+ Zitationen]
Brown et al. (2020), “Language Models are Few-Shot Learners”, NeurIPS. [15.000+ Zitationen]
Radford et al. (2019), “Language Models are Unsupervised Multitask Learners”, OpenAI. [10.000+ Zitationen]
References
Jelinek et al. (1977), “Perplexity—a measure of the difficulty of speech recognition tasks”, JASA. [Foundational paper]
Merity et al. (2017), “Regularizing and Optimizing LSTM Language Models”, ICLR. [1,500+ citations]
Brown et al. (2020), “Language Models are Few-Shot Learners”, NeurIPS. [15,000+ citations]
Radford et al. (2019), “Language Models are Unsupervised Multitask Learners”, OpenAI. [10,000+ citations]