Definition
Self-Attention (auch Intra-Attention genannt) ist ein Mechanismus, bei dem jede Position in einer Sequenz auf alle Positionen innerhalb derselben Sequenz attendiert, um eine Repräsentation zu berechnen. Im Gegensatz zu Cross-Attention, die zwei verschiedene Sequenzen verbindet, erfasst Self-Attention Beziehungen und Abhängigkeiten zwischen verschiedenen Teilen einer einzelnen Eingabe und ermöglicht dem Modell zu verstehen, wie Wörter innerhalb eines Satzes zueinander in Beziehung stehen.
Warum es wichtig ist
Self-Attention ist der grundlegende Mechanismus von Transformer-Architekturen:
- Kontextuelles Verständnis — die Repräsentation jedes Wortes enthält Informationen von allen anderen Wörtern in der Sequenz
- Langstreckenabhängigkeiten — erfasst Beziehungen zwischen entfernten Wörtern ohne Informationsdegradation
- Bidirektionaler Kontext — in Encoder-Modellen sieht jedes Wort sowohl vorhergehenden als auch folgenden Kontext
- Parallelisierbar — alle Attention-Berechnungen können gleichzeitig ausgeführt werden, anders als rekurrente Ansätze
Dies ermöglicht Sprachmodellen, Bedeutung im Kontext zu verstehen, anstatt Wörter isoliert zu behandeln.
Wie es funktioniert
┌──────────────────────────────────────────────────────────┐
│ SELF-ATTENTION │
├──────────────────────────────────────────────────────────┤
│ │
│ Sequenz: [Die] [Katze] [saß] [auf] [der] [Matte] │
│ │ │ │ │ │ │ │
│ ▼ ▼ ▼ ▼ ▼ ▼ │
│ Jedes Token: Q ────────────────────────────┐ │
│ K ◄───────────────────────────┤ │
│ V ◄───────────────────────────┘ │
│ │
│ "Katze" attendiert: Die(0.1) Katze(0.3) saß(0.4)... │
│ │
│ Ausgabe: kontextualisierte Repräsentation pro Token │
└──────────────────────────────────────────────────────────┘
- Projektion zu Q, K, V — jedes Token generiert Query-, Key- und Value-Vektoren
- Scores berechnen — jede Query attendiert auf alle Keys in der Sequenz
- Softmax anwenden — Scores zu Attention-Gewichten normalisieren
- Values aggregieren — gewichtete Summe aller Values ergibt kontextualisierte Ausgabe
- Ergebnis — die Repräsentation jeder Position enthält nun globalen Kontext
Häufige Fragen
F: Wie unterscheidet sich Self-Attention von Cross-Attention?
A: Self-Attention berechnet Beziehungen innerhalb einer Sequenz (Q, K, V kommen alle von derselben Eingabe). Cross-Attention verbindet zwei Sequenzen—typischerweise Decoder-Queries, die auf Encoder-Ausgaben attendieren.
F: Was ist kausale/maskierte Self-Attention?
A: In Decoder-Modellen (wie GPT) können Tokens nur auf vorherige Tokens attendieren, nicht auf zukünftige. Dies wird durch Maskierung zukünftiger Positionen erzwungen, was autoregressive Generierung ermöglicht.
F: Skaliert Self-Attention quadratisch?
A: Ja, die Komplexität ist O(n²), wobei n die Sequenzlänge ist, da jedes Token auf alle anderen attendiert. Dies begrenzt praktische Kontextfenstergrößen und hat Forschung zu effizienten Attention-Varianten vorangetrieben.
Verwandte Begriffe
- Attention-Mechanismus — die allgemeine Technik, auf der Self-Attention aufbaut
- Transformer-Architektur — verwendet Self-Attention als Kernkomponente
- Multi-Head Attention — führt mehrere Self-Attention-Operationen parallel aus
- LLM — Sprachmodelle, die auf Self-Attention aufgebaut sind
Referenzen
Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS. [130.000+ Zitationen]
Cheng et al. (2016), “Long Short-Term Memory-Networks for Machine Reading”, EMNLP. [1.800+ Zitationen]
Lin et al. (2017), “A Structured Self-Attentive Sentence Embedding”, ICLR. [3.200+ Zitationen]
References
Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS. [130,000+ citations]
Cheng et al. (2016), “Long Short-Term Memory-Networks for Machine Reading”, EMNLP. [1,800+ citations]
Lin et al. (2017), “A Structured Self-Attentive Sentence Embedding”, ICLR. [3,200+ citations]