Self-Attention — Glossar

Definition

Self-Attention (auch Intra-Attention genannt) ist ein Mechanismus, bei dem jede Position in einer Sequenz auf alle Positionen innerhalb derselben Sequenz attendiert, um eine Repräsentation zu berechnen. Im Gegensatz zu Cross-Attention, die zwei verschiedene Sequenzen verbindet, erfasst Self-Attention Beziehungen und Abhängigkeiten zwischen verschiedenen Teilen einer einzelnen Eingabe und ermöglicht dem Modell zu verstehen, wie Wörter innerhalb eines Satzes zueinander in Beziehung stehen.

Warum es wichtig ist

Self-Attention ist der grundlegende Mechanismus von Transformer-Architekturen:

Kontextuelles Verständnis — die Repräsentation jedes Wortes enthält Informationen von allen anderen Wörtern in der Sequenz
Langstreckenabhängigkeiten — erfasst Beziehungen zwischen entfernten Wörtern ohne Informationsdegradation
Bidirektionaler Kontext — in Encoder-Modellen sieht jedes Wort sowohl vorhergehenden als auch folgenden Kontext
Parallelisierbar — alle Attention-Berechnungen können gleichzeitig ausgeführt werden, anders als rekurrente Ansätze

Dies ermöglicht Sprachmodellen, Bedeutung im Kontext zu verstehen, anstatt Wörter isoliert zu behandeln.

Wie es funktioniert

┌──────────────────────────────────────────────────────────┐
│                      SELF-ATTENTION                      │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  Sequenz: [Die] [Katze] [saß] [auf] [der] [Matte]       │
│            │      │      │     │     │      │            │
│            ▼      ▼      ▼     ▼     ▼      ▼            │
│  Jedes Token: Q ────────────────────────────┐            │
│               K ◄───────────────────────────┤            │
│               V ◄───────────────────────────┘            │
│                                                          │
│  "Katze" attendiert: Die(0.1) Katze(0.3) saß(0.4)...    │
│                                                          │
│  Ausgabe: kontextualisierte Repräsentation pro Token     │
└──────────────────────────────────────────────────────────┘

Projektion zu Q, K, V — jedes Token generiert Query-, Key- und Value-Vektoren
Scores berechnen — jede Query attendiert auf alle Keys in der Sequenz
Softmax anwenden — Scores zu Attention-Gewichten normalisieren
Values aggregieren — gewichtete Summe aller Values ergibt kontextualisierte Ausgabe
Ergebnis — die Repräsentation jeder Position enthält nun globalen Kontext

Häufige Fragen

F: Wie unterscheidet sich Self-Attention von Cross-Attention?

A: Self-Attention berechnet Beziehungen innerhalb einer Sequenz (Q, K, V kommen alle von derselben Eingabe). Cross-Attention verbindet zwei Sequenzen—typischerweise Decoder-Queries, die auf Encoder-Ausgaben attendieren.

F: Was ist kausale/maskierte Self-Attention?

A: In Decoder-Modellen (wie GPT) können Tokens nur auf vorherige Tokens attendieren, nicht auf zukünftige. Dies wird durch Maskierung zukünftiger Positionen erzwungen, was autoregressive Generierung ermöglicht.

F: Skaliert Self-Attention quadratisch?

A: Ja, die Komplexität ist O(n²), wobei n die Sequenzlänge ist, da jedes Token auf alle anderen attendiert. Dies begrenzt praktische Kontextfenstergrößen und hat Forschung zu effizienten Attention-Varianten vorangetrieben.

Referenzen

Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS. [130.000+ Zitationen]

Cheng et al. (2016), “Long Short-Term Memory-Networks for Machine Reading”, EMNLP. [1.800+ Zitationen]

Lin et al. (2017), “A Structured Self-Attentive Sentence Embedding”, ICLR. [3.200+ Zitationen]

References

Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS. [130,000+ citations]

Cheng et al. (2016), “Long Short-Term Memory-Networks for Machine Reading”, EMNLP. [1,800+ citations]

Lin et al. (2017), “A Structured Self-Attentive Sentence Embedding”, ICLR. [3,200+ citations]