Self-Attention — Woordenlijst

Definitie

Self-attention (ook wel intra-attention genoemd) is een mechanisme waarbij elke positie in een sequentie attendeert aan alle posities binnen dezelfde sequentie om een representatie te berekenen. In tegenstelling tot cross-attention, die twee verschillende sequenties relateert, legt self-attention relaties en afhankelijkheden vast tussen verschillende delen van één enkele invoer, waardoor het model kan begrijpen hoe woorden zich tot elkaar verhouden binnen een zin.

Waarom het belangrijk is

Self-attention is het fundamentele mechanisme van Transformer-architecturen:

Contextueel begrip — de representatie van elk woord bevat informatie van alle andere woorden in de sequentie
Lange-afstandsafhankelijkheden — legt relaties vast tussen verre woorden zonder informatiedegradatie
Bidirectionele context — in encoder-modellen ziet elk woord zowel voorafgaande als volgende context
Parallelliseerbaar — alle attention-berekeningen kunnen gelijktijdig worden uitgevoerd, in tegenstelling tot recurrente benaderingen

Dit stelt taalmodellen in staat om betekenis in context te begrijpen in plaats van woorden geïsoleerd te behandelen.

Hoe het werkt

┌──────────────────────────────────────────────────────────┐
│                      SELF-ATTENTION                      │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  Sequentie: [De] [kat] [zat] [op] [de] [mat]            │
│              │     │     │    │    │     │               │
│              ▼     ▼     ▼    ▼    ▼     ▼               │
│  Elk token:  Q ────────────────────────────┐             │
│              K ◄───────────────────────────┤             │
│              V ◄───────────────────────────┘             │
│                                                          │
│  "kat" attendeert aan: De(0.1) kat(0.3) zat(0.4) op(0.1)│
│                                                          │
│  Output: gecontextualiseerde representatie per token     │
└──────────────────────────────────────────────────────────┘

Projecteer naar Q, K, V — elk token genereert Query, Key en Value vectoren
Bereken scores — elke Query attendeert aan alle Keys in de sequentie
Pas softmax toe — normaliseer scores naar attention-gewichten
Aggregeer values — gewogen som van alle Values geeft gecontextualiseerde output
Resultaat — de representatie van elke positie bevat nu globale context

Veelgestelde vragen

V: Hoe verschilt self-attention van cross-attention?

A: Self-attention berekent relaties binnen één sequentie (Q, K, V komen allemaal van dezelfde invoer). Cross-attention relateert twee sequenties—typisch decoder queries die attenderen aan encoder outputs.

V: Wat is causale/gemaskeerde self-attention?

A: In decoder-modellen (zoals GPT) kunnen tokens alleen attenderen aan voorgaande tokens, niet aan toekomstige. Dit wordt afgedwongen door toekomstige posities te maskeren, wat autoregressieve generatie mogelijk maakt.

V: Schaalt self-attention kwadratisch?

A: Ja, complexiteit is O(n²) waarbij n de sequentielengte is, aangezien elk token aan alle andere attendeert. Dit beperkt praktische context window-groottes en heeft onderzoek naar efficiënte attention-varianten gestimuleerd.

Gerelateerde termen

Attention-mechanisme — de algemene techniek waarop self-attention voortbouwt
Transformer-architectuur — gebruikt self-attention als kerncomponent
Multi-Head Attention — voert meerdere self-attention operaties parallel uit
LLM — taalmodellen gebouwd op self-attention

Referenties

Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS. [130.000+ citaties]

Cheng et al. (2016), “Long Short-Term Memory-Networks for Machine Reading”, EMNLP. [1.800+ citaties]

Lin et al. (2017), “A Structured Self-Attentive Sentence Embedding”, ICLR. [3.200+ citaties]

References

Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS. [130,000+ citations]

Cheng et al. (2016), “Long Short-Term Memory-Networks for Machine Reading”, EMNLP. [1,800+ citations]

Lin et al. (2017), “A Structured Self-Attentive Sentence Embedding”, ICLR. [3,200+ citations]