Definitie
Multi-Head Attention is een mechanisme dat meerdere attention-operaties parallel uitvoert, elk met verschillende geleerde projecties. In plaats van één enkele attention-functie te berekenen, voert het model meerdere “heads” gelijktijdig uit, elk gericht op het vastleggen van verschillende aspecten van relaties in de data. De outputs worden vervolgens geconcateneerd en geprojecteerd om het eindresultaat te produceren.
Waarom het belangrijk is
Multi-Head Attention pakt beperkingen van single-head attention aan:
- Diverse representaties — verschillende heads kunnen verschillende relatietypes leren (syntactisch, semantisch, positioneel)
- Rijkere expressiviteit — het gelijktijdig vastleggen van meerdere patronen verbetert de modelcapaciteit
- Stabiele training — meerdere heads bieden redundantie en stabiliteit in gradiëntenstroom
- Interpreteerbaarheid — individuele heads specialiseren zich vaak in identificeerbare taalkundige patronen
Dit is waarom Transformers multi-head attention gebruiken in plaats van enkele attention—het is fundamenteel krachtiger.
Hoe het werkt
┌─────────────────────────────────────────────────────────────┐
│ MULTI-HEAD ATTENTION │
├─────────────────────────────────────────────────────────────┤
│ │
│ Input ──┬──→ Head 1 (W_Q1, W_K1, W_V1) ──→ Attention 1 │
│ │ │
│ ├──→ Head 2 (W_Q2, W_K2, W_V2) ──→ Attention 2 │
│ │ │
│ ├──→ Head 3 (W_Q3, W_K3, W_V3) ──→ Attention 3 │
│ │ │ │
│ └──→ ...h heads... ▼ │
│ [Concateneren] │
│ │ │
│ Lineaire Projectie (W_O) │
│ │ │
│ ▼ │
│ Output │
└─────────────────────────────────────────────────────────────┘
- Projecteer inputs — Q, K, V worden h keer lineair geprojecteerd met verschillende geleerde gewichten
- Parallelle attention — elke head berekent attention onafhankelijk
- Concateneren — head outputs worden geconcateneerd langs de feature-dimensie
- Eindprojectie — geconcateneerde output wordt lineair teruggeprojecteerd naar modeldimensie
Formule: MultiHead(Q,K,V) = Concat(head_1,...,head_h) × W_O
Waarbij elke head_i = Attention(Q×W_Qi, K×W_Ki, V×W_Vi)
Veelgestelde vragen
V: Hoeveel heads worden typisch gebruikt?
A: Gangbare configuraties gebruiken 8, 12 of 16 heads. GPT-3 gebruikt 96 heads met 12.288 verborgen dimensie. Het aantal heads wordt meestal zo gekozen dat de dimensie van elke head (d_model / num_heads) een redelijke grootte heeft zoals 64 of 128.
V: Leren verschillende heads verschillende dingen?
A: Ja, onderzoek toont dat heads zich vaak specialiseren. Sommige attenderen aan aangrenzende woorden, andere aan syntactische afhankelijkheden, specifieke posities of zeldzame tokens. Niet alle heads zijn even belangrijk—sommige kunnen worden verwijderd met minimaal prestatieverlies.
V: Waarom niet gewoon bredere single-head attention?
A: Bredere single-head attention heeft hetzelfde aantal parameters maar minder representationele diversiteit. De parallelle subspaces van multi-head attention leggen rijkere, meer gevarieerde patronen vast.
V: Wat is Group Query Attention (GQA)?
A: GQA is een efficiënte variant waarbij meerdere query heads Key-Value heads delen, wat geheugen en berekening vermindert terwijl kwaliteit behouden blijft. Gebruikt in modellen zoals Llama 2.
Gerelateerde termen
- Attention-mechanisme — de fundamentele techniek
- Self-Attention — elke head voert self-attention uit
- Transformer-architectuur — gebruikt multi-head attention overal
- LLM — moderne taalmodellen vertrouwen op multi-head attention
Referenties
Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS. [130.000+ citaties]
Michel et al. (2019), “Are Sixteen Heads Really Better than One?”, NeurIPS. [1.200+ citaties]
Voita et al. (2019), “Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting”, ACL. [800+ citaties]
Ainslie et al. (2023), “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints”, arXiv. [400+ citaties]
References
Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS. [130,000+ citations]
Michel et al. (2019), “Are Sixteen Heads Really Better than One?”, NeurIPS. [1,200+ citations]
Voita et al. (2019), “Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting”, ACL. [800+ citations]
Ainslie et al. (2023), “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints”, arXiv. [400+ citations]