Context Window — Woordenlijst

Definitie

Een context window is het maximale aantal tokens dat een groot taalmodel tegelijk kan overwegen tijdens inferentie—inclusief zowel de invoerprompt als de gegenereerde output. Het vertegenwoordigt het “werkgeheugen” van het model: alles buiten dit venster is onzichtbaar voor het model tijdens die interactie. Context windows zijn gegroeid van 2.048 tokens in vroege modellen tot 128.000+ tokens in moderne systemen.

Waarom het belangrijk is

De grootte van het context window beïnvloedt direct wat AI-systemen kunnen bereiken:

Documentanalyse — grotere windows maken verwerking van hele documenten mogelijk zonder chunking
RAG-relevantie — meer context maakt het ophalen en verwerken van meer bronmateriaal mogelijk
Conversationeel geheugen — langere contexts behouden coherente multi-turn dialogen
Complex redeneren — meer ruimte voor chain-of-thought en voorbeelden

Echter, grotere contexts verhogen de rekenkosten kwadratisch met self-attention, wat innovatie in efficiënte architecturen stimuleert.

Hoe het werkt

┌────────────────────────────────────────────────────────────┐
│                    CONTEXT WINDOW                          │
├────────────────────────────────────────────────────────────┤
│                                                            │
│  ◄──────────────── 128K tokens ──────────────────────────► │
│                                                            │
│  ┌──────────────────────────────────────────────────────┐  │
│  │ Systeem │  Opgehaalde │  Gebruiker │  Gegenereerde  │  │
│  │ Prompt  │  Context    │  Query     │  Respons       │  │
│  │ (500)   │  (50.000)   │  (500)     │  (4.000)       │  │
│  └──────────────────────────────────────────────────────┘  │
│                                                            │
│  Alle tokens concurreren om attention ←→                   │
│  Tokens buiten window: onzichtbaar                         │
│                                                            │
│  Model context windows:                                    │
│  GPT-3.5:     4K / 16K                                    │
│  GPT-4:       8K / 32K / 128K                             │
│  Claude:      100K / 200K                                 │
│  Gemini:      32K / 1M+                                   │
└────────────────────────────────────────────────────────────┘

Token tellen — alle invoer (systeemprompt, gebruikersinvoer, opgehaalde docs) verbruikt tokens
Toewijzing — resterende tokens beschikbaar voor modeloutput
Attention — elk token kan attenderen aan alle andere binnen het window
Afkapping — content die het window overschrijdt wordt afgeknipt (typisch vanaf het begin)

Veelgestelde vragen

V: Wat gebeurt er als invoer het context window overschrijdt?

A: De meeste systemen kappen af—oudste content wordt verwijderd om te passen. Goed ontworpen applicaties voorkomen dit via chunking, samenvatting of RAG-strategieën die alleen relevante passages selecteren.

V: Beïnvloedt het gebruik van het volledige context window de kwaliteit?

A: Onderzoek toont “lost in the middle” effecten—modellen attenderen beter aan content aan het begin en eind van lange contexts. Strategische plaatsing van belangrijke informatie is belangrijk.

V: Hoe worden tokens geteld?

A: Hangt af van de tokenizer. Ruwweg: 1 token ≈ 4 tekens of ≈ 0,75 woorden in het Engels. Niet-Engelse tekst en code kunnen anders tokeniseren.

V: Is een groter context window altijd beter?

A: Niet noodzakelijk. Grotere windows kosten meer, verwerken langzamer en kunnen attention verdunnen. RAG-systemen presteren vaak beter dan ruw context vullen door alleen relevante content op te halen.

Gerelateerde termen

LLM — de modellen die context windows hebben
Tokenization — hoe tekst naar tokens wordt omgezet
RAG — techniek voor het beheren van beperkte context
Transformer-architectuur — waarom context windows bestaan

Referenties

Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS. [130.000+ citaties]

Liu et al. (2023), “Lost in the Middle: How Language Models Use Long Contexts”, arXiv. [600+ citaties]

Anthropic (2024), “Claude’s Context Window”, Anthropic Documentatie.

Beltagy et al. (2020), “Longformer: The Long-Document Transformer”, arXiv. [3.500+ citaties]

References

Vaswani et al. (2017), “Attention Is All You Need”, NeurIPS. [130,000+ citations]

Liu et al. (2023), “Lost in the Middle: How Language Models Use Long Contexts”, arXiv. [600+ citations]

Anthropic (2024), “Claude’s Context Window”, Anthropic Documentation.

Beltagy et al. (2020), “Longformer: The Long-Document Transformer”, arXiv. [3,500+ citations]