Instruction Tuning — Woordenlijst

Definitie

Instruction tuning is een fine-tuning techniek die taalmodellen traint om menselijke instructies te begrijpen en op te volgen. In plaats van te trainen op taakspecifieke datasets, worden modellen getraind op collecties van diverse taken geformuleerd als natuurlijke taalinstructies (bijv. “Vat dit artikel samen:”, “Vertaal naar Frans:”, “Beantwoord deze vraag:”). Dit stelt modellen in staat te generaliseren naar nieuwe taken beschreven in natuurlijke taal, waardoor ze veelzijdiger en gebruiksvriendelijker worden.

Waarom het belangrijk is

Instruction tuning transformeerde hoe we met LLMs omgaan:

Natuurlijke interactie — gebruik gewone taal in plaats van zorgvuldige prompt engineering
Taakgeneralisatie — modellen behandelen nieuwe taken zonder hertraining
Betere zero-shot prestaties — volgt nieuwe instructies die het niet heeft gezien
Fundament voor chat — maakt conversationele AI-assistenten mogelijk
Voorloper van RLHF — vaak de eerste stap voor voorkeursleren

Instruction tuning overbrugt de kloof tussen ruwe taalmodellen en praktische assistenten.

Hoe het werkt

┌────────────────────────────────────────────────────────────┐
│                   INSTRUCTION TUNING                       │
├────────────────────────────────────────────────────────────┤
│                                                            │
│  VOOR INSTRUCTION TUNING:                                  │
│  ────────────────────────                                  │
│                                                            │
│  Gebruiker: "Vertaal 'hallo' naar Frans"                  │
│  ↓                                                        │
│  Ruw LLM output mogelijk:                                 │
│  "Vertaal 'dag' naar Frans. Vertaal 'bedankt'..."        │
│  (zet patroon voort, vertaalt niet echt)                  │
│                                                            │
│  NA INSTRUCTION TUNING:                                    │
│  ──────────────────────                                    │
│                                                            │
│  Gebruiker: "Vertaal 'hallo' naar Frans"                  │
│  ↓                                                        │
│  Instruction-tuned LLM:                                   │
│  "Bonjour" ✓                                              │
│  (begrijpt en volgt de instructie)                        │
│                                                            │
│  INSTRUCTION TUNING DATA FORMAT:                           │
│  ───────────────────────────────                           │
│                                                            │
│  ┌────────────────────────────────────────────────┐       │
│  │  INSTRUCTIE:                                    │       │
│  │  "Vat het volgende artikel samen in 2 zinnen"  │       │
│  │                                                  │       │
│  │  INPUT:                                          │       │
│  │  "Klimaatverandering verwijst naar lange-termijn"│      │
│  │                                                  │       │
│  │  OUTPUT:                                         │       │
│  │  "Klimaatverandering beschrijft lange-termijn   │       │
│  │   veranderingen in temperatuur. Menselijke      │       │
│  │   activiteiten zijn de hoofdoorzaak sinds 1800."│       │
│  └────────────────────────────────────────────────┘       │
│                                                            │
│  TRAININGSPROCES:                                          │
│  ────────────────                                          │
│                                                            │
│  1. Verzamel diverse taken                                 │
│     ┌────────────────────────────────────────────┐        │
│     │ • Samenvatting     • Vraagbeantwoording    │        │
│     │ • Vertaling        • Code generatie        │        │
│     │ • Classificatie    • Redeneren             │        │
│     │ • Extractie        • Creatief schrijven    │        │
│     └────────────────────────────────────────────┘        │
│                                                            │
│  2. Formatteer als instructies                             │
│     Taak → "Voer {taak} uit op {input}. Output: {output}" │
│                                                            │
│  3. Fine-tune basismodel                                   │
│     Basis LLM ──[instructie data]──► Instruction-tuned LLM│
│                                                            │
│  VEELGEBRUIKTE INSTRUCTIE DATASETS:                        │
│  ──────────────────────────────────                        │
│  • FLAN (Finetuned Language Net)    ~1800 taken           │
│  • Natural Instructions             ~60 taakcategorieën   │
│  • Self-Instruct                    Auto-gegenereerd      │
│  • Alpaca                           GPT-gegenereerd       │
│                                                            │
└────────────────────────────────────────────────────────────┘

Instruction tuning verbeteringen:

Capaciteit	Voor	Na
Instructies volgen	Zwak	Sterk
Zero-shot taken	Zwak	Goed
Gebruikersinteractie	Prompt engineering nodig	Natuurlijke taal
Taakdiversiteit	Beperkt	Breed

Veelgestelde vragen

V: Hoe verschilt instruction tuning van gewone fine-tuning?

A: Gewone fine-tuning traint op taakspecifieke data (bijv. sentimentclassificatie). Instruction tuning traint op diverse taken geformuleerd als instructies, waardoor het model leert te generaliseren naar ELKE taak beschreven in natuurlijke taal. Het gaat om het leren volgen van instructies, niet slechts één taak.

V: Wat is de relatie tussen instruction tuning en RLHF?

A: Ze zijn complementair. Instruction tuning (vaak SFT genoemd—Supervised Fine-Tuning) wordt typisch eerst gedaan om het model te leren instructies te volgen. RLHF komt tweede om outputs af te stemmen op menselijke voorkeuren (behulpzaam, onschadelijk, eerlijk). De meeste moderne assistenten gebruiken beide.

V: Kan instruction tuning kleine modellen competitief maken?

A: Gedeeltelijk. Instruction tuning verbetert significant de instructie-volgende vaardigheid van kleinere modellen. Modellen zoals Alpaca toonden dat instruction-tuned 7B modellen veel taken goed aankunnen. Echter, complex redeneren profiteert nog steeds van grotere modelschaal.

V: Wat maakt goede instruction tuning data?

A: Diversiteit is essentieel—veel verschillende taken op veel verschillende manieren geformuleerd. Kwaliteit is belangrijker dan kwantiteit. Instructies moeten duidelijk zijn, outputs accuraat, en het format consistent. Zowel mensgeschreven als zorgvuldig gefilterde synthetische data werken.

Gerelateerde termen

Fine-tuning — voorgetrainde modellen aanpassen
RLHF — volgt typisch na instruction tuning
LLM — modellen verbeterd door instruction tuning
Prompt — input format dat instruction tuning mogelijk maakt

Referenties

Wei et al. (2022), “Finetuned Language Models Are Zero-Shot Learners”, ICLR. [FLAN paper - fundamenteel instruction tuning werk]

Sanh et al. (2022), “Multitask Prompted Training Enables Zero-Shot Task Generalization”, ICLR. [T0 - multi-task instruction tuning]

Wang et al. (2022), “Self-Instruct: Aligning Language Models with Self-Generated Instructions”, ACL. [Self-Instruct methode]

Taori et al. (2023), “Alpaca: A Strong, Replicable Instruction-Following Model”, Stanford. [7B instruction-tuned model]

References

Wei et al. (2022), “Finetuned Language Models Are Zero-Shot Learners”, ICLR. [FLAN paper - foundational instruction tuning work]

Sanh et al. (2022), “Multitask Prompted Training Enables Zero-Shot Task Generalization”, ICLR. [T0 - multi-task instruction tuning]

Wang et al. (2022), “Self-Instruct: Aligning Language Models with Self-Generated Instructions”, ACL. [Self-Instruct method]

Taori et al. (2023), “Alpaca: A Strong, Replicable Instruction-Following Model”, Stanford. [7B instruction-tuned model]