Skip to main content
AI & Machine Learning

Supervised Learning

Een machine learning aanpak waarbij modellen leren van gelabelde trainingsdata om outputs voor nieuwe inputs te voorspellen.

Ook bekend als: Supervised ML, Gelabeld leren, Voorspellende modellering, Inductief leren

Definitie

Supervised learning is een machine learning paradigma waarbij algoritmen leren van gelabelde trainingsdata—voorbeelden die zowel input features als de correcte output (label) bevatten. Het model leert de mapping tussen inputs en outputs, en past deze geleerde relatie toe om labels voor nieuwe, ongeziene data te voorspellen. Het heet “supervised” omdat het trainingsproces wordt geleid door bekende correcte antwoorden, zoals een leraar die een student begeleidt.

Waarom het belangrijk is

Supervised learning is de meest voorkomende ML-aanpak:

  • Duidelijk trainingssignaal — bekende antwoorden leiden het leren
  • Meetbare nauwkeurigheid — voorspellingen vs. labels maakt validatie mogelijk
  • Praktische toepassingen — spam detectie, medische diagnose, credit scoring
  • Fundament voor LLMs — next-token voorspelling is supervised learning
  • Interpreteerbare resultaten — voorspellingen mappen naar gedefinieerde klassen of waarden

De meeste productie ML-systemen gebruiken supervised learning.

Hoe het werkt

┌────────────────────────────────────────────────────────────┐
│                   SUPERVISED LEARNING                      │
├────────────────────────────────────────────────────────────┤
│                                                            │
│  TRAININGSFASE:                                            │
│  ──────────────                                            │
│                                                            │
│  Gelabelde Trainingsdata:                                  │
│  ┌─────────────────────────────────────────────────┐      │
│  │ Input (Features)              │ Label (Target)  │      │
│  ├─────────────────────────────────────────────────┤      │
│  │ [Email: "Win €1000..."]       │    SPAM        │      │
│  │ [Email: "Vergadering om 3"]   │    GEEN SPAM   │      │
│  │ [Email: "Klik hier!"]         │    SPAM        │      │
│  │ [Email: "Project update"]     │    GEEN SPAM   │      │
│  └─────────────────────────────────────────────────┘      │
│                        │                                   │
│                        ▼                                   │
│  ┌─────────────────────────────────────────────────┐      │
│  │              LEERALGORITME                       │      │
│  │                                                  │      │
│  │  1. Maak voorspelling: ŷ = f(x)                 │      │
│  │  2. Vergelijk met label: Fout = ŷ - y          │      │
│  │  3. Update model om fout te verminderen         │      │
│  │  4. Herhaal tot fout geminimaliseerd            │      │
│  └─────────────────────────────────────────────────┘      │
│                        │                                   │
│                        ▼                                   │
│                   GETRAIND MODEL                           │
│                                                            │
│  VOORSPELLINGSFASE:                                        │
│  ──────────────────                                        │
│                                                            │
│  Nieuwe Email ──► Getraind Model ──► Voorspelling: SPAM?  │
│                                                            │
│  TWEE HOOFDTYPEN:                                          │
│  ────────────────                                          │
│                                                            │
│  CLASSIFICATIE:               REGRESSIE:                   │
│  Voorspel categorieën         Voorspel continue waarden   │
│                                                            │
│  "Kat" of "Hond"?            "Huisprijs = €450.000"       │
│  "Spam" of "Geen spam"?      "Temperatuur = 23.5°C"       │
│  "Positief" of "Negatief"?   "Verkoop = €12.500"          │
│                                                            │
│       ┌───┐ ┌───┐                    ↗                    │
│       │ A │ │ B │             ──────●────                 │
│       └───┘ └───┘                ↗                        │
│    Discrete klassen        Continue lijn                   │
│                                                            │
│  VEELGEBRUIKTE ALGORITMEN:                                 │
│  ─────────────────────────                                 │
│  • Logistische Regressie  (classificatie)                 │
│  • Beslisbomen            (beide)                         │
│  • Random Forests         (beide)                         │
│  • Neurale Netwerken      (beide)                         │
│  • Support Vector Machines(classificatie)                 │
│  • Lineaire Regressie     (regressie)                     │
│                                                            │
└────────────────────────────────────────────────────────────┘

Classificatie vs Regressie:

AspectClassificatieRegressie
OutputDiscrete categorieënContinue waarden
VoorbeeldSpam detectiePrijsvoorspelling
MetriekenAccuracy, F1-scoreMSE, R-kwadraat
Loss functieCross-entropyMean squared error

Veelgestelde vragen

V: Wat maakt data “gelabeld”?

A: Gelabelde data heeft zowel inputs als bekende correcte outputs. Voor beeldclassificatie: afbeeldingen (input) + wat erin staat (label). Voor spam detectie: emails (input) + spam/geen-spam tags (label). Mensen maken typisch labels, wat duur en tijdrovend is.

V: Hoe is LLM-training supervised learning?

A: LLM pretraining is self-supervised: het “label” voor elk token is simpelweg het volgende token in de tekst. Gegeven “De kat zat op de”, leert het model “mat” te voorspellen. Geen menselijk labelen nodig—de tekst zelf biedt supervisie.

V: Wat als ik geen gelabelde data heb?

A: Je hebt meerdere opties: (1) Gebruik unsupervised learning om patronen te vinden, (2) Gebruik semi-supervised learning met enkele labels, (3) Genereer labels zelf of met crowdsourcing, (4) Gebruik transfer learning van voorgetrainde modellen, (5) Pas active learning toe om eerst de meest informatieve voorbeelden te labelen.

V: Hoeveel gelabelde data is genoeg?

A: Het varieert sterk. Eenvoudige problemen: honderden voorbeelden. Complexe deep learning: duizenden tot miljoenen. Vuistregel: 10× meer samples dan features. Met transfer learning/fine-tuning kan veel minder voldoende zijn.

Gerelateerde termen


Referenties

Bishop (2006), “Pattern Recognition and Machine Learning”, Springer. [Fundamentele tekst]

Hastie et al. (2009), “The Elements of Statistical Learning”, Springer. [70.000+ citaties]

Goodfellow et al. (2016), “Deep Learning”, MIT Press, Hoofdstuk 5. [Supervised learning fundamenten]

Vapnik (1998), “Statistical Learning Theory”, Wiley. [Fundamentele theorie]

References

Bishop (2006), “Pattern Recognition and Machine Learning”, Springer. [Foundational text]

Hastie et al. (2009), “The Elements of Statistical Learning”, Springer. [70,000+ citations]

Goodfellow et al. (2016), “Deep Learning”, MIT Press, Chapter 5. [Supervised learning fundamentals]

Vapnik (1998), “Statistical Learning Theory”, Wiley. [Foundational theory]