Définition
La ground truth est la donnée faisant autorité et vérifiée qui représente les réponses “correctes” en machine learning. C’est la référence contre laquelle les prédictions du modèle sont évaluées. La ground truth peut être des labels annotés par humains (classifications d’images, tags d’entités, scores de sentiment), des lectures de capteurs (coordonnées GPS, mesures de température), ou des évaluations d’experts du domaine (diagnostics médicaux, interprétations juridiques). La qualité de la ground truth détermine directement le plafond des performances du modèle.
Pourquoi c’est important
La ground truth est le fondement de l’apprentissage supervisé:
- Entraînement modèle — apprend patterns des exemples labellisés
- Évaluation — mesure précision contre réponses correctes connues
- Benchmarking — permet comparaison entre différents modèles
- Contrôle qualité — identifie échecs systématiques du modèle
- Conformité réglementaire — prouve validité du modèle pour audits
- Débogage — diagnostique où et pourquoi les modèles échouent
Comment ça fonctionne
┌────────────────────────────────────────────────────────────┐
│ GROUND TRUTH │
├────────────────────────────────────────────────────────────┤
│ │
│ QU'EST-CE QUE LA GROUND TRUTH: │
│ ────────────────────────────── │
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ DONNÉES BRUTES GROUND TRUTH │ │
│ │ (Entrée) (Label) │ │
│ │ │ │
│ │ ┌─────────────┐ ┌─────────────┐ │ │
│ │ │ [Image de │ │ "Chat" │ │ │
│ │ │ chat] │ ──────────► │ │ │ │
│ │ │ │ Annotateur │ (vérifié │ │ │
│ │ │ │ Humain │ correct) │ │ │
│ │ └─────────────┘ └─────────────┘ │ │
│ │ │ │
│ │ ┌─────────────┐ ┌─────────────┐ │ │
│ │ │ "Excellent │ │ POSITIF │ │ │
│ │ │ produit!" │ ──────────► │ sentiment │ │ │
│ │ │ │ Expert │ score: 0.9 │ │ │
│ │ └─────────────┘ └─────────────┘ │ │
│ │ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ │
│ SOURCES DE GROUND TRUTH: │
│ ──────────────────────── │
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 1. ANNOTATION HUMAINE │ │
│ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │
│ │ │Annotateur│ │Annotateur│ │Annotateur│ │ │
│ │ │ A │ │ B │ │ C │ │ │
│ │ └────┬────┘ └────┬────┘ └────┬────┘ │ │
│ │ │ │ │ │ │
│ │ └──────────────┼──────────────┘ │ │
│ │ ▼ │ │
│ │ ┌───────────┐ │ │
│ │ │ Consensus │ │ │
│ │ └───────────┘ │ │
│ │ │ │
│ │ Plusieurs annotateurs réduisent le biais │ │
│ │ Accord inter-annotateur = métrique qualité │ │
│ │ │ │
│ │ 2. SOURCE EXPERTE/AUTORITÉ │ │
│ │ • Diagnostic médical par médecin agréé │ │
│ │ • Classification juridique par avocat │ │
│ │ • Données financières des dépôts officiels │ │
│ │ │ │
│ │ 3. VÉRITÉ PHYSIQUE/CAPTEUR │ │
│ │ • Coordonnées GPS (conduite autonome) │ │
│ │ • Lectures température (IoT/prédiction) │ │
│ │ • Clic/conversion réel (modèles pub) │ │
│ │ │ │
│ │ 4. PROGRAMMATIQUE/BASÉ RÈGLES │ │
│ │ • Patterns regex (validation email) │ │
│ │ • Exactitude mathématique (calculateur) │ │
│ │ • Lookups base de données │ │
│ │ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ │
│ GROUND TRUTH DANS WORKFLOW ML: │
│ ────────────────────────────── │
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ Données Brutes │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ ANNOTATION (Créer labels ground truth) │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ DATASET LABELLISÉ │ │
│ │ paires (Entrée, Ground Truth) │ │
│ │ │ │ │
│ │ ├───────────────────────┐ │ │
│ │ ▼ ▼ │ │
│ │ SET TRAIN (80%) SET TEST (20%) │ │
│ │ │ │ │ │
│ │ ▼ │ │ │
│ │ ENTRAÎNEMENT │ │ │
│ │ Modèle apprend patterns │ │ │
│ │ │ │ │ │
│ │ ▼ ▼ │ │
│ │ ┌──────────────────────────────────────────────┐ │ │
│ │ │ ÉVALUATION │ │ │
│ │ │ │ │ │
│ │ │ Prédiction Modèle: "Chat" │ │ │
│ │ │ Ground Truth: "Chat" │ │ │
│ │ │ Résultat: ✓ Correct │ │ │
│ │ │ │ │ │
│ │ │ Précision = Corrects / Total │ │ │
│ │ │ │ │ │
│ │ └──────────────────────────────────────────────┘ │ │
│ │ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
└────────────────────────────────────────────────────────────┘
Questions fréquentes
Q: De combien de ground truth ai-je besoin?
R: Dépend de la complexité. Classification simple: 1.000-10.000 exemples. Tâches NLP/vision complexes: 100.000+. Deep learning requiert généralement plus que ML traditionnel.
Q: Et si la ground truth est fausse?
R: Le bruit des labels limite directement la précision du modèle. Utilisez plusieurs annotateurs, mesurez l’accord inter-annotateur, implémentez des workflows de contrôle qualité.
Q: Puis-je utiliser des LLM pour générer la ground truth?
R: Pour bootstrapping ou augmentation, oui—mais vérification humaine essentielle. Les labels générés par LLM héritent des biais du modèle.
Termes associés
- Données d’entraînement — dataset pour entraîner modèles
- Annotation — processus de création ground truth
Références
Ratner et al. (2017), “Data Programming: Creating Large Training Sets, Quickly”, NeurIPS. [Supervision faible et labellisation programmatique]
Snow et al. (2008), “Cheap and Fast—But is it Good? Evaluating Non-Expert Annotations”, ACL. [Qualité annotation crowdsourcée]
Northcutt et al. (2021), “Pervasive Label Errors in Test Sets”, NeurIPS. [Impact du bruit des labels]
References
Ratner et al. (2017), “Data Programming: Creating Large Training Sets, Quickly”, NeurIPS. [Weak supervision and programmatic labeling]
Snow et al. (2008), “Cheap and Fast—But is it Good? Evaluating Non-Expert Annotations for Natural Language Tasks”, ACL. [Crowdsourced annotation quality]
Northcutt et al. (2021), “Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks”, NeurIPS. [Impact of label noise on benchmarks]