Définition
Le pré-entraînement est la phase d’entraînement fondamentale où un modèle de langage apprend à partir de vastes quantités de données textuelles non étiquetées. Pendant le pré-entraînement, le modèle développe ses capacités fondamentales: comprendre la grammaire, apprendre des faits sur le monde, acquérir des patterns de raisonnement et construire des représentations du langage. Cette phase implique typiquement la prédiction des tokens suivants (modélisation causale) ou le remplissage de mots masqués sur des milliards d’échantillons textuels. Le pré-entraînement crée un “modèle fondation” qui peut ensuite être adapté à des tâches spécifiques via fine-tuning.
Pourquoi c’est important
Le pré-entraînement est la phase la plus critique et coûteuse du développement LLM:
- Détermine les capacités — ce qu’un modèle sait vient des données de pré-entraînement
- Établit le raisonnement — les patterns logiques émergent pendant cette phase
- Crée la fondation — toutes les tâches en aval s’appuient sur les connaissances pré-entraînées
- Investissement majeur — coûte des millions en compute, prend semaines/mois
- Fixe les limitations — date de coupure des connaissances, biais intégrés
- Permet le transfert — un modèle pré-entraîné sert de nombreuses applications
Comment ça fonctionne
┌────────────────────────────────────────────────────────────┐
│ PRÉ-ENTRAÎNEMENT │
├────────────────────────────────────────────────────────────┤
│ │
│ PRÉ-ENTRAÎNEMENT DANS LE CYCLE DE VIE DU MODÈLE: │
│ ──────────────────────────────────────────────── │
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 1. PRÉ-ENTRAÎNEMENT (cette phase) │ │
│ │ │ Apprendre langage général & connaissances │ │
│ │ │ Trillions de tokens, mois d'entraînement │ │
│ │ │ Sortie: Modèle fondation/base │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ 2. FINE-TUNING │ │
│ │ │ Adapter à tâches/domaines spécifiques │ │
│ │ │ Datasets plus petits, jours d'entraînement │ │
│ │ │ Sortie: Modèle spécifique à la tâche │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ 3. ALIGNMENT (RLHF/Constitutional AI) │ │
│ │ │ Aligner avec préférences humaines │ │
│ │ │ Feedback humain, ajustement sécurité │ │
│ │ │ Sortie: Modèle assistant │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ 4. DÉPLOIEMENT │ │
│ │ Usage production avec guardrails │ │
│ │ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ │
│ OBJECTIFS DE PRÉ-ENTRAÎNEMENT: │
│ ────────────────────────────── │
│ │
│ Modélisation Causale du Langage (style GPT): │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ Entrée: "La capitale de la France est" │ │
│ │ │ │
│ │ Tâche: Prédire le token suivant │ │
│ │ │ │
│ │ Modèle prédit: "Paris" (avec probabilité) │ │
│ │ │ │
│ │ ┌─────┬──────┬─────┬──────┬─────┬─────────┐ │ │
│ │ │ La │capi- │de la│France│ est │ [?] │ │ │
│ │ │ │tale │ │ │ │ │ │ │
│ │ └──┬──┴──┬───┴──┬──┴──┬───┴──┬──┴────┬────┘ │ │
│ │ │ │ │ │ │ │ │ │
│ │ ▼ ▼ ▼ ▼ ▼ ▼ │ │
│ │ [Transformer traite gauche-à-droite] │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ "Paris" │ │
│ │ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ │
│ DONNÉES DE PRÉ-ENTRAÎNEMENT: │
│ ──────────────────────────── │
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ Mix typique de données pour LLMs modernes: │ │
│ │ │ │
│ │ ┌─────────────────────────────────────────────┐ │ │
│ │ │ Pages web (Common Crawl) │ ~60% │ │ │
│ │ │ Livres │ ~15% │ │ │
│ │ │ Wikipedia │ ~5% │ │ │
│ │ │ Code (GitHub) │ ~10% │ │ │
│ │ │ Articles scientifiques │ ~5% │ │ │
│ │ │ Autre (news, forums, etc.) │ ~5% │ │ │
│ │ └─────────────────────────────────────────────┘ │ │
│ │ │ │
│ │ Exemples d'échelle: │ │
│ │ • GPT-3: 300B tokens │ │
│ │ • LLaMA: 1.4T tokens │ │
│ │ • GPT-4: Estimé 10T+ tokens │ │
│ │ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ │
│ CE QUE LES MODÈLES APPRENNENT PENDANT PRÉ-ENTRAÎNEMENT: │
│ ─────────────────────────────────────────────────────── │
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ Grammaire & Syntaxe: │ │
│ │ • Accord sujet-verbe │ │
│ │ • Structure des phrases │ │
│ │ • Règles de ponctuation │ │
│ │ │ │
│ │ Connaissances du Monde: │ │
│ │ • Faits (capitales, dates, noms) │ │
│ │ • Sens commun │ │
│ │ • Connaissances de domaine (science, droit, etc.) │ │
│ │ │ │
│ │ Patterns de Raisonnement: │ │
│ │ • Inférence logique │ │
│ │ • Opérations mathématiques │ │
│ │ • Cause et effet │ │
│ │ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
└────────────────────────────────────────────────────────────┘
Questions fréquentes
Q: Comment le pré-entraînement diffère du fine-tuning?
R: Le pré-entraînement enseigne la compréhension générale du langage à partir de données massives non étiquetées. Le fine-tuning adapte le modèle pré-entraîné à des tâches spécifiques avec des datasets plus petits et étiquetés.
Q: Pourquoi ne pas simplement entraîner sur des données spécifiques à la tâche dès le départ?
R: Les datasets spécifiques sont trop petits pour apprendre la compréhension générale du langage. Le pré-entraînement sur des milliards de tokens capture des patterns qui se transfèrent à toute tâche en aval.
Q: Qu’est-ce qui détermine la date de coupure des connaissances?
R: Les données de pré-entraînement ont une date de collecte—le modèle ne connaît que ce qui était dans son corpus d’entraînement.
Q: Les biais de pré-entraînement peuvent-ils être complètement supprimés via fine-tuning?
R: Difficile. Les biais appris pendant le pré-entraînement sont profondément intégrés dans les poids du modèle. Le fine-tuning peut réduire les sorties problématiques mais peut ne pas éliminer les biais sous-jacents.
Termes associés
- Fine-tuning — adapter les modèles pré-entraînés
- LLM — grand modèle de langage
- Instruction tuning — apprendre à suivre les instructions
- RLHF — alignment via feedback humain
Références
Radford et al. (2018), “Improving Language Understanding by Generative Pre-Training”, OpenAI. [Pré-entraînement GPT original]
Devlin et al. (2019), “BERT: Pre-training of Deep Bidirectional Transformers”, NAACL. [Pré-entraînement MLM]
Hoffmann et al. (2022), “Training Compute-Optimal Large Language Models”, arXiv. [Ratios optimaux données/compute]
Touvron et al. (2023), “LLaMA: Open and Efficient Foundation Language Models”, arXiv. [Pratiques modernes de pré-entraînement]
References
Radford et al. (2018), “Improving Language Understanding by Generative Pre-Training”, OpenAI. [Original GPT pretraining]
Devlin et al. (2019), “BERT: Pre-training of Deep Bidirectional Transformers”, NAACL. [Masked language modeling pretraining]
Hoffmann et al. (2022), “Training Compute-Optimal Large Language Models”, arXiv (Chinchilla). [Optimal pretraining data/compute ratios]
Touvron et al. (2023), “LLaMA: Open and Efficient Foundation Language Models”, arXiv. [Modern pretraining practices]