Définition
Les embeddings sont des représentations vectorielles denses et continues de données discrètes (mots, phrases, images, etc.) dans un espace de haute dimension. Contrairement aux représentations creuses comme l’encodage one-hot, les embeddings compriment l’information en vecteurs de taille fixe où les éléments similaires sont situés proches les uns des autres dans l’espace d’embedding. Cela permet des opérations mathématiques sur les concepts sémantiques.
Pourquoi c’est important
Les embeddings sont fondamentaux pour les systèmes d’IA modernes :
- Similarité sémantique — les significations similaires correspondent à des vecteurs proches, permettant la recherche par similarité
- Apprentissage par transfert — les embeddings pré-entraînés capturent des connaissances générales utilisables pour diverses tâches
- Réduction de dimensionnalité — des millions de mots possibles sont comprimés en centaines de dimensions
- Opérations mathématiques — l’arithmétique vectorielle révèle les relations sémantiques (roi - homme + femme ≈ reine)
Tout système RAG, moteur de recherche et système de recommandation repose sur les embeddings pour comprendre le contenu.
Comment ça fonctionne
┌─────────────────────────────────────────────────────────┐
│ PROCESSUS D'EMBEDDING │
├─────────────────────────────────────────────────────────┤
│ │
│ Texte Input ────→ Tokeniser ────→ Modèle ────→ Vecteur │
│ │
│ "droit fiscal" → [123, 456] → Réseau → [0.12, │
│ Neuronal 0.45, │
│ -0.23, │
│ ...] │
│ (768-D) │
│ │
│ Espace sémantique: │
│ "droit fiscal" ●────────● "réglementation fiscale" │
│ proche │
│ "météo" ● │
│ loin │
└─────────────────────────────────────────────────────────┘
- Tokenisation — le texte d’entrée est divisé en tokens
- Encodage du modèle — le réseau neuronal traite les tokens
- Pooling — les représentations de tokens sont combinées (moyenne, token CLS, etc.)
- Vecteur de sortie — vecteur dense de taille fixe (ex: 384, 768 ou 1536 dimensions)
Le modèle d’embedding est entraîné pour que des entrées sémantiquement similaires produisent des vecteurs avec une haute similarité cosinus.
Questions fréquentes
Q : Quelles dimensions d’embedding sont courantes ?
R : Les tailles typiques vont de 384 (léger) à 1536 (OpenAI) à 4096 (grands modèles). Les dimensions plus élevées peuvent capturer plus de nuances mais nécessitent plus de stockage et de calcul.
Q : Comment les embeddings de phrases diffèrent-ils des embeddings de mots ?
R : Les embeddings de mots (Word2Vec, GloVe) représentent des mots individuels. Les embeddings de phrases (de modèles comme sentence-transformers) capturent le sens de phrases entières, gérant le contexte et l’ordre des mots.
Q : Que sont les embeddings bilingues/multilingues ?
R : Ces modèles projettent plusieurs langues dans un espace d’embedding partagé, donc “legal advice” et “conseil juridique” produisent des vecteurs similaires, permettant la recherche inter-linguistique.
Q : Les embeddings dérivent-ils avec le temps ?
R : Les modèles d’embedding sont statiques une fois entraînés, mais si vous mettez à jour votre modèle d’embedding, tous les vecteurs doivent être régénérés car différents modèles produisent des espaces incompatibles.
Termes associés
- RAG — utilise les embeddings pour la récupération
- Base de Données Vectorielle — stocke et recherche les embeddings
- Similarité Sémantique — mesurée via la distance d’embedding
- LLM — utilise les embeddings en interne
Références
Mikolov et al. (2013), “Efficient Estimation of Word Representations in Vector Space”, arXiv. [40 000+ citations]
Reimers & Gurevych (2019), “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”, EMNLP. [8 000+ citations]
Pennington et al. (2014), “GloVe: Global Vectors for Word Representation”, EMNLP. [35 000+ citations]
Muennighoff et al. (2022), “MTEB: Massive Text Embedding Benchmark”, arXiv. [700+ citations]
References
Mikolov et al. (2013), “Efficient Estimation of Word Representations in Vector Space”, arXiv. [40,000+ citations]
Reimers & Gurevych (2019), “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”, EMNLP. [8,000+ citations]
Pennington et al. (2014), “GloVe: Global Vectors for Word Representation”, EMNLP. [35,000+ citations]
Muennighoff et al. (2022), “MTEB: Massive Text Embedding Benchmark”, arXiv. [700+ citations]