Definitie
Embeddings zijn dichte, continue vectorrepresentaties van discrete data (woorden, zinnen, afbeeldingen, etc.) in een hoogdimensionale ruimte. In tegenstelling tot sparse representaties zoals one-hot encoding, comprimeren embeddings informatie naar vectoren van vaste grootte waarbij vergelijkbare items dicht bij elkaar liggen in de embedding-ruimte. Dit maakt wiskundige bewerkingen op semantische concepten mogelijk.
Waarom het belangrijk is
Embeddings zijn fundamenteel voor moderne AI-systemen:
- Semantische gelijkenis — vergelijkbare betekenissen worden naar nabije vectoren gemapt, wat similariteitszoeken mogelijk maakt
- Transfer learning — voorgetrainde embeddings leggen algemene kennis vast die herbruikbaar is voor diverse taken
- Dimensionaliteitsreductie — miljoenen mogelijke woorden worden gecomprimeerd naar honderden dimensies
- Wiskundige bewerkingen — vectorrekenkunde onthult semantische relaties (koning - man + vrouw ≈ koningin)
Elk RAG-systeem, zoekmachine en aanbevelingssysteem vertrouwt op embeddings om content te begrijpen.
Hoe het werkt
┌─────────────────────────────────────────────────────────┐
│ EMBEDDING PROCES │
├─────────────────────────────────────────────────────────┤
│ │
│ Input Tekst ────→ Tokeniseer ────→ Model ────→ Vector │
│ │
│ "fiscaal recht" → [123, 456] → Neuraal → [0.12, │
│ Netwerk 0.45, │
│ -0.23, │
│ ...] │
│ (768-D) │
│ │
│ Semantische ruimte: │
│ "fiscaal recht" ●────────● "belastingregeling" │
│ dichtbij │
│ "weer" ● │
│ ver │
└─────────────────────────────────────────────────────────┘
- Tokenisatie — invoertekst wordt opgesplitst in tokens
- Model-encoding — neuraal netwerk verwerkt tokens
- Pooling — tokenrepresentaties worden gecombineerd (gemiddelde, CLS token, etc.)
- Outputvector — dichte vector van vaste grootte (bijv. 384, 768 of 1536 dimensies)
Het embedding-model wordt getraind zodat semantisch vergelijkbare invoer vectoren produceert met hoge cosinus-similariteit.
Veelgestelde vragen
V: Welke embedding-dimensies zijn gangbaar?
A: Typische groottes variëren van 384 (lichtgewicht) tot 1536 (OpenAI) tot 4096 (grote modellen). Hogere dimensies kunnen meer nuance vastleggen maar vereisen meer opslag en rekenkracht.
V: Hoe verschillen zinsembeddings van woordembeddings?
A: Woordembeddings (Word2Vec, GloVe) representeren individuele woorden. Zinsembeddings (van modellen zoals sentence-transformers) leggen de betekenis van hele zinnen vast en verwerken context en woordvolgorde.
V: Wat zijn tweetalige/meertalige embeddings?
A: Deze modellen mappen meerdere talen naar een gedeelde embedding-ruimte, zodat “legal advice” en “juridisch advies” vergelijkbare vectoren produceren, wat cross-linguaal zoeken mogelijk maakt.
V: Driften embeddings na verloop van tijd?
A: Embedding-modellen zijn statisch zodra getraind, maar als je je embedding-model bijwerkt, moeten alle vectoren opnieuw gegenereerd worden aangezien verschillende modellen incompatibele ruimtes produceren.
Gerelateerde termen
- RAG — gebruikt embeddings voor retrieval
- Vector Database — slaat embeddings op en doorzoekt ze
- Semantic Similarity — gemeten via embedding-afstand
- LLM — gebruikt embeddings intern
Referenties
Mikolov et al. (2013), “Efficient Estimation of Word Representations in Vector Space”, arXiv. [40.000+ citaties]
Reimers & Gurevych (2019), “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”, EMNLP. [8.000+ citaties]
Pennington et al. (2014), “GloVe: Global Vectors for Word Representation”, EMNLP. [35.000+ citaties]
Muennighoff et al. (2022), “MTEB: Massive Text Embedding Benchmark”, arXiv. [700+ citaties]
References
Mikolov et al. (2013), “Efficient Estimation of Word Representations in Vector Space”, arXiv. [40,000+ citations]
Reimers & Gurevych (2019), “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”, EMNLP. [8,000+ citations]
Pennington et al. (2014), “GloVe: Global Vectors for Word Representation”, EMNLP. [35,000+ citations]
Muennighoff et al. (2022), “MTEB: Massive Text Embedding Benchmark”, arXiv. [700+ citations]