Embeddings — Woordenlijst

Definitie

Embeddings zijn dichte, continue vectorrepresentaties van discrete data (woorden, zinnen, afbeeldingen, etc.) in een hoogdimensionale ruimte. In tegenstelling tot sparse representaties zoals one-hot encoding, comprimeren embeddings informatie naar vectoren van vaste grootte waarbij vergelijkbare items dicht bij elkaar liggen in de embedding-ruimte. Dit maakt wiskundige bewerkingen op semantische concepten mogelijk.

Waarom het belangrijk is

Embeddings zijn fundamenteel voor moderne AI-systemen:

Semantische gelijkenis — vergelijkbare betekenissen worden naar nabije vectoren gemapt, wat similariteitszoeken mogelijk maakt
Transfer learning — voorgetrainde embeddings leggen algemene kennis vast die herbruikbaar is voor diverse taken
Dimensionaliteitsreductie — miljoenen mogelijke woorden worden gecomprimeerd naar honderden dimensies
Wiskundige bewerkingen — vectorrekenkunde onthult semantische relaties (koning - man + vrouw ≈ koningin)

Elk RAG-systeem, zoekmachine en aanbevelingssysteem vertrouwt op embeddings om content te begrijpen.

Hoe het werkt

┌─────────────────────────────────────────────────────────┐
│                   EMBEDDING PROCES                      │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  Input Tekst ────→ Tokeniseer ────→ Model ────→ Vector  │
│                                                         │
│  "fiscaal recht" → [123, 456]   →  Neuraal   → [0.12,  │
│                                    Netwerk      0.45,  │
│                                                -0.23,  │
│                                                 ...]   │
│                                                (768-D) │
│                                                         │
│  Semantische ruimte:                                    │
│     "fiscaal recht" ●────────● "belastingregeling"     │
│                         dichtbij                        │
│     "weer" ●                                            │
│            ver                                          │
└─────────────────────────────────────────────────────────┘

Tokenisatie — invoertekst wordt opgesplitst in tokens
Model-encoding — neuraal netwerk verwerkt tokens
Pooling — tokenrepresentaties worden gecombineerd (gemiddelde, CLS token, etc.)
Outputvector — dichte vector van vaste grootte (bijv. 384, 768 of 1536 dimensies)

Het embedding-model wordt getraind zodat semantisch vergelijkbare invoer vectoren produceert met hoge cosinus-similariteit.

Veelgestelde vragen

V: Welke embedding-dimensies zijn gangbaar?

A: Typische groottes variëren van 384 (lichtgewicht) tot 1536 (OpenAI) tot 4096 (grote modellen). Hogere dimensies kunnen meer nuance vastleggen maar vereisen meer opslag en rekenkracht.

V: Hoe verschillen zinsembeddings van woordembeddings?

A: Woordembeddings (Word2Vec, GloVe) representeren individuele woorden. Zinsembeddings (van modellen zoals sentence-transformers) leggen de betekenis van hele zinnen vast en verwerken context en woordvolgorde.

V: Wat zijn tweetalige/meertalige embeddings?

A: Deze modellen mappen meerdere talen naar een gedeelde embedding-ruimte, zodat “legal advice” en “juridisch advies” vergelijkbare vectoren produceren, wat cross-linguaal zoeken mogelijk maakt.

V: Driften embeddings na verloop van tijd?

A: Embedding-modellen zijn statisch zodra getraind, maar als je je embedding-model bijwerkt, moeten alle vectoren opnieuw gegenereerd worden aangezien verschillende modellen incompatibele ruimtes produceren.

Gerelateerde termen

RAG — gebruikt embeddings voor retrieval
Vector Database — slaat embeddings op en doorzoekt ze
Semantic Similarity — gemeten via embedding-afstand
LLM — gebruikt embeddings intern

Referenties

Mikolov et al. (2013), “Efficient Estimation of Word Representations in Vector Space”, arXiv. [40.000+ citaties]

Reimers & Gurevych (2019), “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”, EMNLP. [8.000+ citaties]

Pennington et al. (2014), “GloVe: Global Vectors for Word Representation”, EMNLP. [35.000+ citaties]

Muennighoff et al. (2022), “MTEB: Massive Text Embedding Benchmark”, arXiv. [700+ citaties]

References

Mikolov et al. (2013), “Efficient Estimation of Word Representations in Vector Space”, arXiv. [40,000+ citations]

Reimers & Gurevych (2019), “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”, EMNLP. [8,000+ citations]

Pennington et al. (2014), “GloVe: Global Vectors for Word Representation”, EMNLP. [35,000+ citations]

Muennighoff et al. (2022), “MTEB: Massive Text Embedding Benchmark”, arXiv. [700+ citations]