Embeddings — Glossar | Auryth TX AI

Definition

Embeddings sind dichte, kontinuierliche Vektorrepräsentationen von diskreten Daten (Wörter, Sätze, Bilder, etc.) in einem hochdimensionalen Raum. Im Gegensatz zu spärlichen Repräsentationen wie One-Hot-Encoding komprimieren Embeddings Informationen in Vektoren fester Größe, wobei ähnliche Elemente im Embedding-Raum nah beieinander liegen. Dies ermöglicht mathematische Operationen auf semantischen Konzepten.

Warum es wichtig ist

Embeddings sind fundamental für moderne KI-Systeme:

Semantische Ähnlichkeit — ähnliche Bedeutungen werden auf nahegelegene Vektoren abgebildet, was Ähnlichkeitssuche ermöglicht
Transfer Learning — vortrainierte Embeddings erfassen allgemeines Wissen, das für verschiedene Aufgaben nutzbar ist
Dimensionalitätsreduktion — Millionen möglicher Wörter werden auf Hunderte von Dimensionen komprimiert
Mathematische Operationen — Vektorarithmetik offenbart semantische Beziehungen (König - Mann + Frau ≈ Königin)

Jedes RAG-System, jede Suchmaschine und jedes Empfehlungssystem verlässt sich auf Embeddings, um Inhalte zu verstehen.

Wie es funktioniert

┌─────────────────────────────────────────────────────────┐
│                   EMBEDDING-PROZESS                     │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  Input-Text ─────→ Tokenisieren ────→ Modell ──→ Vektor │
│                                                         │
│  "Steuerrecht" →   [123, 456]   →   Neuronales → [0.12,│
│                                     Netzwerk      0.45,│
│                                                  -0.23,│
│                                                   ...]  │
│                                                  (768-D)│
│                                                         │
│  Semantischer Raum:                                     │
│     "Steuerrecht" ●────────● "Fiskalregulierung"       │
│                       nah                               │
│     "Wetter" ●                                          │
│              fern                                       │
└─────────────────────────────────────────────────────────┘

Tokenisierung — Eingabetext wird in Tokens aufgeteilt
Modell-Encoding — neuronales Netzwerk verarbeitet Tokens
Pooling — Token-Repräsentationen werden kombiniert (Mittelwert, CLS-Token, etc.)
Ausgabevektor — dichter Vektor fester Größe (z.B. 384, 768 oder 1536 Dimensionen)

Das Embedding-Modell wird trainiert, sodass semantisch ähnliche Eingaben Vektoren mit hoher Kosinus-Ähnlichkeit produzieren.

Häufige Fragen

F: Welche Embedding-Dimensionen sind üblich?

A: Typische Größen reichen von 384 (leichtgewichtig) bis 1536 (OpenAI) bis 4096 (große Modelle). Höhere Dimensionen können mehr Nuancen erfassen, erfordern aber mehr Speicher und Rechenleistung.

F: Wie unterscheiden sich Satz-Embeddings von Wort-Embeddings?

A: Wort-Embeddings (Word2Vec, GloVe) repräsentieren einzelne Wörter. Satz-Embeddings (von Modellen wie sentence-transformers) erfassen die Bedeutung ganzer Sätze und verarbeiten Kontext und Wortreihenfolge.

F: Was sind zweisprachige/mehrsprachige Embeddings?

A: Diese Modelle bilden mehrere Sprachen in einen gemeinsamen Embedding-Raum ab, sodass „legal advice” und „Rechtsberatung” ähnliche Vektoren produzieren, was sprachübergreifende Suche ermöglicht.

F: Driften Embeddings über die Zeit?

A: Embedding-Modelle sind nach dem Training statisch, aber wenn Sie Ihr Embedding-Modell aktualisieren, müssen alle Vektoren neu generiert werden, da verschiedene Modelle inkompatible Räume produzieren.

Referenzen

Mikolov et al. (2013), “Efficient Estimation of Word Representations in Vector Space”, arXiv. [40.000+ Zitationen]

Reimers & Gurevych (2019), “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”, EMNLP. [8.000+ Zitationen]

Pennington et al. (2014), “GloVe: Global Vectors for Word Representation”, EMNLP. [35.000+ Zitationen]

Muennighoff et al. (2022), “MTEB: Massive Text Embedding Benchmark”, arXiv. [700+ Zitationen]

References

Mikolov et al. (2013), “Efficient Estimation of Word Representations in Vector Space”, arXiv. [40,000+ citations]

Reimers & Gurevych (2019), “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”, EMNLP. [8,000+ citations]

Pennington et al. (2014), “GloVe: Global Vectors for Word Representation”, EMNLP. [35,000+ citations]

Muennighoff et al. (2022), “MTEB: Massive Text Embedding Benchmark”, arXiv. [700+ citations]