Definition
Embedding Compression bezeichnet die Anwendung von Verfahren, die den Speicherbedarf und die Rechenkosten von Embedding-Vektoren reduzieren und gleichzeitig deren Nutzen für die Ähnlichkeitssuche erhalten. Embeddings in voller Präzision (768 Dimensionen bei 32-Bit-Gleitkomma = 3.072 Byte pro Vektor) werden im großen Maßstab teuer — eine Wissensbasis mit 10 Millionen Chunks benötigt allein für Embeddings ca. 30 GB. Kompressionsverfahren reduzieren dies um den Faktor 4 bis 30 durch Dimensionsreduktion, Quantization oder beides und machen so semantische Suche im großen Maßstab auf handelsüblicher Hardware realisierbar.
Warum es wichtig ist
- Speichereinsparung — komprimierte Embeddings benötigen weniger RAM, sodass größere Indizes auf weniger Maschinen passen und Infrastrukturkosten sinken
- Schnellere Suche — kleinere Vektoren bedeuten schnellere Distanzberechnungen; komprimierte Darstellungen ermöglichen zudem spezialisierte Schnellverfahren wie Lookup-Table-basierte Distanzberechnung
- Geringere Embedding-Kosten — manche Kompressionsverfahren (wie Matryoshka-Embeddings) erlauben die Nutzung kürzerer Vektoren desselben Modells und reduzieren so sowohl Speicher als auch initiale Berechnung
- Flexibilität beim Deployment — komprimierte Embeddings ermöglichen den Einsatz auf Endgeräten oder an Edge-Standorten, wo Speicher und Rechenleistung eingeschränkt sind
So funktioniert es
Techniken zur Embedding Compression setzen auf verschiedenen Ebenen an:
Dimensionsreduktion (PCA, Random Projection) verringert die Anzahl der Dimensionen — beispielsweise von 768 auf 256. Dabei werden die am wenigsten informativen Dimensionen entfernt, während die wesentliche Struktur erhalten bleibt. Die Retrieval-Qualität sinkt typischerweise um 2–5 % bei einer Größenreduktion von 60–70 %.
Skalare Quantisierung reduziert die Präzision jeder Dimension — etwa durch Umwandlung von 32-Bit-Gleitkommazahlen in 8-Bit-Ganzzahlen oder sogar Binärwerte. Jede Dimension wird linear von ihrem beobachteten Bereich auf einen kleineren Ganzzahlbereich abgebildet. 8-Bit-Quantisierung bietet 4-fache Kompression bei minimalem Qualitätsverlust; binäre Quantisierung (1 Bit pro Dimension) bietet 32-fache Kompression, allerdings mit deutlichem Qualitätseinbruch.
Product Quantization (PQ) teilt den Vektor in Teilvektoren auf und ersetzt jeden durch einen Index in ein erlerntes Codebook. Damit lässt sich eine 20- bis 60-fache Kompression erreichen und gleichzeitig 95 %+ der Retrieval-Qualität erhalten, was es zum beliebtesten Verfahren für große Indizes macht.
Matryoshka Representation Learning trainiert Embedding-Modelle so, dass die ersten N Dimensionen ein gültiges niedrigdimensionales Embedding bilden. Das ermöglicht die Wahl des Kompressionsgrades zur Abfragezeit — volle 768-dimensionale Vektoren für hochpräzise Abfragen und gekürzte 256-dimensionale Vektoren für schnelle approximative Abfragen — ohne einen separaten Kompressionsschritt.
Diese Verfahren lassen sich kombinieren: beispielsweise PCA zur Reduktion von 768 auf 256 Dimensionen, gefolgt von skalarer Quantisierung der reduzierten Vektoren. Die optimale Kombination hängt vom Datensatz, dem erforderlichen Qualitätsniveau und den Hardware-Einschränkungen ab.
Häufige Fragen
F: Wie viel Qualität geht bei der Kompression verloren?
A: Das hängt vom Verfahren und der Aggressivität ab. PCA von 768 auf 384 Dimensionen erhält typischerweise 97 %+ der Retrieval-Qualität. 8-Bit-skalare Quantisierung erhält 99 %+. Product Quantization mit üblichen Parametern erhält 95–98 %. Binäre Quantisierung fällt auf 85–90 %, bietet dafür aber extreme Kompression.
F: Wann sollte man Embeddings komprimieren?
A: Wenn der Index in voller Präzision den verfügbaren Speicher übersteigt, wenn die Suchlatenz reduziert werden muss oder wenn Infrastrukturkosten gesenkt werden sollen. Bei kleinen Sammlungen (unter 1 Million Vektoren) ist die Speicherung in voller Präzision in der Regel erschwinglich und eine Kompression unnötig.
References
Song Han et al. (2015), “Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding”, arXiv.
Lei Deng et al. (2020), “Model Compression and Hardware Acceleration for Neural Networks: A Comprehensive Survey”, Proceedings of the IEEE.
Francesco Marcelloni et al. (2010), “Enabling energy-efficient and lossy-aware data compression in wireless sensor networks by multi-objective evolutionary optimization”, Information Sciences.