Reranking — Glossar | Auryth TX AI

Definition

Reranking ist eine Retrieval-Technik, die ein leistungsfähigeres Modell anwendet, um einen initialen Satz von Suchergebnissen neu zu ordnen und das Ranking wirklich relevanter Dokumente zu verbessern. Es folgt typischerweise auf ein erstes Retrieval (wie Vektorsuche) und verwendet Cross-Encoder-Modelle, die Query-Dokument-Paare gemeinsam betrachten für genaueres Relevanz-Scoring.

Warum es wichtig ist

Reranking überbrückt die Lücke zwischen schnellem Retrieval und akkurater Relevanz:

Qualitätsverbesserung — schiebt die relevantesten Ergebnisse nach oben
Präzisionsboost — Cross-Encoder verstehen Kontext besser als Bi-Encoder
RAG-Verbesserung — stellt sicher, dass die besten Dokumente in den LLM-Kontext gelangen
Kosteneffektiv — wendet teure Modelle nur auf Top-Kandidaten an, nicht den gesamten Corpus
Latenzbalance — fügt ~50-100ms für signifikant bessere Ergebnisse hinzu

Reranking kann die Retrieval-Genauigkeit um 10-30% steigern bei minimalem Latenz-Impact.

Wie es funktioniert

┌────────────────────────────────────────────────────────────┐
│                   ZWEISTUFIGES RETRIEVAL                   │
├────────────────────────────────────────────────────────────┤
│                                                            │
│  STUFE 1: SCHNELLES RETRIEVAL (Bi-Encoder)                 │
│  ┌────────────────────────────────────────────────────┐    │
│  │  Query ─────────────┐                              │    │
│  │                     ├───► Vergleiche Embeddings    │    │
│  │  Doc Embeddings ────┘    (Approximativ, Schnell)   │    │
│  │                                                    │    │
│  │  Gibt zurück: Top 100-500 Kandidaten               │    │
│  └────────────────────────────────────────────────────┘    │
│                          │                                 │
│                          ▼                                 │
│  STUFE 2: RERANKING (Cross-Encoder)                        │
│  ┌────────────────────────────────────────────────────┐    │
│  │                                                    │    │
│  │  Für jeden Kandidaten:                             │    │
│  │  ┌─────────────────────────────────────────────┐   │    │
│  │  │  [Query] [SEP] [Dokument] → Modell → Score  │   │    │
│  │  └─────────────────────────────────────────────┘   │    │
│  │                                                    │    │
│  │  Betrachtet volle Interaktion (Akkurat, Langsamer)│    │
│  │                                                    │    │
│  │  Gibt zurück: Neugeordnete Top 5-20               │    │
│  └────────────────────────────────────────────────────┘    │
│                          │                                 │
│                          ▼                                 │
│                 FINALE GERANKTE ERGEBNISSE                 │
└────────────────────────────────────────────────────────────┘

Wichtige Unterschiede:

Aspekt	Bi-Encoder (Stufe 1)	Cross-Encoder (Stufe 2)
Geschwindigkeit	Schnell (~1ms/1M Docs)	Langsam (~10ms pro Doc)
Genauigkeit	Gut	Ausgezeichnet
Interaktion	Keine (separate Kodierung)	Voll (gemeinsame Kodierung)
Skala	Gesamter Corpus	Nur Top-Kandidaten

Häufige Fragen

F: Warum nicht einfach Cross-Encoder für alles verwenden?

A: Cross-Encoder sind zu langsam für großangelegtes Retrieval. Sie müssen jedes Query-Dokument-Paar zusammen verarbeiten, was sie O(n) macht, wobei n die Corpus-Größe ist. Zweistufiges Retrieval bietet das Beste aus beiden Welten.

F: Welche Modelle werden für Reranking verwendet?

A: Beliebte Reranker sind Cohere Rerank, BGE Reranker und Cross-Encoder-Modelle, die auf MS MARCO feinabgestimmt wurden. Diese sind speziell trainiert, um Query-Dokument-Relevanz zu bewerten.

F: Wie viele Dokumente sollten rerankt werden?

A: Typischerweise werden 50-200 Kandidaten aus der ersten Stufe rerankt. Zu wenige und Sie könnten relevante Dokumente verpassen; zu viele fügt unnötige Latenz hinzu.

F: Ersetzt Reranking die Vektorsuche?

A: Nein, es ergänzt sie. Vektorsuche bietet schnelles Kandidaten-Retrieval; Reranking verbessert die Ordnung. Beide Stufen werden für optimale Leistung benötigt.

Referenzen

Nogueira & Cho (2019), “Passage Re-ranking with BERT”, arXiv. [1.500+ Zitationen]

Karpukhin et al. (2020), “Dense Passage Retrieval for Open-Domain Question Answering”, EMNLP. [3.500+ Zitationen]

Humeau et al. (2020), “Poly-encoders: Architectures and Pre-training Strategies for Fast and Accurate Multi-sentence Scoring”, ICLR. [700+ Zitationen]

Glass et al. (2022), “Re2G: Retrieve, Rerank, Generate”, NAACL. [100+ Zitationen]

References

Nogueira & Cho (2019), “Passage Re-ranking with BERT”, arXiv. [1,500+ citations]

Karpukhin et al. (2020), “Dense Passage Retrieval for Open-Domain Question Answering”, EMNLP. [3,500+ citations]

Humeau et al. (2020), “Poly-encoders: Architectures and Pre-training Strategies for Fast and Accurate Multi-sentence Scoring”, ICLR. [700+ citations]

Glass et al. (2022), “Re2G: Retrieve, Rerank, Generate”, NAACL. [100+ citations]