Hybrid Search — Woordenlijst

Definitie

Hybrid search combineert traditionele keyword-gebaseerde zoekopdrachten (zoals BM25) met moderne semantische vectorzoekopdrachten om relevante documenten te vinden. Door deze twee aanpakken te fuseren, vangt het zowel exacte keyword-matches als conceptuele gelijkenis op, wat robuustere retrieval biedt dan een van beide methoden alleen.

Waarom het belangrijk is

Hybrid search adresseert de beperkingen van pure aanpakken:

Het beste van beide werelden — vangt exacte termen EN conceptuele matches
Faalmodusdekking — wanneer de ene methode mist, slaagt de andere vaak
Domeinflexibiliteit — werkt met technische en natuurlijke taalqueries
Productiebetrouwbaarheid — consistentere resultaten over querytypes
RAG-kwaliteit — verbetert documentretrieval voor generatiepipelines

Pure vectorzoekopdrachten kunnen exacte termen missen; pure keyword-zoekopdrachten missen synoniemen—hybrid vangt beide.

Hoe het werkt

┌────────────────────────────────────────────────────────────┐
│                      HYBRID SEARCH                         │
├────────────────────────────────────────────────────────────┤
│                                                            │
│                      Gebruikersquery                       │
│               "BTW regels artikel 15bis"                   │
│                          │                                 │
│              ┌───────────┴───────────┐                     │
│              ▼                       ▼                     │
│  ┌───────────────────┐   ┌───────────────────┐             │
│  │  KEYWORD ZOEKEN   │   │  VECTOR ZOEKEN    │             │
│  │  (BM25/TF-IDF)    │   │  (Embeddings)     │             │
│  │                   │   │                   │             │
│  │  Exacte matches:  │   │  Semantische:     │             │
│  │  - "artikel 15bis"│   │  - BTW-regelingen │             │
│  │  - "BTW regels"   │   │  - Vrijstellingen │             │
│  │                   │   │  - Gerelateerd    │             │
│  └─────────┬─────────┘   └─────────┬─────────┘             │
│            │                       │                       │
│            └───────────┬───────────┘                       │
│                        ▼                                   │
│            ┌───────────────────────┐                       │
│            │   SCORE FUSIE         │                       │
│            │   • Reciprocal Rank   │                       │
│            │   • Gewogen Som       │                       │
│            │   • Convexe Combinatie│                       │
│            └───────────┬───────────┘                       │
│                        ▼                                   │
│              Gecombineerde Resultaten                      │
│            (Beste van beide methoden)                      │
└────────────────────────────────────────────────────────────┘

Fusiemethoden:

Reciprocal Rank Fusion (RRF) — rankt op basis van positie in elke resultatenlijst
Gewogen som — combineert genormaliseerde scores met configureerbare gewichten
Convexe combinatie — α × keyword_score + (1-α) × vector_score

Veelgestelde vragen

V: Welke verhouding van keyword tot vectorzoekopdracht werkt het beste?

A: Begin met 50/50, stem dan af op basis van je queries. Technische domeinen (juridisch, medisch) profiteren vaak van hoger keyword-gewicht (60-70%) voor precieze terminologie. Conversationele queries geven voorkeur aan vectorzoekopdracht (60-70%).

V: Wanneer helpt hybrid search het meest?

A: Wanneer queries specifieke termen mengen met conceptuele vragen. Bijvoorbeeld “Artikel 15bis BTW-vrijstellingen voor digitale diensten”—heeft exacte artikelmatch EN semantisch begrip van vrijstellingen nodig.

V: Voegt hybrid search latentie toe?

A: Enigszins—je draait twee zoekopdrachten. Maar beide kunnen parallel uitvoeren, dus overhead is minimaal (~10-50ms). De kwaliteitsverbetering rechtvaardigt meestal deze kosten.

V: Wat is Reciprocal Rank Fusion (RRF)?

A: RRF combineert rankings zonder vergelijkbare scores nodig te hebben. Voor elk document berekent het 1/(k + rank) voor beide methoden en sommeert ze. Het is robuust omdat het alleen positie gebruikt, niet scoremagnitude.

Gerelateerde termen

Semantic Search — alleen-vector retrieval component
BM25 — klassiek keyword-zoekalgoritme
Embeddings — vectoren voor semantisch zoeken
Reranking — volgt vaak op hybrid search

Referenties

Robertson & Zaragoza (2009), “The Probabilistic Relevance Framework: BM25 and Beyond”, Foundations and Trends in Information Retrieval. [3.000+ citaties]

Karpukhin et al. (2020), “Dense Passage Retrieval for Open-Domain Question Answering”, EMNLP. [3.500+ citaties]

Cormack et al. (2009), “Reciprocal Rank Fusion outperforms Condorcet and individual Rank Learning Methods”, SIGIR. [500+ citaties]

Ma et al. (2021), “A Replication Study of Dense Passage Retriever”, arXiv. [200+ citaties]

References

Robertson & Zaragoza (2009), “The Probabilistic Relevance Framework: BM25 and Beyond”, Foundations and Trends in Information Retrieval. [3,000+ citations]

Karpukhin et al. (2020), “Dense Passage Retrieval for Open-Domain Question Answering”, EMNLP. [3,500+ citations]

Cormack et al. (2009), “Reciprocal Rank Fusion outperforms Condorcet and individual Rank Learning Methods”, SIGIR. [500+ citations]

Ma et al. (2021), “A Replication Study of Dense Passage Retriever”, arXiv. [200+ citations]