Recherche Hybride — Glossaire

Définition

La recherche hybride combine la recherche traditionnelle par mots-clés (comme BM25) avec la recherche vectorielle sémantique moderne pour trouver des documents pertinents. En fusionnant ces deux approches, elle capture à la fois les correspondances exactes de mots-clés et la similarité conceptuelle, fournissant une récupération plus robuste que chaque méthode seule.

Pourquoi c’est important

La recherche hybride adresse les limitations des approches pures :

Le meilleur des deux mondes — capture les termes exacts ET les correspondances conceptuelles
Couverture des modes d’échec — quand une méthode échoue, l’autre réussit souvent
Flexibilité de domaine — fonctionne avec requêtes techniques et langage naturel
Fiabilité en production — résultats plus cohérents selon les types de requêtes
Qualité RAG — améliore la récupération de documents pour les pipelines de génération

La recherche vectorielle pure peut manquer des termes exacts; la recherche par mots-clés pure manque les synonymes—l’hybride capture les deux.

Comment ça fonctionne

┌────────────────────────────────────────────────────────────┐
│                   RECHERCHE HYBRIDE                        │
├────────────────────────────────────────────────────────────┤
│                                                            │
│                    Requête Utilisateur                     │
│                "Règles TVA article 15bis"                  │
│                          │                                 │
│              ┌───────────┴───────────┐                     │
│              ▼                       ▼                     │
│  ┌───────────────────┐   ┌───────────────────┐             │
│  │  RECHERCHE MOT-CLÉ│   │  RECHERCHE VECTOR │             │
│  │  (BM25/TF-IDF)    │   │  (Embeddings)     │             │
│  │                   │   │                   │             │
│  │  Corresp. exactes:│   │  Corresp. sémant.:│             │
│  │  - "article 15bis"│   │  - Règlements TVA │             │
│  │  - "règles TVA"   │   │  - Exemptions fisc│             │
│  │                   │   │  - Droit fiscal   │             │
│  └─────────┬─────────┘   └─────────┬─────────┘             │
│            │                       │                       │
│            └───────────┬───────────┘                       │
│                        ▼                                   │
│            ┌───────────────────────┐                       │
│            │   FUSION DES SCORES   │                       │
│            │   • Reciprocal Rank   │                       │
│            │   • Somme Pondérée    │                       │
│            │   • Combo. Convexe    │                       │
│            └───────────┬───────────┘                       │
│                        ▼                                   │
│               Résultats Combinés                           │
│            (Meilleur des deux méthodes)                    │
└────────────────────────────────────────────────────────────┘

Méthodes de fusion :

Reciprocal Rank Fusion (RRF) — classe selon la position dans chaque liste
Somme pondérée — combine les scores normalisés avec des poids configurables
Combinaison convexe — α × score_mot_clé + (1-α) × score_vecteur

Questions fréquentes

Q : Quel ratio mot-clé/vecteur fonctionne le mieux ?

R : Commencez à 50/50, puis ajustez selon vos requêtes. Les domaines techniques (juridique, médical) bénéficient souvent d’un poids mot-clé plus élevé (60-70%) pour la terminologie précise. Les requêtes conversationnelles favorisent la recherche vectorielle (60-70%).

Q : Quand la recherche hybride aide-t-elle le plus ?

R : Quand les requêtes mélangent termes spécifiques et questions conceptuelles. Par exemple, “Article 15bis exemptions TVA pour services numériques”—nécessite correspondance exacte d’article ET compréhension sémantique des exemptions.

Q : La recherche hybride ajoute-t-elle de la latence ?

R : Légèrement—vous exécutez deux recherches. Mais les deux peuvent s’exécuter en parallèle, donc le surcoût est minimal (~10-50ms). L’amélioration de qualité justifie généralement ce coût.

Q : Qu’est-ce que Reciprocal Rank Fusion (RRF) ?

R : RRF combine les classements sans avoir besoin de scores comparables. Pour chaque document, il calcule 1/(k + rang) pour les deux méthodes et les additionne. C’est robuste car ça n’utilise que la position, pas la magnitude du score.

Termes associés

Recherche Sémantique — composant de récupération vectorielle
BM25 — algorithme classique de recherche par mots-clés
Embeddings — vecteurs pour recherche sémantique
Reclassement — suit souvent la recherche hybride

Références

Robertson & Zaragoza (2009), “The Probabilistic Relevance Framework: BM25 and Beyond”, Foundations and Trends in Information Retrieval. [3 000+ citations]

Karpukhin et al. (2020), “Dense Passage Retrieval for Open-Domain Question Answering”, EMNLP. [3 500+ citations]

Cormack et al. (2009), “Reciprocal Rank Fusion outperforms Condorcet and individual Rank Learning Methods”, SIGIR. [500+ citations]

Ma et al. (2021), “A Replication Study of Dense Passage Retriever”, arXiv. [200+ citations]

References

Robertson & Zaragoza (2009), “The Probabilistic Relevance Framework: BM25 and Beyond”, Foundations and Trends in Information Retrieval. [3,000+ citations]

Karpukhin et al. (2020), “Dense Passage Retrieval for Open-Domain Question Answering”, EMNLP. [3,500+ citations]

Cormack et al. (2009), “Reciprocal Rank Fusion outperforms Condorcet and individual Rank Learning Methods”, SIGIR. [500+ citations]

Ma et al. (2021), “A Replication Study of Dense Passage Retriever”, arXiv. [200+ citations]