Définition
La recherche hybride combine la recherche traditionnelle par mots-clés (comme BM25) avec la recherche vectorielle sémantique moderne pour trouver des documents pertinents. En fusionnant ces deux approches, elle capture à la fois les correspondances exactes de mots-clés et la similarité conceptuelle, fournissant une récupération plus robuste que chaque méthode seule.
Pourquoi c’est important
La recherche hybride adresse les limitations des approches pures :
- Le meilleur des deux mondes — capture les termes exacts ET les correspondances conceptuelles
- Couverture des modes d’échec — quand une méthode échoue, l’autre réussit souvent
- Flexibilité de domaine — fonctionne avec requêtes techniques et langage naturel
- Fiabilité en production — résultats plus cohérents selon les types de requêtes
- Qualité RAG — améliore la récupération de documents pour les pipelines de génération
La recherche vectorielle pure peut manquer des termes exacts; la recherche par mots-clés pure manque les synonymes—l’hybride capture les deux.
Comment ça fonctionne
┌────────────────────────────────────────────────────────────┐
│ RECHERCHE HYBRIDE │
├────────────────────────────────────────────────────────────┤
│ │
│ Requête Utilisateur │
│ "Règles TVA article 15bis" │
│ │ │
│ ┌───────────┴───────────┐ │
│ ▼ ▼ │
│ ┌───────────────────┐ ┌───────────────────┐ │
│ │ RECHERCHE MOT-CLÉ│ │ RECHERCHE VECTOR │ │
│ │ (BM25/TF-IDF) │ │ (Embeddings) │ │
│ │ │ │ │ │
│ │ Corresp. exactes:│ │ Corresp. sémant.:│ │
│ │ - "article 15bis"│ │ - Règlements TVA │ │
│ │ - "règles TVA" │ │ - Exemptions fisc│ │
│ │ │ │ - Droit fiscal │ │
│ └─────────┬─────────┘ └─────────┬─────────┘ │
│ │ │ │
│ └───────────┬───────────┘ │
│ ▼ │
│ ┌───────────────────────┐ │
│ │ FUSION DES SCORES │ │
│ │ • Reciprocal Rank │ │
│ │ • Somme Pondérée │ │
│ │ • Combo. Convexe │ │
│ └───────────┬───────────┘ │
│ ▼ │
│ Résultats Combinés │
│ (Meilleur des deux méthodes) │
└────────────────────────────────────────────────────────────┘
Méthodes de fusion :
- Reciprocal Rank Fusion (RRF) — classe selon la position dans chaque liste
- Somme pondérée — combine les scores normalisés avec des poids configurables
- Combinaison convexe — α × score_mot_clé + (1-α) × score_vecteur
Questions fréquentes
Q : Quel ratio mot-clé/vecteur fonctionne le mieux ?
R : Commencez à 50/50, puis ajustez selon vos requêtes. Les domaines techniques (juridique, médical) bénéficient souvent d’un poids mot-clé plus élevé (60-70%) pour la terminologie précise. Les requêtes conversationnelles favorisent la recherche vectorielle (60-70%).
Q : Quand la recherche hybride aide-t-elle le plus ?
R : Quand les requêtes mélangent termes spécifiques et questions conceptuelles. Par exemple, “Article 15bis exemptions TVA pour services numériques”—nécessite correspondance exacte d’article ET compréhension sémantique des exemptions.
Q : La recherche hybride ajoute-t-elle de la latence ?
R : Légèrement—vous exécutez deux recherches. Mais les deux peuvent s’exécuter en parallèle, donc le surcoût est minimal (~10-50ms). L’amélioration de qualité justifie généralement ce coût.
Q : Qu’est-ce que Reciprocal Rank Fusion (RRF) ?
R : RRF combine les classements sans avoir besoin de scores comparables. Pour chaque document, il calcule 1/(k + rang) pour les deux méthodes et les additionne. C’est robuste car ça n’utilise que la position, pas la magnitude du score.
Termes associés
- Recherche Sémantique — composant de récupération vectorielle
- BM25 — algorithme classique de recherche par mots-clés
- Embeddings — vecteurs pour recherche sémantique
- Reclassement — suit souvent la recherche hybride
Références
Robertson & Zaragoza (2009), “The Probabilistic Relevance Framework: BM25 and Beyond”, Foundations and Trends in Information Retrieval. [3 000+ citations]
Karpukhin et al. (2020), “Dense Passage Retrieval for Open-Domain Question Answering”, EMNLP. [3 500+ citations]
Cormack et al. (2009), “Reciprocal Rank Fusion outperforms Condorcet and individual Rank Learning Methods”, SIGIR. [500+ citations]
Ma et al. (2021), “A Replication Study of Dense Passage Retriever”, arXiv. [200+ citations]
References
Robertson & Zaragoza (2009), “The Probabilistic Relevance Framework: BM25 and Beyond”, Foundations and Trends in Information Retrieval. [3,000+ citations]
Karpukhin et al. (2020), “Dense Passage Retrieval for Open-Domain Question Answering”, EMNLP. [3,500+ citations]
Cormack et al. (2009), “Reciprocal Rank Fusion outperforms Condorcet and individual Rank Learning Methods”, SIGIR. [500+ citations]
Ma et al. (2021), “A Replication Study of Dense Passage Retriever”, arXiv. [200+ citations]