Skip to main content
AI uitgelegd

Hoe hybride zoektechnologie werkt — en waarom uw juridische AI-tool waarschijnlijk maar de helft gebruikt

Keyword search vindt exacte artikelnummers. Semantisch zoeken vindt verwante concepten. Hybride zoeken doet beide — en het verschil is meetbaar.

Door Auryth Team

Zoek “Art. 344 WIB” in een juridische AI-tool. U zou de Belgische algemene antimisbruikbepaling moeten krijgen. Zoek nu op “antimisbruikbepaling.” U zou hetzelfde resultaat moeten krijgen. De meeste tools krijgen er één juist en missen de andere — omdat ze maar de helft van de zoektechnologie gebruiken die ze nodig hebben.

Dit is geen theoretisch probleem. Op de COLIEE 2021-competitie voor juridische zoektechnologie eindigde een basaal keyword-zoekalgoritme (BM25) op de tweede plaats, beter dan de meeste neurale benaderingen. Tegelijk toont de BEIR-benchmark aan dat puur keyword zoeken 43,42 scoort op nDCG@10, terwijl hybride zoeken 52,59 haalt — een verbetering van 21%. Geen van beide benaderingen volstaat alleen. Samen presteren ze beter dan al het andere.

Twee soorten zoeken, twee soorten blindheid

Keyword search (BM25) telt woorden. Het is snel, precies en uitstekend in het vinden van exacte artikelnummers, juridische citaten en technische termen. Wanneer een Belgische fiscalist zoekt op “Art. 19bis WIB,” vindt keyword search elk document dat die exacte string bevat. Geen ambiguïteit, geen giswerk.

Maar keyword search is blind voor betekenis. Zoek op “belasting op meerwaarden uit fondsen” en het vindt geen documenten die hetzelfde concept beschrijven met andere woorden — “Reynders-taks” of “roerende voorheffing op beleggingsfondsen.” Zelfde concept, andere termen, nul resultaten.

Semantisch zoeken (vector embeddings) begrijpt betekenis. Het zet tekst om in wiskundige representaties waarbij gelijkaardige concepten samenclusteren. Zoek op “antimisbruikbepaling” en het vindt documenten over “mesure anti-abus,” “Missbrauchsbestimmung” en “anti-abuse provision” — zelfs over talen heen. Het begrijpt dat deze termen hetzelfde juridische concept beschrijven.

Maar semantisch zoeken heeft zijn eigen blinde vlek. Het mist soms exacte referenties. Zoek op “Art. 344 WIB” en een puur semantisch systeem geeft mogelijk documenten over antimisbruikbepalingen in het algemeen — inclusief het verkeerde artikel uit het verkeerde rechtsgebied. De precisie die juridisch werk vereist, is precies wat semantisch zoeken soms mist.

Keyword search (BM25)Semantisch zoeken (vectoren)Hybride zoeken
Exacte artikelnummersPrecieze matchKan missen of verwarrenPrecieze match
ConceptsynoniemenMist volledigVindt natuurlijkVindt natuurlijk
Cross-linguaalFaaltWerkt goedWerkt goed
SpecificiteitHoogVariabelHoog
Conceptuele breedteGeenHoogHoog

Keyword search vertelt u wat een document zegt. Semantisch zoeken vertelt u wat een document betekent. U hebt beide nodig.

Hoe hybride zoeken ze combineert

Hybride zoeken voert beide queries tegelijkertijd uit: een keyword search die exacte matches vindt, en een semantische zoekopdracht die conceptuele matches vindt. De resultaten worden vervolgens samengevoegd met een techniek genaamd Reciprocal Rank Fusion (RRF) (Cormack et al., 2009).

Het principe is elegant. Een document dat op rang 1 staat in keyword-resultaten en rang 3 in semantische resultaten krijgt een gecombineerde score die de relevantie in beide systemen weerspiegelt. Een document dat alleen in één systeem hoog scoort, verschijnt nog steeds — maar lager. Documenten die beide systemen als relevant beschouwen, stijgen naar de top.

Hoe hybride zoeken keyword- en semantische resultaten samenvoegt via reciprocal rank fusion

Dit is belangrijk omdat de twee systemen elkaars blinde vlekken opvangen. Keyword search zorgt ervoor dat “Art. 344 WIB” exact gevonden wordt. Semantisch zoeken zorgt ervoor dat discussies over antimisbruikbepalingen onder andere namen ook worden opgenomen. De fusielaag rankt documenten die op beide dimensies matchen het hoogst.

Onderzoek van Karpukhin et al. (2020) kwantificeerde dit: bij open-domein vraagbeantwoording bereikt hybride retrieval 53,4% top-1 passage recall, vergeleken met 48,7% voor dense (semantische) retrieval alleen en slechts 22,1% voor BM25 alleen. Hybride zoeken deelt niet gewoon het verschil — het overtreft beide.

Waarom dit in juridisch zoeken meer uitmaakt dan in algemeen zoeken

De meeste zoekbenchmarks gebruiken algemene kennisdatasets — Wikipedia-artikelen, webpagina’s, forumposts. Juridische documenten zijn op manieren anders die hybride zoeken niet optioneel maar essentieel maken:

Exacte referenties zijn draagconstructies. Bij algemeen zoeken is “ongeveer de juiste pagina” goed genoeg. In fiscaal recht is het verschil tussen Art. 19bis WIB (Reynders-taks op meerwaarden uit fondsen) en Art. 19 WIB (algemene definitie belastbaar inkomen) het verschil tussen correct advies en een beroepsfout. Keyword-precisie is geen luxe — het is een professionele vereiste.

Terminologie is versnipperd. Belgisch fiscaal recht bestaat in het Nederlands, Frans en Duits. Dezelfde code is WIB 92 in het Nederlands en CIR 92 in het Frans. Hetzelfde concept kan verschillende namen hebben in commentaar, rechtspraak en administratieve circulaires. Semantisch zoeken overbrugt deze kloof; keyword search alleen creëert silo’s.

Kruisverwijzingen zijn structureel. Een enkele Belgische fiscale bepaling kan verwijzen naar koninklijke besluiten, EU-richtlijnen, regionale codes en administratieve standpunten. Een zoekopdracht naar één bepaling moet verwante instrumenten opleveren — maar alleen als ze daadwerkelijk verwant zijn, niet alleen omdat ze gemeenschappelijke woorden delen. Dit vereist zowel semantisch begrip als exacte matching.

De COLIEE 2021-resultaten bevestigen dit: bij juridische retrieval specifiek blijft BM25 onevenredig belangrijk. Maar het is niet genoeg alleen — de winnende benaderingen combineerden het met semantische methoden (Rosa et al., 2021).

De blinde vlek die de meeste AI-tools niet vermelden

Veel juridische AI-tools beschrijven hun technologie als “geavanceerde AI-zoektechnologie” of “semantisch begrip” zonder te specificeren of ze keyword matching gebruiken. Sommige gebruiken puur vector search — wat geavanceerd klinkt maar betekent dat ze soms exacte artikelreferenties missen die een basale keyword search onmiddellijk zou vinden.

De test is simpel: zoek naar een specifiek artikelnummer (zoals “Art. 171, 4° WIB”) en controleer of de tool de exacte bepaling teruggeeft. Zoek vervolgens naar het concept (“afzonderlijke taxatie van roerende inkomsten”) en controleer of het dezelfde bepaling vindt. Als het bij een van beide faalt, gebruikt het maar de helft van de vergelijking.

Veelgestelde vragen

Wat is het verschil tussen hybride zoeken en gewoon twee aparte zoekopdrachten uitvoeren?

De fusiestap is cruciaal. Twee zoekopdrachten uitvoeren en beide resultatenlijsten tonen zou de gebruiker overstelpen met duplicaten en inconsistente rankings. Reciprocal rank fusion creëert één coherente ranking waarin documenten die relevant zijn voor zowel keyword- als semantische criteria bovenaan verschijnen — zonder handmatige kruisverwijzing.

Maakt hybride zoeken het ophalen trager?

Marginaal. De keyword search (BM25) is extreem snel — doorgaans onder 10 milliseconden voor miljoenen documenten. De semantische zoekopdracht voegt vectorgelijkheidsberekening toe, doorgaans 20-50ms. De fusiestap is verwaarloosbaar. De totale latentie blijft ruim onder één seconde, wat onmerkbaar is voor de gebruiker.

Hoe gaat hybride zoeken om met Belgisch meertalig recht?

Hier is de combinatie bijzonder krachtig. Keyword search vindt “Art. 344 WIB” in Nederlandstalige teksten en “Art. 344 CIR” in Franstalige teksten — exacte matches in elke taal. Semantisch zoeken verbindt concepten over talen heen en begrijpt dat “antimisbruikbepaling” en “mesure anti-abus” dezelfde bepaling beschrijven. Samen bieden ze volledige meertalige dekking zonder taalsilo’s.


Gerelateerde artikelen


Hoe Auryth TX dit toepast

Auryth TX gebruikt hybride zoeken als basis van zijn retrieval. Elke query doorloopt tegelijkertijd zowel BM25 keyword matching als dense vector retrieval, met resultaten samengevoegd via reciprocal rank fusion. Dit betekent dat zoeken op “Art. 344 WIB” de exacte bepaling teruggeeft, terwijl zoeken op “antimisbruikbepaling” dezelfde bepaling teruggeeft plus gerelateerde rulings, circulaires en commentaar — ongeacht de taal.

Het systeem dekt Nederlands-, Frans- en Duitstalige juridische teksten native, met cross-linguaal semantisch overbruggen. Artikelnummers worden exact gematcht. Concepten worden op betekenis gematcht. Het resultaat is retrieval die een fiscalist kan vertrouwen — omdat het vindt wat keyword search vangt én wat semantisch zoeken begrijpt.


Bronnen: 1. Cormack, G.V. et al. (2009). “Reciprocal rank fusion outperforms condorcet and individual rank learning methods.” SIGIR ‘09. 2. Karpukhin, V. et al. (2020). “Dense Passage Retrieval for Open-Domain Question Answering.” EMNLP 2020. 3. Thakur, N. et al. (2021). “BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models.” NeurIPS 2021. 4. Rosa, G. et al. (2021). “Yes, BM25 is a Strong Baseline for Legal Case Retrieval.” COLIEE 2021.