Skip to main content
KI erklärt

Wie hybride Suchtechnologie funktioniert — und warum Ihr juristisches KI-Tool wahrscheinlich nur die Hälfte der Gleichung nutzt

Keyword-Suche findet exakte Artikelnummern. Semantische Suche findet verwandte Konzepte. Hybride Suche macht beides — und der Unterschied ist messbar.

Von Auryth Team

Suchen Sie „Art. 344 WIB” in einem juristischen KI-Tool. Sie sollten die belgische allgemeine Antimissbrauchsbestimmung erhalten. Suchen Sie jetzt nach „Antimissbrauchsbestimmung”. Sie sollten dasselbe Ergebnis bekommen. Die meisten Tools schaffen eines und verpassen das andere — weil sie nur die Hälfte der benötigten Suchtechnologie einsetzen.

Das ist kein theoretisches Problem. Beim COLIEE 2021-Wettbewerb für juristische Suchtechnologie belegte ein einfacher Keyword-Suchalgorithmus (BM25) den zweiten Platz und schlug die meisten neuronalen Ansätze. Gleichzeitig zeigt der BEIR-Benchmark, dass reine Keyword-Suche 43,42 bei nDCG@10 erreicht, während hybride Suche 52,59 erzielt — eine Verbesserung von 21 %. Kein Ansatz allein reicht aus. Zusammen übertreffen sie alles andere.

Zwei Arten der Suche, zwei Arten der Blindheit

Keyword-Suche (BM25) zählt Wörter. Sie ist schnell, präzise und ausgezeichnet darin, exakte Artikelnummern, juristische Zitate und Fachbegriffe zu finden. Wenn ein belgischer Steuerberater nach „Art. 19bis WIB” sucht, findet die Keyword-Suche jedes Dokument, das diese exakte Zeichenkette enthält. Keine Mehrdeutigkeit, kein Raten.

Aber Keyword-Suche ist blind für Bedeutung. Suchen Sie nach „Besteuerung von Kapitalgewinnen aus Fonds” und sie findet keine Dokumente, die dasselbe Konzept mit anderen Worten beschreiben — „Reynders-Steuer” oder „Quellensteuer auf Investmentfonds”. Gleiches Konzept, andere Begriffe, null Ergebnisse.

Semantische Suche (Vektor-Embeddings) versteht Bedeutung. Sie wandelt Text in mathematische Darstellungen um, bei denen ähnliche Konzepte zusammenclustern. Suchen Sie nach „Antimissbrauchsbestimmung” und sie findet Dokumente über „antimisbruikbepaling”, „mesure anti-abus” und „anti-abuse provision” — sogar sprachübergreifend.

Aber semantische Suche hat ihren eigenen blinden Fleck. Sie verpasst manchmal exakte Referenzen. Suchen Sie nach „Art. 344 WIB” und ein rein semantisches System gibt möglicherweise Dokumente über Antimissbrauchsbestimmungen im Allgemeinen zurück — einschließlich des falschen Artikels aus der falschen Jurisdiktion.

Keyword-Suche (BM25)Semantische Suche (Vektoren)Hybride Suche
Exakte ArtikelnummernPräziser TrefferKann verfehlen oder verwechselnPräziser Treffer
KonzeptsynonymeVerfehlt komplettFindet natürlichFindet natürlich
SprachübergreifendScheitertFunktioniert gutFunktioniert gut
SpezifitätHochVariabelHoch
Konzeptuelle BreiteKeineHochHoch

Keyword-Suche sagt Ihnen, was ein Dokument sagt. Semantische Suche sagt Ihnen, was ein Dokument bedeutet. Sie brauchen beides.

Wie hybride Suche sie kombiniert

Hybride Suche führt beide Abfragen gleichzeitig aus: eine Keyword-Suche, die exakte Treffer findet, und eine semantische Suche, die konzeptuelle Treffer findet. Die Ergebnisse werden dann mit einer Technik namens Reciprocal Rank Fusion (RRF) zusammengeführt (Cormack et al., 2009).

Das Prinzip ist elegant. Ein Dokument auf Rang 1 in Keyword-Ergebnissen und Rang 3 in semantischen Ergebnissen erhält einen kombinierten Score, der seine Relevanz in beiden Systemen widerspiegelt. Dokumente, die beide Systeme als relevant betrachten, steigen an die Spitze.

Wie hybride Suche Keyword- und semantische Ergebnisse per Reciprocal Rank Fusion zusammenführt

Forschung von Karpukhin et al. (2020) quantifizierte dies: Bei Open-Domain-Fragebeantwortung erreicht hybrides Retrieval 53,4 % Top-1-Passage-Recall, verglichen mit 48,7 % für dichtes (semantisches) Retrieval allein und nur 22,1 % für BM25 allein. Hybrid teilt nicht einfach den Unterschied — es übertrifft beide.

Warum dies im Rechtsbereich mehr zählt als bei der allgemeinen Suche

Die meisten Suchbenchmarks verwenden allgemeine Wissensdatensets. Juristische Dokumente sind auf Arten anders, die hybride Suche nicht optional, sondern essenziell machen:

Exakte Referenzen sind tragend. Bei allgemeiner Suche reicht „ungefähr die richtige Seite”. Im Steuerrecht ist der Unterschied zwischen Art. 19bis WIB (Reynders-Steuer auf Fondsgewinne) und Art. 19 WIB (allgemeine Definition steuerbares Einkommen) der Unterschied zwischen korrekter Beratung und Berufsfehler.

Terminologie ist fragmentiert. Belgisches Steuerrecht existiert auf Niederländisch, Französisch und Deutsch. Derselbe Kodex ist WIB 92 auf Niederländisch und CIR 92 auf Französisch. Semantische Suche überbrückt diese Kluft; Keyword-Suche allein schafft Silos.

Querverweise sind strukturell. Eine einzelne belgische Steuerbestimmung kann auf Königliche Erlasse, EU-Richtlinien, regionale Kodizes und Verwaltungsstandpunkte verweisen. Dies erfordert sowohl semantisches Verständnis als auch exaktes Matching.

Der blinde Fleck, den die meisten KI-Tools nicht erwähnen

Viele juristische KI-Tools beschreiben ihre Technologie als „fortgeschrittene KI-Suche” ohne zu spezifizieren, ob sie Keyword-Matching verwenden. Einige nutzen reine Vektorsuche — was anspruchsvoll klingt, aber bedeutet, dass sie gelegentlich exakte Artikelreferenzen verpassen.

Der Test ist einfach: Suchen Sie nach einer spezifischen Artikelnummer (wie „Art. 171, 4° WIB”) und prüfen Sie, ob das Tool die exakte Bestimmung zurückgibt. Suchen Sie dann nach dem Konzept („gesonderte Besteuerung beweglicher Einkünfte”) und prüfen Sie, ob es dieselbe Bestimmung findet. Wenn es bei einem der Tests scheitert, nutzt es nur die Hälfte der Gleichung.

Häufige Fragen

Was ist der Unterschied zwischen hybrider Suche und einfach zwei separate Suchen durchzuführen?

Der Fusionsschritt ist entscheidend. Zwei Suchen auszuführen und beide Ergebnislisten anzuzeigen würde den Nutzer mit Duplikaten und inkonsistenten Rankings überfordern. Reciprocal Rank Fusion erstellt ein einziges, kohärentes Ranking, in dem Dokumente, die für Keyword- und semantische Kriterien relevant sind, zuerst erscheinen.

Macht hybride Suche das Abrufen langsamer?

Marginal. Die Keyword-Suche (BM25) ist extrem schnell — typischerweise unter 10 Millisekunden für Millionen von Dokumenten. Die semantische Suche fügt Vektor-Ähnlichkeitsberechnung hinzu, typischerweise 20-50ms. Die Gesamtlatenz bleibt deutlich unter einer Sekunde.

Wie geht hybride Suche mit belgischem mehrsprachigem Recht um?

Hier ist die Kombination besonders leistungsstark. Keyword-Suche findet „Art. 344 WIB” in niederländischen Texten und „Art. 344 CIR” in französischen Texten. Semantische Suche verbindet Konzepte sprachübergreifend und versteht, dass „Antimissbrauchsbestimmung” und „mesure anti-abus” dieselbe Bestimmung beschreiben. Zusammen bieten sie vollständige mehrsprachige Abdeckung ohne Sprachsilos.


Verwandte Artikel


Wie Auryth TX das umsetzt

Auryth TX nutzt hybride Suche als Retrieval-Fundament. Jede Abfrage durchläuft gleichzeitig BM25-Keyword-Matching und dense Vektor-Retrieval, wobei die Ergebnisse per Reciprocal Rank Fusion zusammengeführt werden. Das bedeutet: Die Suche nach „Art. 344 WIB” gibt die exakte Bestimmung zurück, während die Suche nach „Antimissbrauchsbestimmung” dieselbe Bestimmung plus verwandte Urteile, Rundschreiben und Kommentare liefert — unabhängig von der Sprache.

Das System deckt niederländische, französische und deutsche Rechtstexte nativ ab, mit sprachübergreifender semantischer Überbrückung. Artikelnummern werden exakt gematcht. Konzepte werden nach Bedeutung gematcht.


Quellen: 1. Cormack, G.V. et al. (2009). „Reciprocal rank fusion outperforms condorcet and individual rank learning methods.” SIGIR ‘09. 2. Karpukhin, V. et al. (2020). „Dense Passage Retrieval for Open-Domain Question Answering.” EMNLP 2020. 3. Thakur, N. et al. (2021). „BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models.” NeurIPS 2021. 4. Rosa, G. et al. (2021). „Yes, BM25 is a Strong Baseline for Legal Case Retrieval.” COLIEE 2021.