Strategie & Entscheidung 7. Dezember 2025

Wie Sie ein juristisches KI-Tool bewerten: 10 Fragen, die wirklich zählen

Die meisten Kanzleien fragen zuerst 'wie genau ist es?' Das ist Frage 10 auf dieser Liste. Hier sind die neun Fragen, die Sie zuerst stellen sollten — und warum sie für professionelle Steuerarbeit mehr zählen.

KI-Bewertung juristische KI Steuertechnologie Due Diligence Berufshaftung

Von Auryth Team

Die erste Frage, die die meisten Kanzleien bei der Bewertung eines juristischen KI-Tools stellen, lautet: „Wie genau ist es?” Das klingt vernünftig. Es ist auch die am wenigsten nützliche Frage auf dieser Liste.

Genauigkeit ohne Transparenz ist ein Haftungsrisiko. Ein Tool, das zu 95 % genau ist, aber nicht zeigen kann, welche 5 % falsch sind, ist gefährlicher als eines, das zu 90 % genau ist und bei jeder Antwort seine Quellen anzeigt. Ein bekanntes Risiko können Sie managen. Ein verborgenes nicht.

Diese Checkliste funktioniert für jedes juristische KI-Tool — Auryth, einen Mitbewerber oder ein Allzweckmodell, das Ihre Mitarbeiter bereits heimlich verwenden. Wenn ein Anbieter diese Fragen nicht klar beantworten kann, sagt Ihnen das etwas. Wenn er es kann, überprüfen Sie die Antworten.

1. Woher stammen die Quellen?

Was Sie fragen sollten: Durchsucht das Tool einen kuratierten Rechtskorpus oder sucht es im offenen Internet? Wer pflegt den Korpus? Wie ist er strukturiert?

Warum es wichtig ist: Ein Tool, das das Internet durchsucht, findet Blogbeiträge, veraltete Gesetzgebung und ausländische Rechtsordnungen vermischt mit geltendem Recht. Ein Tool mit einem kuratierten Korpus — EStGB 92, VCF, Fisconetplus, DVB-Vorabentscheidungen, Rechtsprechung — hat eine definierte Wissensgrenze. Sie wissen, was es durchsuchen kann und was nicht.

Warnsignal: „Wir verwenden den größten verfügbaren Datensatz”, ohne anzugeben, was darin enthalten ist. Größe ist nicht Qualität. Ein Korpus von 10 Millionen unstrukturierten Webseiten ist schlechter als 50.000 sorgfältig strukturierte Rechtsdokumente mit Metadaten.

2. Können Sie jede Quellenangabe verifizieren?

Was Sie fragen sollten: Wenn das Tool eine Quelle zitiert, können Sie zum Originaldokument durchklicken? Ist die Quellenangabe verifizierbar oder nur eine Referenzzeichenfolge, die das Modell generiert hat?

Warum es wichtig ist: Stanford-Forscher fanden heraus, dass selbst dedizierte juristische KI-Tools — Westlaw AI, Lexis+ AI — bei 17–33 % der Anfragen halluzinieren. Die Halluzinationen sind kein zufälliger Unsinn. Es sind plausibel klingende Zitate zu Bestimmungen, die nicht das sagen, was das Modell behauptet. Die einzige Verteidigung ist Verifikation.

Warnsignal: Quellenangaben ohne anklickbare Links zum Originaltext. Wenn Sie eine Quellenangabe nicht in unter 30 Sekunden verifizieren können, ist es keine Quellenangabe — es ist ein Vorschlag.

3. Weiß es, wenn es etwas nicht weiß?

Was Sie fragen sollten: Liefert das Tool Konfidenzwerte? Wenn die Beweislage dünn oder nicht vorhanden ist, sagt es Ihnen das explizit — oder antwortet es mit der gleichen Zuversicht unabhängig davon?

Warum es wichtig ist: In der professionellen Steuerpraxis ist das Wissen, dass zu einem bestimmten Punkt keine Rechtsquelle existiert, wertvolle Information. Es bedeutet, dass Sie sich in Interpretationsgebiet befinden und entsprechend vorgehen sollten. Ein Tool, das immer mit einheitlicher Zuversicht antwortet — ob gestützt durch drei Urteile des Kassationshofs oder durch gar nichts — trainiert Sie darauf, nicht mehr auf Gewissheit zu achten.

Warnsignal: Jede Antwort wird mit dem gleichen autoritativen Ton geliefert, unabhängig von der Stärke der zugrunde liegenden Beweise.

4. Wie aktuell ist die Wissensbasis?

Was Sie fragen sollten: Wenn sich das Gesetz ändert, wie schnell wird das Tool aktualisiert? Wird es innerhalb von Stunden, Tagen, Wochen oder Monaten aktualisiert? Wann war das letzte Update?

Warum es wichtig ist: Das belgische Steuerrecht ändert sich ständig. Zwei große Programmgesetze pro Jahr. Regionale Divergenz zwischen Flandern, Wallonien und Brüssel. Das Programmgesetz vom Juli 2025 hat das System der Investitionsabzüge umstrukturiert. Wenn ein Tool noch die Regeln vor Juli widerspiegelt, ist es nicht nur veraltet — es ist zuversichtlich falsch über geltendes Recht.

Warnsignal: Vage Antworten wie „regelmäßig aktualisiert” ohne spezifische Aktualisierungsfrequenz. Fragen Sie nach dem Datum der letzten Korpus-Aktualisierung. Wenn sie es Ihnen nicht sagen können, ist das Ihre Antwort.

5. Versteht es rechtliche Hierarchie?

Was Sie fragen sollten: Wenn das Tool mehrere Quellen abruft, ordnet es sie nach Rechtsautorität? Überwiegt ein Urteil des Kassationshofs ein Fisconetplus-Rundschreiben? Überwiegt eine Verfassungsbestimmung eine ministerielle Entscheidung?

Warum es wichtig ist: Rechtliche Hierarchie ist kein Nice-to-have — so funktioniert rechtliches Denken. Ein Fisconetplus-Rundschreiben, das der Rechtsprechung widerspricht, ist das Rundschreiben, das falsch ist, nicht die Rechtsprechung. Ein Tool, das alle Quellen als gleichgewichtete Textfragmente behandelt, wird gelegentlich die falsche Autorität als primäre Antwort präsentieren.

Warnsignal: Flache Suchergebnisse ohne Angabe der Quellenautorität oder Rechtsgewichtung.

6. Kann es temporale Fragen handhaben?

Was Sie fragen sollten: Wenn Sie nach einer Transaktion in 2019 fragen, ruft das Tool das Recht von 2019 oder das aktuelle Recht ab? Kann es zwischen temporalen Versionen derselben Bestimmung unterscheiden?

Warum es wichtig ist: Der belgische Körperschaftsteuersatz betrug 29,58 % in 2019 und 25 % heute. Beide sind korrekt — für unterschiedliche Veranlagungszeiträume. Ein Tool ohne temporale Versionierung ruft ab, welche Version seine Suche zuerst findet. Für einen Steuerberater, der zu einem historischen Zeitraum berät, ist das keine kleine Unannehmlichkeit — es ist Haftungsrisiko.

Warnsignal: Keine Möglichkeit, ein Referenzdatum anzugeben. Wenn das Tool nicht zwischen „was war das Gesetz in 2019?” und „was ist das Gesetz heute?” unterscheiden kann, fällt es durch diesen Test.

7. Wie werden Ihre Daten behandelt?

Was Sie fragen sollten: Wo werden Mandantendaten gespeichert? Werden sie zum Trainieren des Modells verwendet? Wer hat Zugriff? Entspricht das Tool der DSGVO Artikel 22 zur automatisierten Entscheidungsfindung? Was passiert mit Ihren Anfragen nach Ende der Sitzung?

Warum es wichtig ist: 56 % der Anwaltskanzleien nennen Datenschutz als ihr größtes Anliegen bei der Bewertung von KI-Tools. Berufsgeheimnisse sind nicht optional — sie sind eine rechtliche Verpflichtung. Wenn Mandantenanfragen zur Verbesserung des Modells verwendet werden, befinden sich die Daten Ihres Mandanten im Trainingsdatensatz. Wenn die Daten die EU ohne angemessene Schutzmaßnahmen verlassen, haben Sie ein DSGVO-Konformitätsproblem.

Warnsignal: Nutzungsbedingungen, die dem Anbieter weitreichende Rechte einräumen, „Eingabedaten” für „Serviceverbesserung” zu nutzen. Lesen Sie die Datenverarbeitungsvereinbarung. Wenn es keine gibt, gehen Sie weg.

8. Was passiert, wenn es falsch liegt?

Was Sie fragen sollten: Führt das Tool einen Prüfpfad? Können Sie rekonstruieren, welche Quellen abgerufen wurden, was abgelehnt wurde und wie die Antwort generiert wurde? Welche Haftungsausschlüsse oder Haftungsbeschränkungen gelten?

Warum es wichtig ist: Berufshaftung in der belgischen Steuerpraxis verschwindet nicht, weil Sie ein Tool verwendet haben. Anwaltskammern in ganz Europa konvergieren zu einem klaren Grundsatz: KI kann unabhängige Recherche, Analyse und Urteil nicht ersetzen. Wenn ein Tool falsche Beratung gibt und Sie diese an einen Mandanten weitergeben, müssen Sie Ihren Verifizierungsprozess nachweisen können. Ein Prüfpfad macht das möglich. Ein Chat-Transcript nicht.

Warnsignal: Keine Protokollierung, kein Prüfpfad, keine Möglichkeit, frühere Anfragen zu überprüfen. Wenn Sie Ihren Rechercheprozess nicht rekonstruieren können, können Sie ihn nicht verteidigen.

9. Können Sie für professionelle Nutzung exportieren?

Was Sie fragen sollten: Können Sie Ergebnisse in einem strukturierten Format exportieren, das für professionelle Dokumentation geeignet ist — Quellenangaben formatiert, Quellen verlinkt, Konfidenz vermerkt? Oder sind Sie darauf beschränkt, Chat-Text zu kopieren?

Warum es wichtig ist: Ein Tool, das strukturierte, exportierbare Recherche produziert, beschleunigt Ihren Arbeitsablauf. Ein Tool, das Chat-ähnlichen Text produziert, erzeugt einen Formatierungsschritt zwischen Recherche und Arbeitsprodukt. Der Unterschied zwischen diesen beiden ist der Unterschied zwischen einem Recherchetool und einem Chatbot.

Warnsignal: Ausgabe beschränkt auf unformatierten Text in einem Chat-Fenster, ohne Export- oder Integrationsmöglichkeiten.

10. Veröffentlicht es Genauigkeitsmetriken?

Was Sie fragen sollten: Was ist die gemessene Halluzinationsrate des Tools? Wer hat sie gemessen — der Anbieter oder eine unabhängige Partei? Sind die Metriken veröffentlicht oder müssen Sie ihnen aufs Wort glauben?

Warum es wichtig ist: Dies steht aus einem Grund an letzter Stelle. Genauigkeit ist wichtig, aber es ist die Metrik, die Anbieter im Marketing optimieren, und die Metrik, auf die Fachleute bei der Bewertung überproportional achten. Ein Tool, das zu 95 % genau und undurchsichtig ist, ist gefährlicher als eines, das zu 90 % genau und transparent ist — weil Sie die 10 % verifizieren und korrigieren können, aber die 5 % nicht identifizieren können.

Warnsignal: Behauptungen von „99 % Genauigkeit” ohne veröffentlichte Methodologie, Testdatensätze oder unabhängige Validierung. Wenn der Anbieter seine eigene Genauigkeit gemessen hat, fragen Sie wie. Wenn er die Methodologie nicht erklären kann, ist die Zahl Marketing.

Zehn Fragen zur Bewertung eines juristischen KI-Tools — bewertete Checkliste für Steuerberater

Die unbequeme Wahrheit

Nur 26 % der Anwaltskanzleien haben KI ab 2025 aktiv integriert. Aber 31 % der einzelnen Anwälte verwenden bereits generative KI bei der Arbeit — viele ohne Wissen oder Genehmigung ihrer Kanzlei. Die Frage ist nicht, ob Ihre Kanzlei KI verwenden wird. Die Frage ist, ob Sie ein Tool wählen, das professionelle Standards erfüllt, oder ob Ihre Mitarbeiter weiterhin ChatGPT in einem Browser-Tab verwenden und auf das Beste hoffen.

Diese zehn Fragen geben Ihnen einen Rahmen für Ersteres. Drucken Sie sie aus. Verwenden Sie sie in Ihrem nächsten Verkaufsgespräch. Verwenden Sie sie, um die Tools zu bewerten, die Ihr Team bereits verwendet. Die Antworten werden Ihnen alles sagen, was Sie wissen müssen.

Wie Auryth TX bei diesen 10 Fragen abschneidet

Wir haben Auryth TX gebaut, um jede Frage auf dieser Liste zu beantworten. Nicht weil wir die Liste geschrieben haben — sondern weil dies die Fragen sind, die jeder Fachmann stellen sollte, und wir möchten lieber, dass Sie sie stellen, als dass Sie es nicht tun.

Quellen: Belgischer Rechtskorpus — EStGB 92, VCF, Fisconetplus, DVB-Vorabentscheidungen, Rechtsprechung, Fachliteratur — alles kuratiert und strukturiert.
Quellenverifizierung: Jede Quellenangabe verlinkt zur Originalquelle. Jede Behauptung wird nach der Generierung unabhängig validiert.
Unsicherheit: Konfidenzwertung pro Behauptung. Wenn die Beweislage dünn ist, sagen wir es Ihnen explizit.
Aktualität: Korpus innerhalb von Stunden nach Rechtsänderungen aktualisiert. Das Programmgesetz vom Juli 2025 war am selben Tag durchsuchbar.
Rechtliche Hierarchie: 13-stufige Autoritätsordnung über das belgische Rechtssystem — Verfassung bis Fachliteratur.
Temporale Anfragen: Point-in-Time-Abruf mit temporalen Metadaten zu jeder Bestimmung.
Datenhandhabung: EU-Datenresidenz. Kein Training mit Mandantenanfragen. Vollständige DSGVO-Konformität mit veröffentlichter DPA.
Prüfpfad: Jede Anfrage protokolliert mit abgerufenen Quellen, abgelehnten Quellen, Konfidenzwerten und Generierungsmetadaten.
Export: Strukturierte Ausgabe mit formatierten Quellenangaben, Autoritätsgewichtungen und Konfidenzindikatoren.
Genauigkeit: Veröffentlichte Methodologie. Unabhängige Validierung. Und transparent genug, dass Sie jede Antwort selbst verifizieren können.

Testen Sie diese 10 Fragen an einer echten belgischen Steuerfrage — treten Sie der Warteliste bei →

Quellen: 1. Magesh, V. et al. (2025). „Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools.” Journal of Empirical Legal Studies. 2. AffiniPay (2025). Legal Industry Report: AI Adoption in Law Firms. 3. Bar Council of England and Wales (2025). „Considerations when using ChatGPT and generative artificial intelligence.” Aktualisiert November 2025. 4. Thomson Reuters Institute (2025). „Generative AI in Professional Services.”