Skip to main content
In der Praxis

Ich stellte ChatGPT und Auryth dieselben belgischen Steuerfragen — das ist passiert

Drei Steuerfragen, zwei KI-Tools, eine klare Lektion: Für professionelle Recherche schlägt Verifizierbarkeit Selbstsicherheit.

Von Auryth Team

Sie haben es getan. Ihr Kollege hat es getan. Irgendwann in den letzten zwei Jahren hat jeder Steuerberater in Belgien eine steuerliche Frage in ChatGPT eingegeben.

Die Antwort klang wahrscheinlich vernünftig. Vielleicht sogar beeindruckend. Aber hier ist die Frage, die niemand danach stellt: Wie würden Sie das überprüfen?

Wir haben ein einfaches Experiment durchgeführt. Drei belgische Steuerfragen mit steigender Komplexität — die Art von Fragen, die ein Steuerexperte wöchentlich bearbeitet. Wir haben ChatGPT (GPT-4o) und Auryth TX, unsere speziell entwickelte belgische Steuerrecherche-Plattform, befragt. Dieselben Fragen, am selben Tag, ohne Prompt-Engineering-Tricks.

Die Ergebnisse offenbaren etwas Interessanteres als „richtig versus falsch”.

Frage 1: „Wie hoch ist der aktuelle belgische Körperschaftsteuersatz?”

ChatGPT antwortete korrekt: 25 %, mit dem reduzierten Satz von 20 % für KMU auf die ersten 100.000 € steuerpflichtigen Gewinns. Klar. Präzise.

Auryth lieferte dieselben Zahlen — zitierte aber direkt Art. 215 WIB 92 (Wetboek van de Inkomstenbelastingen 1992), verlinkte auf die spezifische Bestimmung und wies auf die Bedingungen von Art. 215 Absatz 3 hin: die Vergütungsanforderung und die Beteiligungsschwelle.

Beide Tools nannten die richtige Zahl. Aber nur eines zeigte warum sie richtig war und welche Bedingungen gelten. Wenn Ihr Mandant fragt „qualifizieren wir uns für den reduzierten Satz?” — ist die selbstsichere Zahl ein Ausgangspunkt. Die quellenbasierte Antwort ist ein Fundament für Beratung.

Die Lücke zwischen einer korrekten Zahl und einer verifizierbaren Antwort ist der Bereich, in dem berufliche Haftung angesiedelt ist.

Frage 2: „Wie hoch ist der TOB-Satz auf einen thesaurierenden ETF?”

Hier wird es interessant.

ChatGPT antwortete: 1,32 %. Mit Selbstsicherheit vorgetragen. Keine Einschränkungen.

Diese Antwort ist unvollständig. TOB-Sätze für ETFs betragen 0,12 %, 0,35 % oder 1,32 % — abhängig von den Merkmalen des Fonds. Ein thesaurierender ETF, der in Belgien registriert ist, zahlt 1,32 %, aber derselbe thesaurierende ETF, anderswo im EWR registriert, zahlt nur 0,12 % — ein elffacher Unterschied. Ob ein Fonds als „in Belgien registriert” gilt, hängt davon ab, ob eines seiner Compartments bei der FSMA registriert ist. Ausschüttende ETFs zahlen 0,12 %. Nicht-EWR-Instrumente: 0,35 %. Ein Berater, der zum ETF-Kauf rät, muss den spezifischen Registrierungs- und Ausschüttungsstatus des Fonds kennen — nicht nur einen einzigen Satz.

Auryth identifizierte alle drei anwendbaren TOB-Sätze, erklärte die Klassifizierungskriterien — Registrierungsort, Thesaurierung vs. Ausschüttung, EWR-Status — und kennzeichnete, welcher Satz für den spezifischen Fonds in der Frage galt.

Das ist Klassifizierungsblindheit — ein Fehlermodus allgemeiner KI-Systeme. ChatGPT wählt die häufigste Antwort und präsentiert sie als die einzige. Das belgische Steuerrecht ist voller Klassifizierungsabhängigkeiten: Sätze, die sich je nach Produktstruktur, Registrierung, Domizil und Haltedauer ändern. Eine KI, die diese Unterscheidungen zu einer einzigen selbstsicheren Zahl zusammenfaltet, ist nicht nur unvollständig — sie ist gefährlich für professionelle Beratung.

Stanford-Forschung: 58-88% Halluzinationsrate für allgemeine KI vs. 17-33% für spezialisierte juristische KI-Tools

Frage 3: „Was sind alle steuerlichen Auswirkungen eines TAK-23-Versicherungsprodukts für einen belgischen Steuerinländer?”

Jetzt befinden wir uns im professionellen Terrain.

ChatGPT identifizierte Einkommensteuer (mit Erwähnung von Art. 19bis WIB für die Reynders-Steuer auf Kapitalgewinne) und Versicherungsprämiensteuer. Zwei Bereiche. Präsentiert mit derselben unerschütterlichen Sicherheit wie bei Frage 1.

Es übersah drei:

Ein TAK-23-Produkt berührt mindestens fünf Steuerbereiche. ChatGPT behandelte zwei. Die drei übersehenen sind genau diejenigen, bei denen Mandanten Geld verlieren und Berater Haftungsansprüchen gegenüberstehen.

Auryth strukturierte seine Antwort als domänenübergreifende Analyse: ein Domänen-Radar, das alle fünf Bereiche identifiziert, Schlussfolgerungen je Domäne mit nach Autorität gewichteten Quellen, Konfidenzbewertungen (hoch für Einkommensteuer, moderat für regionale Variationen angesichts sich entwickelnder Rechtsprechung) und einen Abschnitt „identifizierte Lücken”, der vermerkt, was nicht gefunden wurde.

DimensionChatGPTSpezialisierte Steuer-KI
QuellenangabenKeine oder erfundenVerlinkt auf spezifische Rechtsvorschriften
Temporales BewusstseinNur aktuelle SätzeZeitpunktgenaue Abfrage mit Versionsverlauf
Domänenübergreifende AbdeckungTeilweise (2 von 5 Domänen)Strukturierte Multi-Domänen-Analyse
KonfidenzsignaleGleiche Sicherheit für allesKonfidenzbewertung je Aussage
Belgien-SpezifitätGenerisch, vermischt manchmal RechtsordnungenAufgebaut auf belgischem Rechtskorpus
VerifizierbarkeitVertrauen Sie der KIVertrauen Sie den Quellen, die sie Ihnen zeigt

ChatGPT versus spezialisierte Steuer-KI im Vergleich über sechs professionelle Dimensionen

Die Verifikationslücke

Das Muster über alle drei Fragen hinweg dreht sich nicht um Genauigkeit. Es geht um Verifizierbarkeit.

ChatGPT kann die einfache Antwort richtig liefern. Aber es sagt Ihnen nie:

Wir nennen dies die Verifikationslücke: die Distanz zwischen der bekundeten Sicherheit einer KI und Ihrer Fähigkeit, ihre Aussagen unabhängig zu überprüfen. Je größer die Lücke, desto größer das berufliche Risiko.

Für eine schnelle Google-Suche spielt die Verifikationslücke keine Rolle. Für professionelle Steuerberatung — wo falsche Antworten finanzielle und rechtliche Konsequenzen haben — ist sie alles.

Ein Tool, das zu 90 % genau ist und ehrlich darüber, ist sicherer als eines, das zu 95 % genau ist und Ihnen nie sagt, wann es falsch liegt.

Aber seien wir ehrlich — spezialisierte KI ist auch nicht perfekt

Stanford-Forscher fanden heraus, dass selbst speziell entwickelte juristische KI-Tools wie Westlaw AI und LexisNexis+ AI in 17–33 % der Fälle halluzinieren. RAG — Retrieval-Augmented Generation, die Architektur hinter den meisten spezialisierten juristischen KI-Systemen — reduziert Halluzinationen dramatisch im Vergleich zu der Rate von 58–88 % bei allgemeinen LLMs. Aber es eliminiert sie nicht.

Der Unterschied ist nicht Perfektion. Es ist Transparenz. Wenn ein spezialisiertes Tool unsicher ist, sagt es Ihnen das. Wenn es eine Quelle zitiert, können Sie sie überprüfen. Wenn es etwas übersieht, kennzeichnet ein gut konzipiertes System die Lücke, anstatt eine partielle Antwort als vollständig zu präsentieren.

Das belgische Steuerrecht enthält echte Mehrdeutigkeiten: Entscheidungen, die Rundschreiben widersprechen, regionale Variationen, die divergieren, Bestimmungen mit mehreren gültigen Auslegungen. Keine KI sollte etwas anderes vorgeben.

Der Drei-Ebenen-Test

Bevor Sie sich auf eine KI-generierte Steuerantwort verlassen — auch auf unsere — wenden Sie drei Prüfungen an:

EbeneFrageWie Versagen aussieht
QuelleKönnen Sie die Antwort auf eine spezifische Rechtsvorschrift zurückführen?„Der Satz beträgt 25 %” ohne Artikelreferenz
PräzisionBerücksichtigt die Antwort alle relevanten Bedingungen?Ein Satz angegeben, wenn drei je nach Fondsmerkmalen gelten
VollständigkeitHat das Tool alle relevanten Steuerbereiche geprüft?Zwei Domänen behandelt, wenn fünf zutreffen

Wenn eine Ebene versagt, betreiben Sie keine Recherche — Sie spielen mit dem Geld Ihres Mandanten und Ihrer beruflichen Reputation.


Verwandte Artikel


Wie Auryth TX das umsetzt

Auryth TX wurde speziell für belgische Steuerexperten entwickelt, die verifizierbare Antworten brauchen, keine selbstsicheren Vermutungen. Jede Antwort enthält:

Das Ziel ist nicht, Ihr Urteil zu ersetzen. Es ist, Ihnen das vollständige Bild zu geben — mit Quellen — damit Ihr Urteil die bestmögliche Grundlage hat.

Testen Sie es selbst — stellen Sie Auryth und ChatGPT dieselbe Frage und vergleichen Sie.


Quellen: 1. Dahl, M. et al. (2024). “Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models.” Journal of Legal Analysis, 16(1), 64–93. 2. Magesh, V. et al. (2025). “Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools.” Journal of Empirical Legal Studies. 3. Lewis, P. et al. (2020). “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.” NeurIPS. 4. EY Nederland (2023). “Is ChatGPT uw nieuwe belastingadviseur?