Strategie & Entscheidung 19. Dezember 2025

Ich vertraue KI nicht bei Steuerberatung – und Sie haben recht. Warum Sie es trotzdem versuchen sollten.

KI-Skepsis im Steuerbereich ist rational. Die meisten Tools verdienen sie. Aber die gesamte Kategorie abzulehnen, weil ChatGPT einen Steuersatz halluziniert hat, ist wie Taschenrechner zu verweigern, weil die ersten Modelle klemmten.

KI-Adoption professionelle Praxis Vertrauen Steuertechnologie Veränderungsmanagement

Von Auryth Team

Sie haben ChatGPT für eine belgische Steuerfrage ausprobiert. Es gab Ihnen eine selbstsichere Antwort mit dem falschen Satz, dem falschen Artikel oder einem Zitat, das nicht existiert. Sie haben den Tab geschlossen, Ihren Kollegen gesagt, dass es nutzlos ist, und sind zu Fisconetplus zurückgekehrt.

Das war die richtige Entscheidung. Für dieses Tool.

Aber irgendwo zwischen „ChatGPT ist unzuverlässig” und „KI kann keine Steuerarbeit leisten” ist ein logischer Sprung passiert, der Sie jetzt mehr kostet, als Sie ahnen.

Der ChatGPT-Kater

In jeder Steuerkanzlei in Belgien spielt sich gerade ein Muster ab. Ein Partner oder Senior Associate testet ChatGPT bei einer echten Frage — vielleicht der TOB-Satz für thesaurierende Fonds, vielleicht die Erbschaftssteuersätze für Brüssel. Die Antwort kommt selbstsicher zurück, gut formuliert und auf eine Weise falsch, die echten Schaden angerichtet hätte, wenn sie einen Kunden erreicht hätte.

Der Fachmann zieht die naheliegende Schlussfolgerung: KI kann keine Steuerarbeit bewältigen. Und aus dieser einzelnen Erfahrung wird eine ganze Technologiekategorie abgelehnt.

Die Daten bestätigen, dass dies weit verbreitet ist. Die KI-Akzeptanz unter Steuer- und Buchhaltungsfachleuten hat sich zwischen 2024 und 2025 von 9% auf 41% vervierfacht, so der Wolters Kluwer Future Ready Accountant Report. Aber das bedeutet, dass 59% immer noch überhaupt keine KI-Tools verwenden — und die Haupthindernisse sind nicht Kosten oder Zugang. Es sind Vertrauen und frühere schlechte Erfahrungen.

Die Ironie ist, dass die Skeptiker diejenigen sind, die das Problem am besten verstehen. Sie wissen, dass Steuerarbeit zeitliche Präzision, jurisdiktionelles Bewusstsein und Quellenverifizierung erfordert. Sie wissen, dass ein falscher Satz in einer Steuererklärung keine kleine Unannehmlichkeit ist — es ist ein Berufshaftungsproblem. Ihre Standards sind genau richtig. Ihre Schlussfolgerung ist nur zufällig falsch.

Was Sie tatsächlich abgelehnt haben

Als Sie „KI für Steuern” ablehnten, haben Sie eine bestimmte Architektur abgelehnt: ein Allzweck-Sprachmodell ohne Zugang zu aktuellem Recht, ohne Konzept belgischer Jurisdiktionen und ohne Möglichkeit, seine eigene Ausgabe zu verifizieren.

Das ist nicht das, was zweckgebundene Rechts-KI tut.

Die Unterscheidung ist wichtig, genauso wie sie 2004 wichtig war, als John D. Lee und Katrina See ihre grundlegende Forschung über Vertrauen in Automation veröffentlichten. Sie identifizierten drei Faktoren, die bestimmen, ob Fachleute einem Tool vertrauen: Performance (funktioniert es zuverlässig?), Prozess (kann ich verstehen, wie es funktioniert?) und Zweck (wurde es für meinen Anwendungsfall gebaut?).

ChatGPT versagt bei allen dreien für Steuerarbeit. Es halluziniert Quellen, sein Reasoning ist undurchsichtig, und es wurde gebaut, um zu chatten — nicht um durch Art. 344 §1 WIB 92 durch drei Ebenen von Ausnahmen zu navigieren.

Aber das Framework von Lee und See beschreibt auch, was nach einer Fehlfunktion passiert: Vertrauen sinkt und erholt sich — wenn das System zuverlässige Performance über nachfolgende Interaktionen demonstriert. Das Problem mit dem ChatGPT-Kater ist, dass es keine nachfolgenden Interaktionen gibt. Fachleute haben ein Tool ausprobiert, eine kategorieweite Schlussfolgerung gezogen und aufgehört zu experimentieren.

Der Taschenrechner-Präzedenzfall

Dies ist nicht das erste Mal, dass ein Berufsstand ein Tool ablehnte, das schließlich unverzichtbar werden würde.

In den 1970er Jahren sagte das UK Inland Revenue dem Personal ausdrücklich, dass „unter keinen Umständen Taschenrechner bei der Durchführung von Steuerberechnungen verwendet werden durften.” Von Buchhaltern wurde erwartet, die Mathematik von Hand zu erledigen. Im Laufe des Jahrzehnts erhielten neue Mitarbeiter bei CPA-Firmen einen Schreibtisch, einen Stuhl und eine Addiermaschine — wobei Arbeitgeber höchstens $50 zu einem Taschenrechner beitrugen, wenn der Mitarbeiter einen wollte.

In den 1980er Jahren transformierte Technologie die Buchhaltung, obwohl, wie ein Historiker bemerkte, „es irreführend wäre zu sagen, dass sie mit Begeisterung angenommen wurde” — das Niveau der technologischen Expertise unter Buchhaltungsfirmen war noch 1989 „in einem gotterbärmlichen Zustand.”

Niemand überprüft mehr die Mathematik des Taschenrechners. Nicht weil Taschenrechner blindes Vertrauen erworben haben, sondern weil sie angemessenes Vertrauen durch konsistente, verifizierbare Performance bei Aufgaben erworben haben, die klar innerhalb ihrer Fähigkeit lagen.

Die Frage für KI im Steuerbereich ist nicht, ob Sie ihr blind vertrauen sollten. Natürlich sollten Sie das nicht. Die Frage ist, ob Sie getestet haben, ob das richtige Tool, auf die richtigen Aufgaben angewendet, verifizierbare Ergebnisse produziert, die Ihnen Zeit sparen.

Das Vertrauensspektrum, das Sie ignorieren

Lee und Sees Forschung beschreibt drei Positionen auf einem Vertrauensspektrum:

Über-Vertrauen: KI-Ausgabe ohne Verifizierung akzeptieren. Das passiert, wenn jemand ChatGPTs Antwort in ein Kunden-Memo kopiert, ohne die Quellen zu überprüfen. Gefährlich — und genau das, was Skeptiker befürchten.
Unter-Vertrauen: KI-Tools vollständig ablehnen basierend auf einer einzigen schlechten Erfahrung. Das ist der ChatGPT-Kater. Kurzfristig sicher, langfristig kostspielig.
Angemessenes Vertrauen: KI für das nutzen, wofür sie gebaut wurde, an den Grenzen verifizieren und professionelles Urteilsvermögen bei den Schlussfolgerungen bewahren.

Der größte Teil der Konversation über KI in professionellen Dienstleistungen ist zwischen den ersten beiden Positionen festgefahren. Die Firmen, die besser abschneiden werden, sind diejenigen, die die dritte finden.

Das Vertrauensspektrum: von Über-Vertrauen über angemessenes Vertrauen zu Unter-Vertrauen

Wie angemessenes Vertrauen in der Praxis aussieht

Angemessenes Vertrauen bedeutet nicht, der KI zu glauben. Es bedeutet, die Quellen zu verifizieren, die sie Ihnen zeigt.

Wenn ein zweckgebundenes Steuerrecherche-Tool eine Antwort zurückgibt, zeigt es Ihnen, welche Rechtsvorschriften es abgerufen hat, welche Version des Gesetzes es angewendet hat und aus welcher Jurisdiktion es gezogen hat. Sie müssen der Interpretation der KI nicht vertrauen — Sie lesen die tatsächlichen Quellen, genauso wie Sie die Ergebnisse einer Fisconetplus-Suche lesen würden.

Der Unterschied ist Umfang und Geschwindigkeit. Eine manuelle Fisconetplus-Suche zu einer ETF-Konversion könnte die TOB-Implikationen aufdecken und den Art. 19bis-Winkel, die Quellensteuerbehandlung und die Meldepflichten übersehen. Nicht weil Sie nachlässig sind, sondern weil domänenübergreifendes Retrieval erfordert zu wissen, welche Domänen zu durchsuchen sind — und niemand durchsucht fünf Datenbanken, wenn er denkt, die Antwort in der ersten gefunden zu haben.

Zweckgebundene Tools mit Domänen-Taxonomie führen diese Traversierung systematisch durch. Sie kennzeichnen, welche Domänen abgedeckt wurden und welche nicht. Sie treffen immer noch die professionelle Beurteilung. Sie treffen sie nur mit breiterer Abdeckung, als manuelle Recherche typischerweise erreicht.

Die wettbewerbliche Mathematik

Hier hört Skepsis auf, schützend zu sein, und beginnt teuer zu werden.

Thomson Reuters berichtet, dass Organisationen mit strategischer KI-Adoption 2x wahrscheinlicher Umsatzwachstum sehen und 3,5x wahrscheinlicher kritische operative Vorteile erfahren. Unter Steuer- und Buchhaltungsfirmen berichteten 83% derjenigen, die KI verwenden, von gestiegenem Umsatz in 2025, gegenüber 72% im Vorjahr.

Eine Firma, die KI-Steuererstellungs-Tools verwendet, berichtete von 90% weniger Compliance-Fehlern im Jahresvergleich und erstellte 55% mehr Erklärungen pro Ersteller bei ähnlicher Personalausstattung.

Das sind keine hypothetischen Projektionen. Das sind gemessene Ergebnisse von Firmen, die den ChatGPT-Kater überwunden und Tools gefunden haben, die für ihre tatsächliche Arbeit gebaut wurden.

Die Wettbewerbslücke ist noch nicht dramatisch. Es sind ein paar Stunden hier, eine verpasste Vorschrift dort. Aber es kumuliert. Die Firmen, die KI-gestützte Recherche durchführen, sind nicht nur schneller — sie finden Vorschriften, die manuelle Recherche systematisch übersieht. Jede domänenübergreifende Frage, bei der KI drei zusätzliche relevante Steuerdomänen aufdeckt, ist eine Frage, bei der die Nicht-KI-Firma engere Beratung geliefert hat, ohne es zu wissen.

Und 76% der Buchhaltungsabsolventen sagen, dass sie eher Firmen beitreten, die aktiv KI verwenden. Die Talentpipeline preist die Technologielücke bereits ein.

Der pragmatische Pfad

Sie müssen Ihre Meinung über KI nicht ändern. Sie müssen ein Tool bei zwanzig Fragen testen und die Ergebnisse selbst überprüfen.

Nicht ChatGPT. Kein Allzweck-Assistent. Ein Tool, das für belgisches Steuerrecht gebaut wurde, mit Quellenzitaten, temporaler Versionierung und jurisdiktionellem Tagging.

Stellen Sie ihm die Fragen, deren Antworten Sie bereits kennen. Überprüfen Sie jede Quelle, die es zitiert. Verifizieren Sie jede Artikelnummer. Zählen Sie, wie oft es richtig liegt, wie oft es falsch liegt und wie oft es eine Vorschrift aufdeckt, die Sie nicht in Betracht gezogen hatten.

Wenn es Ihren Test nicht besteht, haben Sie eine Stunde verloren. Wenn es besteht, haben Sie einen Recherche-Beschleuniger gefunden, der Ihre Expertise gründlicher macht, nicht weniger relevant.

Die Fachleute, die zuerst adoptieren, ersetzen nicht ihr Urteilsvermögen. Sie erweitern ihre Reichweite. Und die Lücke zwischen Firmen, die über fünf Steuerdomänen recherchieren, und Firmen, die über zwei recherchieren, wird von hier an nur wachsen.

Wie Auryth TX das Vertrauensproblem adressiert

Auryth TX wurde von Steuerfachleuten gebaut, die jede Sorge in diesem Artikel teilen. Wir haben keinen Chatbot gebaut und Steuerdaten hinzugefügt. Wir haben ein Recherche-Tool gebaut und KI hinzugefügt.

Jede Antwort zeigt die Rechtsvorschriften, die sie abgerufen hat, die Version des Gesetzes, die sie angewendet hat, und die Jurisdiktion, aus der sie gezogen hat. Confidence-Scoring sagt Ihnen, wie viel des relevanten Corpus abgedeckt wurde — nicht nur, ob das Modell sich sicher fühlt. Wenn das System nicht sicher ist, sagt es das.

Sie müssen der KI nicht vertrauen. Sie verifizieren die Quellen, die sie Ihnen zeigt — genauso wie Sie jedes Recherche-Tool verifizieren. Der Unterschied ist, dass dieses fünf Steuerdomänen durchsucht, wenn Sie normalerweise zwei durchsuchen würden.

Die Skeptiker hatten recht, skeptisch zu sein. Wir haben für sie gebaut.

Testen Sie es mit Ihren schwierigsten Fragen — treten Sie der Warteliste bei →

Quellen: 1. Wolters Kluwer, Future Ready Accountant Report (2025). KI-Adoption unter Steuerfachleuten 9% → 41%. 2. Lee, J.D. & See, K.A. (2004). „Trust in Automation: Designing for Appropriate Reliance.” Human Factors, 46(1), 50-80. 3. Thomson Reuters, Future of Professionals Report (2025). Strategische KI-Adoption und Umsatzkorrelation. 4. Bridgewater State University, „How Technology Has Changed the Field of Accounting” — 1970er Taschenrechner-Widerstands-Daten. 5. ITAA — Belgian Institute for Tax Advisors and Accountants. 16.000+ Mitglieder, obligatorische Berufshaftpflichtversicherung.