Human-in-the-loop-Validierung — Glossar

Definition

Human-in-the-loop-Validierung (HITL) ist die Praxis, menschliche Expertenprüfung in den Workflow des KI-Systems einzubinden — entweder als obligatorischer Freigabeschritt, bevor Ausgaben finalisiert werden, oder als stichprobenbasierter Qualitätssicherungsprozess. Anstatt KI-Ausgaben blind zu vertrauen, stellt HITL sicher, dass ein qualifizierter Fachmann die Ausgaben des Systems prüft, korrigiert oder genehmigt, insbesondere in risikoreichen Szenarien, in denen Fehler erhebliche Konsequenzen haben. In der juristischen KI spiegelt HITL die professionelle Realität wider, dass Steuerberatung letztlich menschliches Urteilsvermögen und menschliche Verantwortlichkeit erfordert.

Warum das wichtig ist

Fehlererkennung — KI-Systeme halluzinieren, interpretieren Anfragen falsch und übersehen Nuancen, die ein Fachexperte erkennen würde; HITL bietet ein Sicherheitsnetz, das verhindert, dass fehlerhafte Ausgaben ungeprüft bei den Endnutzern ankommen
Professionelle Verantwortlichkeit — in regulierten Berufen wie der Steuerberatung ist ein menschlicher Fachmann letztlich für die erteilte Beratung verantwortlich; HITL bewahrt diese Verantwortungskette, anstatt sie an ein KI-System zu delegieren
Kontinuierliche Verbesserung — menschliche Korrekturen erzeugen gelabelte Daten, die zur Verbesserung des Systems verwendet werden können: Schließen von Retrieval-Lücken, Verfeinern von Prompts und Aktualisieren von Evaluierungsdatensätzen
Regulatorische Übereinstimmung — der EU AI Act betont die menschliche Aufsicht bei Hochrisiko-KI-Systemen; HITL-Validierung bietet einen konkreten Mechanismus für diese Aufsicht

So funktioniert es

HITL-Validierung operiert auf verschiedenen Ebenen, abhängig von Risiko und Praktikabilität:

Obligatorische Prüfung — jede KI-Ausgabe wird vor der Zustellung von einem menschlichen Experten geprüft. Dies ist angemessen für risikoreiche Szenarien (verbindliche Steuergutachten, kundengerichtete Beratung), skaliert aber nicht für hochvolumige Anfragen mit geringem Risiko. Der Prüfer kontrolliert die sachliche Richtigkeit, die Korrektheit der Quellen und die Vollständigkeit.

Stichprobenbasierte Prüfung — eine zufällige Stichprobe von KI-Ausgaben wird periodisch geprüft (z. B. 10 % der täglichen Anfragen). Dies bietet statistische Qualitätsüberwachung, ohne dass jede Ausgabe geprüft werden muss. Muster in erkannten Fehlern fließen in Systemverbesserungen ein.

Konfidenzgesteuerte Prüfung — Ausgaben unterhalb eines Konfidenzschwellenwerts werden automatisch an einen menschlichen Prüfer weitergeleitet, während Ausgaben mit hoher Konfidenz direkt zugestellt werden. Dies konzentriert den menschlichen Aufwand auf die Fälle, die am wahrscheinlichsten Fehler enthalten.

Feedback-Integration — wenn Prüfer eine KI-Ausgabe korrigieren, wird die Korrektur als Trainingssignal erfasst: Die ursprüngliche Anfrage, die fehlerhafte Ausgabe und die korrigierte Version bilden einen Datenpunkt, der zur Verbesserung des Retrievals, zur Verfeinerung von Prompts oder zur Erweiterung des Evaluierungsdatensatzes verwendet werden kann.

Effektive HITL erfordert klare Workflows: was der Prüfer sieht (die KI-Ausgabe, die zitierten Quellen, den Konfidenzwert), was er prüfen soll (Genauigkeit, Vollständigkeit, korrekte Quellenangabe), wie er seine Bewertung festhält (genehmigen, korrigieren, ablehnen) und wie sein Feedback in die Systemverbesserung einfließt.

Die zentrale Spannung bei HITL besteht zwischen Gründlichkeit und Effizienz. Die Prüfung jeder Ausgabe sichert die Qualität, eliminiert aber den Zeitvorteil der KI. Risikobasierte Ansätze, die die menschliche Prüfung auf unsichere oder risikoreiche Ausgaben konzentrieren, balancieren Qualitätssicherung mit praktischer Effizienz.

Häufige Fragen

F: Bedeutet HITL, dass der KI nicht vertraut wird?

A: Nicht ganz. HITL bedeutet, dass der KI proportional zu ihrer nachgewiesenen Zuverlässigkeit vertraut wird. Wenn das System sich über die Zeit bewährt (konstant hohe Qualität bei geprüften Ausgaben), kann der Umfang der obligatorischen Prüfung reduziert werden. Vertrauen wird durch Evidenz aufgebaut, und HITL liefert diese Evidenz.

F: Wie stark verlangsamt HITL den Workflow?

A: Bei konfidenzgesteuerter Prüfung werden die meisten Ausgaben (mit hoher Konfidenz) sofort zugestellt. Nur unsichere Ausgaben warten auf die Prüfung. Die Gesamtverzögerung hängt vom Anteil unsicherer Ausgaben und der Reaktionszeit des Prüfers ab.

References

Andreas Holzinger (2016), “Interactive machine learning for health informatics: when do we need the human-in-the-loop?”, Brain Informatics.

Eduardo Mosqueira-Rey et al. (2022), “Human-in-the-loop machine learning: a state of the art”, Artificial Intelligence Review.

A. Gilad Kusne et al. (2020), “On-the-fly closed-loop materials discovery via Bayesian active learning”, Nature Communications.