Definition
Confidence Scoring ist die Praxis, jeder Vorhersage, Antwort oder jedem Retrieval-Ergebnis einen numerischen Indikator zuzuweisen, der angibt, wie wahrscheinlich es korrekt ist. Ein gut kalibrierter Confidence Score ermöglicht es nachgelagerten Systemen und menschlichen Nutzern, Schwellenwerte zu setzen — Ergebnisse mit hoher Konfidenz automatisch zu akzeptieren und solche mit niedriger Konfidenz zur manuellen Überprüfung zu markieren. In der Legal- und Steuer-KI, wo fehlerhafte Antworten erhebliche Konsequenzen haben können, ist Confidence Scoring ein kritischer Sicherheitsmechanismus.
Warum es wichtig ist
- Risikomanagement — Antworten mit niedriger Konfidenz können an menschliche Experten eskaliert werden, anstatt direkt ausgegeben zu werden, was das Risiko verringert, dass Fehler die Endnutzer erreichen
- Transparenz — die Anzeige von Konfidenzstufen neben den Antworten hilft Fachleuten einzuschätzen, wie sehr sie sich auf die KI-Ausgabe verlassen können
- Regulatorische Konformität — die EU-KI-Verordnung erwartet von Hochrisikosystemen, dass sie Unsicherheit kommunizieren; Confidence Scores sind ein natürlicher Mechanismus dafür
- Effizienz — durch die Automatisierung von Antworten mit hoher Konfidenz und die Weiterleitung nur unsicherer Fälle an Menschen optimiert Confidence Scoring die Balance zwischen Geschwindigkeit und Genauigkeit
Wie es funktioniert
Confidence Scores können aus mehreren Signalen in der Retrieval- und Generierungspipeline abgeleitet werden:
- Retrieval-Scores — die Ähnlichkeitsdistanz zwischen Abfrage- und Dokument-Embeddings liefert ein rohes Relevanzsignal; Dokumente, die weit von der Abfrage entfernt sind, erhalten niedrige Scores
- Reranker-Scores — Cross-Encoder-Reranker erzeugen kalibrierte Relevanzwerte für Abfrage-Dokument-Paare
- Generierungswahrscheinlichkeiten — Token-Level-Log-Wahrscheinlichkeiten des Sprachmodells zeigen an, wie sicher es sich bei jedem generierten Wort war
- Quellenübereinstimmung — wenn mehrere abgerufene Quellen bei einer Antwort übereinstimmen, ist die Konfidenz höher; widersprüchliche Quellen senken sie
- Konsistenzprüfungen — dieselbe Frage auf verschiedene Weisen zu stellen und die Antworten zu vergleichen (Selbstkonsistenz) liefert ein zusätzliches Konfidenzsignal
Diese Signale können durch gelernte Gewichtung oder regelbasierte Aggregation zu einem einzigen zusammengesetzten Score kombiniert werden. Die Kalibrierung stellt sicher, dass ein Score von 0,9 tatsächlich einer Korrektheit von etwa 90 % der Fälle entspricht.
Häufige Fragen
F: Was macht einen Confidence Score „gut kalibriert”?
A: Ein Score ist gut kalibriert, wenn seine vorhergesagte Wahrscheinlichkeit mit der beobachteten Genauigkeit übereinstimmt. Wenn das System einer Reihe von Antworten 80 % Konfidenz zuweist, sollten etwa 80 % dieser Antworten tatsächlich korrekt sein. Die Kalibrierung wird mittels Reliability-Diagrammen und Metriken wie dem Expected Calibration Error (ECE) gemessen.
F: Kann Confidence Scoring Halluzinationen eliminieren?
A: Nicht vollständig, aber es kann sie erkennen. Halluzinierte Inhalte haben oft niedrigere Retrieval-Scores (keine starke Quellenübereinstimmung) und können bei umformulierten Abfragen Inkonsistenzen aufweisen. Confidence Scoring hilft, diese Signale sichtbar zu machen, damit Nutzer oder automatisierte Systeme potenzielle Fabrikationen erkennen können.
F: Wie unterscheidet sich Confidence Scoring von Relevanz-Ranking?
A: Relevanz-Ranking ordnet Ergebnisse von am relevantesten bis am wenigsten relevant. Confidence Scoring weist einen absoluten Score zu, der die Wahrscheinlichkeit der Korrektheit widerspiegelt. Ein System könnte Ergebnis A über Ergebnis B ranken, aber trotzdem beide als niedrig-konfident kennzeichnen, wenn keines genau zur Abfrage passt.