OCR — Glossar | Auryth TX AI

Definition

Optische Zeichenerkennung (OCR) ist die Technologie, die Bilder mit Text in maschinenlesbare Textdaten umwandelt. Dies umfasst gescannte Dokumente, Textfotos, PDF-Dateien und handschriftliche Notizen. Moderne OCR-Systeme nutzen Deep Learning (CNNs, Transformer), um Zeichen, Wörter und Dokumentstruktur mit hoher Genauigkeit über mehrere Sprachen und Schriftarten zu erkennen. OCR ist grundlegend für die Dokumentdigitalisierung und ermöglicht Suche, Bearbeitung, Übersetzung und KI-Verarbeitung von zuvor unzugänglichem Textinhalt.

Warum es wichtig ist

OCR ermöglicht kritische Dokumenten-Workflows:

Durchsuchbarkeit — Informationen in gescannten Archiven finden
Automatisierung — Daten aus Rechnungen, Formularen, Belegen extrahieren
Barrierefreiheit — Dokumente Screen-Reader-kompatibel machen
Compliance — Aufzeichnungen für regulatorische Anforderungen digitalisieren
RAG-Pipelines — LLMs die Verarbeitung von Dokumentinhalt ermöglichen
Kostenreduktion — manuelle Dateneingabe eliminieren

Wie es funktioniert

┌────────────────────────────────────────────────────────────┐
│                          OCR                                │
├────────────────────────────────────────────────────────────┤
│                                                            │
│  WAS OCR MACHT:                                            │
│  ──────────────                                            │
│                                                            │
│  ┌─────────────────────────────────────────────────────┐ │
│  │                                                      │ │
│  │      EINGABE                           AUSGABE      │ │
│  │                                                      │ │
│  │  ┌─────────────────┐         ┌─────────────────┐   │ │
│  │  │                 │         │                 │   │ │
│  │  │  ▓▓▓▓▓▓▓▓▓▓▓▓  │         │ "Rechnung #1234"│   │ │
│  │  │  ▓ Rechnung   ▓  │   OCR  │                 │   │ │
│  │  │  ▓ #1234      ▓  │  ───►  │ "Datum: 2024-01"│   │ │
│  │  │  ▓▓▓▓▓▓▓▓▓▓▓▓  │         │                 │   │ │
│  │  │  Datum: 2024-01 │         │ "Summe: 500€"   │   │ │
│  │  │  Summe: 500€    │         │                 │   │ │
│  │  │                 │         │  (bearbeitbar,  │   │ │
│  │  │  (Bild-Pixel)   │         │   durchsuchbar) │   │ │
│  │  └─────────────────┘         └─────────────────┘   │ │
│  │                                                      │ │
│  └─────────────────────────────────────────────────────┘ │
│                                                            │
│                                                            │
│  OCR-PIPELINE:                                             │
│  ─────────────                                             │
│                                                            │
│  ┌─────────────────────────────────────────────────────┐ │
│  │                                                      │ │
│  │  1. BILDVORVERARBEITUNG                             │ │
│  │  ┌─────────────────────────────────────────────┐   │ │
│  │  │                                              │   │ │
│  │  │  • Entzerren (gedrehte Bilder begradigen)   │   │ │
│  │  │  • Binarisierung (Schwarz/Weiß-Konvertierung)│  │ │
│  │  │  • Rauschentfernung (Artefakte bereinigen)  │   │ │
│  │  │  • Kontrastverbesserung                     │   │ │
│  │  │                                              │   │ │
│  │  └─────────────────────────────────────────────┘   │ │
│  │                         │                           │ │
│  │                         ▼                           │ │
│  │  2. LAYOUT-ANALYSE                                  │ │
│  │  ┌─────────────────────────────────────────────┐   │ │
│  │  │                                              │   │ │
│  │  │  Identifiziert: Textblöcke, Spalten,        │   │ │
│  │  │  Tabellen, Abbildungen, Lesereihenfolge     │   │ │
│  │  │                                              │   │ │
│  │  └─────────────────────────────────────────────┘   │ │
│  │                         │                           │ │
│  │                         ▼                           │ │
│  │  3. TEXTZEILEN-ERKENNUNG                            │ │
│  │  ┌─────────────────────────────────────────────┐   │ │
│  │  │                                              │   │ │
│  │  │  Segmentiert Text in einzelne Zeilen        │   │ │
│  │  │                                              │   │ │
│  │  └─────────────────────────────────────────────┘   │ │
│  │                         │                           │ │
│  │                         ▼                           │ │
│  │  4. ZEICHENERKENNUNG                                │ │
│  │  ┌─────────────────────────────────────────────┐   │ │
│  │  │                                              │   │ │
│  │  │  CNN/Transformer verarbeitet jede Zeichen-  │   │ │
│  │  │  region                                      │   │ │
│  │  │                                              │   │ │
│  │  │  Ausgabe: ['H','a','l','l','o']             │   │ │
│  │  │  Konfidenz: [0.99, 0.97, 0.98, ...]         │   │ │
│  │  │                                              │   │ │
│  │  └─────────────────────────────────────────────┘   │ │
│  │                         │                           │ │
│  │                         ▼                           │ │
│  │  5. NACHBEARBEITUNG                                 │ │
│  │  ┌─────────────────────────────────────────────┐   │ │
│  │  │                                              │   │ │
│  │  │  • Wörterbuch/Sprachmodell-Korrektur       │   │ │
│  │  │    "Hal1o" → "Hallo" (1 sieht wie l aus)   │   │ │
│  │  │                                              │   │ │
│  │  │  • Kontextbewusste Rechtschreibkorrektur   │   │ │
│  │  │                                              │   │ │
│  │  │  • Formaterhaltung                          │   │ │
│  │  │    Absätze, Tabellen, Listen beibehalten   │   │ │
│  │  │                                              │   │ │
│  │  └─────────────────────────────────────────────┘   │ │
│  │                                                      │ │
│  └─────────────────────────────────────────────────────┘ │
│                                                            │
│                                                            │
│  OCR-TECHNOLOGIEN:                                         │
│  ─────────────────                                         │
│                                                            │
│  ┌─────────────────────────────────────────────────────┐ │
│  │                                                      │ │
│  │  Tesseract (Open Source)                            │ │
│  │  ├─ Von Google gepflegt, LSTM-basiert              │ │
│  │  ├─ 100+ Sprachen                                  │ │
│  │  └─ Am besten für: gedruckten Text, Batch          │ │
│  │                                                      │ │
│  │  Google Cloud Vision / Document AI                  │ │
│  │  ├─ Hohe Genauigkeit, Formularextraktion          │ │
│  │  └─ Am besten für: komplexe Dokumente             │ │
│  │                                                      │ │
│  │  AWS Textract                                       │ │
│  │  ├─ Formulare, Tabellen, Schlüssel-Wert-Extraktion│ │
│  │  └─ Am besten für: AWS-Ökosystem, Rechnungen      │ │
│  │                                                      │ │
│  │  PaddleOCR (Open Source)                            │ │
│  │  ├─ Exzellente CJK-Sprachunterstützung            │ │
│  │  └─ Am besten für: asiatische Sprachen, Edge      │ │
│  │                                                      │ │
│  └─────────────────────────────────────────────────────┘ │
│                                                            │
└────────────────────────────────────────────────────────────┘

Häufige Fragen

F: Wie genau ist modernes OCR?

A: Für saubere, getippte Dokumente: 99%+ Zeichengenauigkeit. Für Handschrift, degradierte Scans oder ungewöhnliche Schriften: 85-95%. Nachbearbeitung und domänenspezifisches Training verbessern Ergebnisse.

F: Was ist der Unterschied zwischen OCR und Document-AI?

A: OCR extrahiert rohen Text. Document-AI fügt Verständnis hinzu—Entitätsextraktion, Tabellen-Parsing, Formularfeld-Mapping. Document-AI-Systeme enthalten OCR als eine Komponente.

F: Kann OCR Handschrift verarbeiten?

A: Modernes Deep-Learning-OCR verarbeitet gedruckte Handschrift recht gut (80-90%). Schreibschrift oder Arzthandschrift bleibt herausfordernd.

Referenzen

Smith (2007), “An Overview of the Tesseract OCR Engine”, ICDAR. [Grundlegende Tesseract-Architektur]

Li et al. (2022), “PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System”, arXiv. [PaddleOCR-Verbesserungen]

Google Cloud (2024), “Document AI”, Google. [Enterprise-Dokumentverarbeitung]

AWS (2024), “Amazon Textract”, Amazon. [Formular- und Tabellenextraktionsdienst]

References

Smith (2007), “An Overview of the Tesseract OCR Engine”, ICDAR. [Foundational Tesseract architecture]

Li et al. (2022), “PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System”, arXiv. [PaddleOCR advances]

Google Cloud (2024), “Document AI”, Google. [Enterprise document processing]

AWS (2024), “Amazon Textract”, Amazon. [Form and table extraction service]