Definitie
Optical Character Recognition (OCR) is de technologie die afbeeldingen met tekst omzet naar machineleesbare tekstdata. Dit omvat gescande documenten, foto’s van tekst, PDF-bestanden en handgeschreven notities. Moderne OCR-systemen gebruiken deep learning (CNN’s, transformers) om karakters, woorden en documentstructuur met hoge nauwkeurigheid te herkennen over meerdere talen en lettertypen. OCR is fundamenteel voor documentdigitalisering en maakt zoeken, bewerken, vertalen en AI-verwerking van voorheen ontoegankelijke tekstcontent mogelijk.
Waarom het belangrijk is
OCR maakt kritieke documentworkflows mogelijk:
- Doorzoekbaarheid — informatie vinden in gescande archieven
- Automatisering — data extraheren uit facturen, formulieren, bonnen
- Toegankelijkheid — documenten screenreader-compatibel maken
- Compliance — records digitaliseren voor regelgevingseisen
- RAG-pipelines — LLM’s in staat stellen documentcontent te verwerken
- Kostenreductie — handmatige data-invoer elimineren
Hoe het werkt
┌────────────────────────────────────────────────────────────┐
│ OCR │
├────────────────────────────────────────────────────────────┤
│ │
│ WAT OCR DOET: │
│ ───────────── │
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ INPUT OUTPUT │ │
│ │ │ │
│ │ ┌─────────────────┐ ┌─────────────────┐ │ │
│ │ │ │ │ │ │ │
│ │ │ ▓▓▓▓▓▓▓▓▓▓▓▓ │ │ "Factuur #1234" │ │ │
│ │ │ ▓ Factuur ▓ │ OCR │ │ │ │
│ │ │ ▓ #1234 ▓ │ ───► │ "Datum: 2024-01"│ │ │
│ │ │ ▓▓▓▓▓▓▓▓▓▓▓▓ │ │ │ │ │
│ │ │ Datum: 2024-01 │ │ "Totaal: €500" │ │ │
│ │ │ Totaal: €500 │ │ │ │ │
│ │ │ │ │ (bewerkbaar, │ │ │
│ │ │ (afbeelding) │ │ doorzoekbaar) │ │ │
│ │ └─────────────────┘ └─────────────────┘ │ │
│ │ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ │
│ OCR PIPELINE: │
│ ───────────── │
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 1. BEELDVOORBEWERKING │ │
│ │ ┌─────────────────────────────────────────────┐ │ │
│ │ │ │ │ │
│ │ │ • Rechtzetten (scheve afbeeldingen) │ │ │
│ │ │ • Binarisatie (zwart/wit conversie) │ │ │
│ │ │ • Ruisverwijdering (artefacten opschonen) │ │ │
│ │ │ • Contrastverbetering │ │ │
│ │ │ │ │ │
│ │ └─────────────────────────────────────────────┘ │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ 2. LAY-OUTANALYSE │ │
│ │ ┌─────────────────────────────────────────────┐ │ │
│ │ │ │ │ │
│ │ │ Identificeert: tekstblokken, kolommen, │ │ │
│ │ │ tabellen, figuren, leesvolgorde │ │ │
│ │ │ │ │ │
│ │ └─────────────────────────────────────────────┘ │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ 3. TEKSTLIJNDETECTIE │ │
│ │ ┌─────────────────────────────────────────────┐ │ │
│ │ │ │ │ │
│ │ │ Segmenteert tekst in individuele lijnen │ │ │
│ │ │ │ │ │
│ │ └─────────────────────────────────────────────┘ │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ 4. KARAKTERHERKENNING │ │
│ │ ┌─────────────────────────────────────────────┐ │ │
│ │ │ │ │ │
│ │ │ CNN/Transformer verwerkt elk karaktergebied│ │ │
│ │ │ │ │ │
│ │ │ Output: ['H','a','l','l','o'] │ │ │
│ │ │ Betrouwbaarheid: [0.99, 0.97, 0.98, ...] │ │ │
│ │ │ │ │ │
│ │ └─────────────────────────────────────────────┘ │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ 5. NABEWERKING │ │
│ │ ┌─────────────────────────────────────────────┐ │ │
│ │ │ │ │ │
│ │ │ • Woordenboek/taalmodelcorrectie │ │ │
│ │ │ "Hal1o" → "Hallo" (1 lijkt op l) │ │ │
│ │ │ │ │ │
│ │ │ • Contextbewuste spellingscorrectie │ │ │
│ │ │ │ │ │
│ │ │ • Formaatbehoud │ │ │
│ │ │ Alinea's, tabellen, lijsten behouden │ │ │
│ │ │ │ │ │
│ │ └─────────────────────────────────────────────┘ │ │
│ │ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ │
│ OCR TECHNOLOGIEËN: │
│ ────────────────── │
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ Tesseract (Open Source) │ │
│ │ ├─ Door Google onderhouden, LSTM-gebaseerd │ │
│ │ ├─ 100+ talen │ │
│ │ └─ Best voor: gedrukte tekst, batchverwerking │ │
│ │ │ │
│ │ Google Cloud Vision / Document AI │ │
│ │ ├─ Hoge nauwkeurigheid, formulierextractie │ │
│ │ └─ Best voor: complexe documenten, formulieren │ │
│ │ │ │
│ │ AWS Textract │ │
│ │ ├─ Formulieren, tabellen, key-value extractie │ │
│ │ └─ Best voor: AWS-ecosysteem, facturen │ │
│ │ │ │
│ │ PaddleOCR (Open Source) │ │
│ │ ├─ Excellente CJK-taalondersteuning │ │
│ │ └─ Best voor: Aziatische talen, edge deployment │ │
│ │ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ │
│ OCR VOOR RAG PIPELINES: │
│ ─────────────────────── │
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ PDF/Scan ──► OCR ──► Tekst ──► Chunking ──► Embed │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ Vectordatabase │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ Gebruikersvraag ────────────► RAG Retrieval │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ LLM Antwoord │ │
│ │ │ │
│ │ Zonder OCR zijn gescande documenten onzichtbaar │ │
│ │ voor semantisch zoeken en LLM's │ │
│ │ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
└────────────────────────────────────────────────────────────┘
Veelgestelde vragen
V: Hoe nauwkeurig is moderne OCR?
A: Voor schone, getypte documenten: 99%+ karakternauwkeurigheid. Voor handschrift, gedegradeerde scans of ongebruikelijke lettertypen: 85-95%. Nabewerking en domeinspecifieke training verbeteren resultaten.
V: Wat is het verschil tussen OCR en document-AI?
A: OCR extraheert ruwe tekst. Document-AI voegt begrip toe—entiteitsextractie, tabelparsing, formulierveldmapping. Document-AI-systemen bevatten OCR als één component.
V: Kan OCR handschrift aan?
A: Moderne deep learning OCR verwerkt gedrukt handschrift redelijk goed (80-90%). Aan-elkaar-geschreven of doktershandschrift blijft uitdagend.
Gerelateerde termen
- Documentverwerking — bredere documentworkflow
- RAG — gebruikt OCR-output voor retrieval
- Computer vision — onderliggende technologie
Referenties
Smith (2007), “An Overview of the Tesseract OCR Engine”, ICDAR. [Fundamentele Tesseract-architectuur]
Li et al. (2022), “PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System”, arXiv. [PaddleOCR verbeteringen]
Google Cloud (2024), “Document AI”, Google. [Enterprise documentverwerking]
AWS (2024), “Amazon Textract”, Amazon. [Formulier- en tabelextractieservice]
References
Smith (2007), “An Overview of the Tesseract OCR Engine”, ICDAR. [Foundational Tesseract architecture]
Li et al. (2022), “PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System”, arXiv. [PaddleOCR advances]
Google Cloud (2024), “Document AI”, Google. [Enterprise document processing]
AWS (2024), “Amazon Textract”, Amazon. [Form and table extraction service]