Woordenlijst

Belangrijke termen in Belgisch fiscaal recht en AI uitgelegd

A

Aanpassing aan het juridische domein

Juridische domeinaanpassing stemt een AI- of zoeksysteem af op juridische taal, bronnen en redenering zodat output preciezer en verdedigbaar wordt.

Adapter

Kleine trainbare modules ingevoegd in bevroren voorgetrainde modellen, voor efficiënte taakspecifieke fine-tuning met minimale parameters.

Adversarial testing

Gericht het model aanvallen met moeilijke of kwaadaardige inputs om zwaktes te vinden.

Alignment

Het proces om AI-systemen te trainen zodat ze handelen in overeenstemming met menselijke waarden, intenties en voorkeuren—het verzekeren dat modellen behulpzaam, onschadelijk en eerlijk zijn.

Antwoord-grounding

Zorgen dat elk belangrijk deel van een antwoord herleidbaar is tot concrete bronnen.

Approximate Nearest Neighbor

Algoritmen die bij benadering gelijksoortige vectoren snel vinden door perfecte nauwkeurigheid in te ruilen voor enorme snelheidsverbeteringen.

Attention-mechanisme

Een neurale netwerktechniek waarmee modellen zich kunnen richten op relevante delen van de invoer bij het produceren van uitvoer.

Attributie

Het AI-vermogen om gegenereerde uitspraken te koppelen aan specifiek bronbewijs, waarbij wordt vastgesteld welke delen van de output door welke documenten worden ondersteund.

B

Backpropagation

Een algoritme dat efficiënt gradiënten berekent door fouten achterwaarts door een neuraal netwerk te propageren, laag voor laag.

Beam Search

Een decoderingsalgoritme dat meerdere kandidaatsequenties parallel verkent en de top-k meest veelbelovende paden bij elke stap behoudt.

Benchmarking

Het systematische proces van het evalueren van modelprestaties tegen gestandaardiseerde datasets en metrieken, wat eerlijke vergelijking tussen verschillende modellen, architecturen en benaderingen mogelijk maakt.

Betrouwbaarheidsinterval

Een waardebereik waarvan men gelooft dat het een grootheid met een gegeven kans bevat.

Betrouwbaarheidsmetriek

Metrieken die vastleggen hoe stabiel, voorspelbaar en veilig een AI-systeem in de tijd is.

Bi-Encoder

Een neurale architectuur die queries en documenten apart encodeert naar vaste vectoren, wat efficiënte similariteitszoekopdrachten mogelijk maakt via voorberekende embeddings en approximate nearest neighbor indexes.

Bias-mitigatie

Bias-mitigatie is het geheel aan methoden om unfair bias in data, modelgedrag en uitkomsten van een AI-systeem te detecteren en te verminderen.

BM25

Best Matching 25 - het state-of-the-art probabilistische ranking-algoritme voor tekstzoeken gebaseerd op TF-IDF-principes.

Byte Pair Encoding (BPE)

Een subwoord-tokenisatie-algoritme dat een vocabulaire opbouwt door veelvoorkomende symboolparen iteratief samen te voegen.

C

Calibratie

Het afstemmen van modelconfidences op de werkelijke kans dat antwoorden kloppen.

Chain-of-Thought

Een prompting techniek die stap-voor-stap redenering ontlokt van taalmodellen, prestaties op complexe taken verbetert door het redeneerproces van het model expliciet en verifieerbaar te maken.

Chunking Strategie

De methode om documenten te verdelen in kleinere segmenten voor effectieve retrieval en verwerking in RAG-systemen.

Citatie

De praktijk van expliciet verwijzen naar brondocumenten in AI-gegenereerde antwoorden, waardoor verificatie van claims mogelijk wordt en vertrouwen wordt opgebouwd door transparantie.

Context injection

Het toevoegen van opgehaalde of extra informatie aan een LLM-prompt om de generatie te sturen.

Context Window

De maximale hoeveelheid tekst (gemeten in tokens) die een taalmodel in één interactie kan verwerken.

Continue evaluatie

Het regelmatig opnieuw draaien van evaluaties in productie om regressies of drift vroeg te zien.

Cosinus-gelijkenis

Een wiskundige maat voor gelijkenis tussen twee vectoren gebaseerd op de cosinus van de hoek ertussen.

Cross-Encoder

Een neurale architectuur die query-document paren gezamenlijk encodeert om relevantiescore te produceren, met hogere nauwkeurigheid dan bi-encoders maar tegen hogere rekenkosten.

D

Deep Learning

Een deelveld van machine learning dat neurale netwerken met veel lagen gebruikt om hiërarchische representaties van data te leren.

Dense Retrieval

Informatieophaling met behulp van aangeleerde dense vectorrepresentaties, voor semantische matching voorbij trefwoordoverlap.

Dimensionality reduction

Technieken om de dimensies van embeddings te verlagen terwijl zoveel mogelijk informatie behouden blijft.

Distance metric

Een wiskundige functie die de afstand of gelijkenis tussen twee embeddings kwantificeert.

Dot-product similarity

Een maat voor gelijkenis tussen vectoren gebaseerd op hun inwendig product.

E

Embedding alignment

Het afstemmen van embeddings uit verschillende modellen of talen zodat ze vergelijkbaar worden.

Embedding compression

Technieken om embeddings kleiner te maken in opslag of bits per vector zonder te veel kwaliteitsverlies.

Embedding drift

Langzame verschuiving in de betekenis of schaal van embeddings door model‑ of datawijzigingen.

Embedding space

De vectorruimte waarin embeddings zich bevinden en waar afstanden semantische relaties benaderen.

Embeddingmodel

Een ML‑model dat tekst of andere data omzet in vector-embeddings.

Embeddings

Dichte vectorrepresentaties van data (tekst, afbeeldingen, etc.) die semantische betekenis vastleggen in een continue numerieke ruimte.

Euclidische afstand

De gewone rechte‑lijn‑afstand tussen twee punten in een vectorruimte.

Evals-framework

Herbruikbare opzet om evaluaties van AI-systemen te definiëren, draaien en opvolgen.

Evaluation dataset

A curated set van voorbeelden met bekende uitkomsten om modelprestaties te meten.

F

FAISS

Facebook AI Similarity Search - de meest uitgebreide open-source library voor efficiënte similarity search en clustering van dense vectoren.

Faithfulness

De vraag of een uitleg of antwoord echt overeenkomt met het onderliggende redeneerproces of bewijs.

Feedforward-netwerk

Een neuraal netwerk waarin informatie alleen voorwaarts stroomt van input naar output, zonder terugkoppellussen.

Feitelijke consistentie

In welke mate een gegenereerd antwoord overeenstemt met betrouwbare bronnen of ground truth.

Feitelijkheid

De mate waarin AI-gegenereerde inhoud nauwkeurig verifieerbare waarheid weerspiegelt, waarbij correcte uitspraken worden onderscheiden van fabricaties en hallucinaties.

Few-Shot Learning

Een machine learning paradigma waarbij modellen taken leren uitvoeren met slechts een handvol voorbeelden, wat snelle aanpassing mogelijk maakt zonder uitgebreide hertraining of fine-tuning.

Fine-Tuning

Het proces van verder trainen van een voorgetraind model op domeinspecifieke data om prestaties voor gespecialiseerde taken te verbeteren.

Foutenanalyse

Systematisch onderzoeken waar en waarom een model faalt om volgende iteraties te verbeteren.

Function calling

Een LLM-mogelijkheid waarbij het model gestructureerde argumenten invult om externe tools of functies aan te roepen.

G

Generatieve laag

Het deel van een RAG-systeem waar het taalmodel op opgehaalde context steunt om een antwoord te genereren.

Gestructureerde outputgeneratie

Het afdwingen dat LLM-antwoorden in goed gedefinieerde formaten zoals JSON, XML of schema's worden teruggegeven.

Gradiëntafdaling

Een optimalisatie-algoritme dat modelparameters iteratief aanpast door te bewegen in de richting die de verliesfunctie vermindert.

Greedy Decodering

Een eenvoudige tekstgeneratiestrategie die altijd het token met de hoogste kans selecteert bij elke stap.

Ground Truth

De gezaghebbende, geverifieerde referentiedata gebruikt om machine learning-modellen te trainen en evalueren—de 'correcte' antwoorden waartegen modelvoorspellingen worden gemeten.

Grounding

De techniek om AI-modeloutputs te verankeren aan verifieerbare bronnen, feiten of opgehaalde documenten om hallucinaties te verminderen en nauwkeurigheid te verhogen.

Guardrails

Veiligheidsmechanismen en beperkingen die AI-systemen ervan weerhouden schadelijke, ongepaste of off-topic outputs te genereren—runtime bescherming die verder gaat dan alignment tijdens training.

H

Hallucinatie

Wanneer een AI-model valse, verzonnen of onondersteunde informatie genereert die als feit wordt gepresenteerd.

Hallucinatiegraad

Het aandeel modeluitvoer dat verzonnen of niet onderbouwd is.

HNSW

Hierarchical Navigable Small World grafen - het state-of-the-art algoritme voor snelle approximate nearest neighbor zoekacties in hoog-dimensionale ruimtes.

Human-in-the-loop-validatie

Inzet van menselijke reviewers om AI-uitvoer te controleren, corrigeren of goed te keuren.

Hybrid indexing

Het combineren van vector‑ en lexicale indexen om zowel semantische als trefwoordmatching te ondersteunen.

Hybrid Search

Een retrieval-aanpak die keyword-gebaseerde en semantische vectorzoekopdrachten combineert om de sterke punten van beide te benutten.

I

In-Context Learning

Het vermogen van grote taalmodellen om nieuwe taken te leren tijdens inferentie door te conditioneren op voorbeelden of instructies in de prompt, zonder enige parameterupdates.

Index refresh

Het periodiek herberekenen of bijwerken van een vectorindex om nieuwe data of modelwijzigingen te reflecteren.

Index sharding

Het opsplitsen van een grote index in meerdere shards over machines of partities.

Inferentie

Het proces van het gebruiken van een getraind model om voorspellingen of outputs te genereren op nieuwe data.

Instruction Tuning

Een fine-tuning methode die taalmodellen traint om natuurlijke taalinstructies over diverse taken te volgen.

Inverted Index

Een datastructuur die termen koppelt aan documentlocaties, voor snelle full-text zoekopdrachten over grote documentcollecties.

Iterative retrieval

Een retrievalstrategie die queries en context herhaaldelijk verfijnt op basis van tussentijdse resultaten.

J

Jailbreaking

Het bewust ontwerpen van prompts of inputs om de veiligheids- en beleidskaders van een AI-systeem te omzeilen.

K

Knowledge Distillation

Het trainen van een kleiner student-model om een groter teacher-model na te bootsen, kennisoverdracht met drastisch verminderde grootte en kosten.

Knowledge Graph

Een gestructureerd netwerk van entiteiten en relaties dat machines in staat stelt om real-world concepten te begrijpen en erover te redeneren.

Knowledge retrieval strategy

De hoge‑niveaukeuzes voor hoe een systeem kennis ophaalt en structureert voor gebruik door LLM’s.

L

LLM

Large Language Models zijn AI-systemen getraind op enorme hoeveelheden tekstdata om mensachtige tekst te begrijpen en genereren.

Log probabilities

De logaritmen van tokenkansen die een taalmodel produceert, gebruikt voor scoring en analyse van generaties.

LoRA

Low-Rank Adaptation - een efficiënte fine-tuning techniek die kleine adapter-matrices traint in plaats van alle modelgewichten bij te werken.

M

Machine Learning

Een vakgebied van AI waar systemen patronen leren uit data om voorspellingen of beslissingen te maken zonder expliciete programmering.

Metadata filtering

Retrieval beperken op basis van velden zoals datum, bron, taal of vertrouwelijkheidsniveau.

Milvus

Een open-source vectordatabase geoptimaliseerd voor het opslaan, indexeren en doorzoeken van massale embedding-vectoren—maakt similarity search mogelijk voor AI-applicaties zoals RAG, semantisch zoeken en aanbevelingen.

Model Compression

Technieken om AI-modelgrootte en rekenvereisten te verminderen met behoud van prestaties, voor efficiënte deployment.

Modeldrift

Prestatieverslechtering van een model doordat datadistributie of gebruik in de tijd verandert.

Modelrobuustheid

In welke mate een model prestaties behoudt bij ruis, verschuivingen of adversariële input.

Multi-Head Attention

Een techniek die meerdere attention-operaties parallel uitvoert, waardoor modellen verschillende soorten relaties tegelijk kunnen vastleggen.

Multi-hop retrieval

Retrieval dat meerdere opeenvolgende stappen koppelt om complexe, meerstapsvragen te beantwoorden.

N

Named Entity Recognition

AI-techniek die benoemde entiteiten zoals personen, plaatsen en organisaties in tekst identificeert en classificeert voor informatie-extractie.

Nearest-neighbor search

Algoritmen die de dichtstbijzijnde vectoren bij een query‑embedding zoeken.

Negative retrieval

Een retrievalpatroon dat expliciet zoekt naar tegensprekend, ontbrekend of ontkrachtend bewijs.

Neuraal Netwerk

Een machine learning model dat bestaat uit onderling verbonden lagen van kunstmatige neuronen die patronen leren uit data.

O

OCR

Optical Character Recognition—technologie die afbeeldingen van tekst (gescande documenten, foto's, PDF's) omzet naar machineleesbare tekst, waardoor zoeken, bewerken en AI-verwerking van gedrukte of handgeschreven content mogelijk wordt.

Onzekerheidsinschatting

Het kwantificeren van hoe onzeker een model is over zijn voorspellingen of antwoorden.

P

Passage retrieval

Het ophalen van kleine passages of tekstchunks in plaats van volledige documenten voor preciezere antwoorden.

Perplexiteit

Een metriek die meet hoe goed een taalmodel tekst voorspelt, waarbij lagere waarden betere voorspellingsabiliteit aangeven.

Pinecone

Een volledig beheerde vector database service specifiek ontworpen voor machine learning applicaties, met serverloze similarity search op schaal.

Positional encoding

Techniek in transformer-modellen om informatie over tokenposities toe te voegen aan verder volgorde-ongevoelige embeddings.

Pretraining

De initiële trainingsfase van een groot taalmodel op massale tekstcorpora om algemene taalpatronen, wereldkennis en redeneervermogen te leren vóór taakspecifieke fine-tuning.

Prompt

De tekstinvoer of instructie die aan een taalmodel wordt gegeven om de responsgeneratie te sturen.

Prompt Injection

Een aanvalstechniek waarbij kwaadaardige instructies worden ingevoegd in LLM-inputs om systeemprompts te overschrijven, guardrails te omzeilen of modelgedrag op onbedoelde manieren te manipuleren.

Pruning

Het verwijderen van onnodige gewichten of neuronen uit neurale netwerken om modelgrootte en rekenkosten te verminderen zonder significant nauwkeurigheidsverlies.

Q

QLoRA

Quantized LoRA - combineert 4-bit quantisatie met LoRA adapters, waardoor 65B+ modellen fine-tunen op een enkele 48GB GPU mogelijk wordt.

Quantization

Het verlagen van modelprecisie van 32/16-bit naar 8/4-bit, wat geheugengebruik drastisch vermindert en inferentie versnelt.

Query Expansion

Technieken die automatisch zoekqueries herformuleren of uitbreiden om retrieval te verbeteren door synoniemen, gerelateerde termen of herformuleringen toe te voegen.

Query rewriting

Het herschrijven van een gebruikersvraag naar een vorm die beter werkt voor retrieval.

R

Regression testing (AI-systemen)

Controleren dat wijzigingen in modellen of pipelines bestaand gedrag niet onbedoeld verslechteren.

Reinforcement Learning

Een machine learning aanpak waarbij agents optimaal gedrag leren door trial-and-error interacties met een omgeving.

Reranking

Een tweede-fase retrievaltechniek die initiële zoekresultaten herordent om relevantie te verbeteren met geavanceerdere modellen.

Retrieval coverage

De mate waarin een retrievalsysteem alle informatie kan bovenhalen die nodig is om vragen in een domein te beantwoorden.

Retrieval filtering

Regels of metadatafilters toepassen om te beperken welke documenten voor een query kunnen worden opgehaald.

Retrieval latency

De tijd die een retrievalsysteem nodig heeft om resultaten voor een query terug te sturen.

Retrieval orchestration

Het coördineren van meerdere retrievalstappen, indices of tools om één AI‑taak of query te bedienen.

Retrieval pipeline

Een geordende reeks stappen die een query en documenten verwerken om gerangschikte resultaten terug te geven in een RAG- of zoeksysteem.

Retrieval precision

Het deel van de opgehaalde documenten dat daadwerkelijk relevant is voor de query.

Retrieval recall

Het deel van alle echt relevante documenten dat een retrievalsysteem weet terug te vinden.

Retrieval scoring

De berekening van numerieke relevantiescores voor documenten of chunks gegeven een query.

Retrieval-Augmented Generation

RAG is een AI-techniek die informatieopvraging combineert met tekstgeneratie om nauwkeurige, brongebaseerde antwoorden te produceren.

Retrievallaag

Het deel van een RAG-systeem dat relevante documenten of chunks zoekt en rangschikt vóór de generatie.

RLHF

Reinforcement Learning from Human Feedback—een techniek om taalmodellen te fine-tunen met menselijke voorkeuren als beloningssignalen.

S

Self-Attention

Een mechanisme waarbij elk element in een sequentie attention-gewichten berekent met alle andere elementen in dezelfde sequentie.

Semantic clustering

Het groeperen van embeddings in clusters op basis van semantische gelijkenis.

Semantisch Zoeken

Zoektechnologie die betekenis en intentie begrijpt in plaats van alleen trefwoorden te matchen, voor relevantere en intelligentere resultaten.

Semantische Gelijkenis

Een maat voor hoe vergelijkbaar twee stukken tekst zijn qua betekenis, ongeacht de specifieke woorden die worden gebruikt.

SentencePiece

Een taal-agnostische subwoord-tokenizer die een vocabulaire direct uit ruwe tekst leert.

Similarity search

Zoektechnieken die de meest gelijkende items in een embeddingsruimte terugvinden.

Sliding window chunking

Een chunkstrategie waarbij overlappende vensters over een document schuiven om context tussen chunks te behouden.

Sparse Retrieval

Informatieophaling met hoogdimensionale sparse vectoren gebaseerd op termfrequenties, zoals BM25 en TF-IDF.

Stress testing

Het testen van hoe een AI-systeem zich gedraagt onder extreme of gedegradeerde omstandigheden.

Supervised Learning

Een machine learning aanpak waarbij modellen leren van gelabelde trainingsdata om outputs voor nieuwe inputs te voorspellen.

Systeemprompt

Het verborgen of vaste instructieblok dat het algemene gedrag en de beperkingen van een LLM in een toepassing bepaalt.

T

Temperatuur

Een parameter die de willekeurigheid van taalmodeloutputs regelt, en creativiteit versus consistentie beïnvloedt.

TF-IDF

Term Frequency-Inverse Document Frequency - een statistische maat voor woordbelang in een document ten opzichte van een collectie.

Tokenisatie

Het proces van het opsplitsen van tekst in kleinere eenheden (tokens) die taalmodellen kunnen verwerken en begrijpen.

Toolgebruik in LLM's

Het ontwerppatroon waarbij LLM's beslissen wanneer en hoe externe tools worden aangeroepen om taken uit te voeren.

Top-k Sampling

Een samplingmethode die tokenselectie beperkt tot de k meest waarschijnlijke volgende tokens bij elke generatiestap.

Top-p Sampling

Een samplingmethode die selecteert uit de kleinste set tokens waarvan de cumulatieve kans een drempel p overschrijdt.

Transformer-architectuur

Een neurale netwerkarchitectuur die self-attention gebruikt om sequentiële data parallel te verwerken, de basis van moderne LLM's.

U

Uitlegbaarheid

Het vermogen om te begrijpen, interpreteren en uitleggen hoe AI/ML-modellen voorspellingen maken—essentieel voor vertrouwen, debugging, regelgevingscompliance en verantwoorde AI-inzet.

Unsupervised Learning

Een machine learning aanpak waarbij modellen patronen en structuur in data ontdekken zonder gelabelde voorbeelden.

V

Vector Database

Een gespecialiseerde database geoptimaliseerd voor het opslaan en doorzoeken van hoogdimensionale vector embeddings met similariteitsmetrieken.

Vector normalization

Het schalen van embeddings naar een vaste norm, vaak eenheidsvectoren, om vergelijkingen stabieler te maken.

Vector quantization

Een compressietechniek die continue embeddings afbeeldt op een beperkt aantal codewoorden.

Vector-embeddings

Numerieke vectorvoorstellingen van tekst of andere data waarmee semantische gelijkenis kan worden gemeten.

Vector-indexering

Het bouwen van datastructuren die snelle similarity search over embeddings mogelijk maken.

Verliesfunctie

Een wiskundige functie die meet hoe ver de voorspellingen van een model afwijken van de gewenste outputs tijdens training.

W

Weaviate

Een open-source vectordatabase die vector search combineert met gestructureerde datafiltering en ingebouwde machine learning-modules—maakt semantisch zoeken, RAG en AI-native applicaties mogelijk.

Z

Zero-Shot Learning

Een machine learning vermogen waarbij modellen taken uitvoeren zonder taak-specifieke voorbeelden, puur vertrouwend op voorgetrainde kennis en natuurlijke taalinstructies.