Termes clés du droit fiscal belge et de l'IA expliqués
L’adaptation au domaine juridique ajuste un système IA/retrieval au langage, aux sources et aux contraintes du droit pour des réponses plus précises et défendables.
Petits modules entraînables insérés dans des modèles pré-entraînés gelés, permettant un fine-tuning efficace spécifique aux tâches.
Le processus d'entraînement des systèmes IA pour qu'ils se comportent conformément aux valeurs, intentions et préférences humaines—assurant que les modèles sont utiles, inoffensifs et honnêtes.
Examiner en détail où et pourquoi un modèle échoue afin d’améliorer les itérations futures.
Faire en sorte que chaque élément clé d'une réponse soit traçable vers des sources précises.
Un domaine de l'IA où les systèmes apprennent des patterns à partir de données pour faire des prédictions sans programmation explicite.
Une approche de machine learning où les modèles découvrent des patterns et structures dans les données sans exemples étiquetés.
Une approche de machine learning où les agents apprennent un comportement optimal par essais-erreurs avec un environnement.
Un sous-ensemble du machine learning utilisant des réseaux neuronaux avec de nombreuses couches pour apprendre des représentations hiérarchiques.
Une approche de machine learning où les modèles apprennent de données d'entraînement étiquetées pour prédire des sorties.
Algorithmes qui trouvent rapidement des vecteurs approximativement similaires en échangeant une précision parfaite contre des améliorations massives de vitesse.
Une architecture de réseau neuronal utilisant l'auto-attention pour traiter les données séquentielles en parallèle, à la base des LLM modernes.
Une technique exécutant plusieurs opérations d'attention en parallèle, permettant aux modèles de capturer différents types de relations simultanément.
L’atténuation des biais regroupe les méthodes pour détecter et réduire des biais injustes dans les données, le comportement et les résultats d’un système d’IA.
La capacité de l'IA à lier les déclarations générées à des preuves sources spécifiques, établissant quelles parties de la sortie sont soutenues par quels documents.
Un mécanisme où chaque élément d'une séquence calcule des poids d'attention avec tous les autres éléments de la même séquence.
Une base de données spécialisée optimisée pour stocker et rechercher des embeddings vectoriels de haute dimension avec des métriques de similarité.
Le processus systématique d'évaluation des performances d'un modèle contre des datasets et métriques standardisés, permettant une comparaison équitable entre différents modèles, architectures et approches.
Une architecture neuronale qui encode séparément requêtes et documents en vecteurs fixes, permettant une recherche de similarité efficace via embeddings pré-calculés et index de voisins approximatifs.
Best Matching 25 - l'algorithme probabiliste de classement de pointe pour la recherche textuelle basé sur les principes TF-IDF.
Algorithme de tokenisation en sous-mots qui construit un vocabulaire en fusionnant itérativement les paires de symboles fréquentes.
Aligner les scores de confiance du modèle avec la probabilité réelle de justesse.
Une technique de prompting qui suscite un raisonnement étape par étape des modèles de langage, améliorant les performances sur les tâches complexes en rendant le processus de raisonnement explicite et vérifiable.
La pratique de référencer explicitement les documents sources dans les réponses générées par l'IA, permettant la vérification des affirmations et construisant la confiance par la transparence.
Techniques pour réduire la taille des modèles IA et les besoins computationnels tout en préservant les performances, pour un déploiement efficace.
Degré auquel une réponse générée reste alignée sur des sources fiables ou la vérité de référence.
La partie d’un système RAG qui trouve et classe les documents ou passages pertinents avant la génération.
La partie d’un système RAG où le modèle de langage utilise le contexte récupéré pour produire une réponse.
Une architecture neuronale qui encode conjointement les paires requête-document pour produire des scores de pertinence, offrant une précision supérieure aux bi-encodeurs mais à un coût computationnel plus élevé.
Une stratégie simple de génération de texte qui sélectionne toujours le token de plus haute probabilité à chaque étape.
Une stratégie de découpage où des fenêtres qui se chevauchent parcourent un document pour préserver le contexte entre les chunks.
Dégradation des performances d’un modèle lorsque la distribution des données ou l’usage évolue.
Un algorithme d'optimisation qui ajuste itérativement les paramètres du modèle en se déplaçant dans la direction qui réduit la fonction de perte.
La distance en ligne droite entre deux points dans un espace vectoriel.
Une fonction mathématique qui quantifie la distance ou similarité entre deux embeddings.
Entraîner un petit modèle élève à imiter un grand modèle enseignant, transférant les connaissances tout en réduisant drastiquement taille et coût.
L’alignement d’embeddings provenant de modèles ou de langues différents pour les rendre comparables.
Des techniques qui rendent les embeddings plus compacts en stockage ou bits par vecteur sans trop de perte de qualité.
Un déplacement progressif de la signification ou de l’échelle des embeddings dû aux changements de modèle ou de données.
L’espace vectoriel dans lequel vivent les embeddings et où les distances approchent les relations sémantiques.
Représentations vectorielles denses de données (texte, images, etc.) capturant le sens sémantique dans un espace numérique continu.
Technique des transformeurs pour injecter des informations de position de tokens dans des embeddings autrement insensibles à l'ordre.
Quantifier à quel point un modèle est incertain de ses prédictions ou réponses.
La capacité de comprendre, interpréter et expliquer comment les modèles IA/ML font des prédictions—essentiel pour la confiance, le débogage, la conformité réglementaire et le déploiement responsable de l'IA.
Le degré auquel le contenu généré par l'IA reflète avec précision la vérité vérifiable, distinguant les déclarations correctes des fabrications et hallucinations.
Facebook AI Similarity Search - la bibliothèque open-source la plus complète pour la recherche de similarité efficace et le clustering de vecteurs denses.
La quantité maximale de texte (mesurée en tokens) qu'un modèle de langage peut traiter en une seule interaction.
Un paradigme d'apprentissage automatique où les modèles apprennent à effectuer des tâches à partir de quelques exemples seulement, permettant une adaptation rapide sans réentraînement extensif.
Propriété selon laquelle une explication reflète réellement le raisonnement ou les preuves sous-jacents du modèle.
Le processus d'entraînement supplémentaire d'un modèle pré-entraîné sur des données spécifiques pour améliorer les performances.
Une fonction mathématique qui mesure à quel point les prédictions d'un modèle sont éloignées des sorties désirées pendant l'entraînement.
Dispositif réutilisable pour définir, exécuter et suivre des scénarios d'évaluation d'IA.
Capacité d'un LLM à choisir et remplir des arguments structurés pour appeler des outils ou fonctions externes.
La pratique qui consiste à contraindre les réponses des LLM à des formats bien définis comme JSON, XML ou des schémas.
Un réseau structuré d'entités et leurs relations permettant aux machines de comprendre et raisonner sur des concepts du monde réel.
Les données de référence faisant autorité et vérifiées utilisées pour entraîner et évaluer les modèles de machine learning—les réponses 'correctes' contre lesquelles les prédictions du modèle sont mesurées.
La technique d'ancrage des sorties de modèles IA à des sources vérifiables, faits ou documents récupérés pour réduire les hallucinations et augmenter la précision.
Mécanismes de sécurité et contraintes qui empêchent les systèmes IA de générer des sorties nuisibles, inappropriées ou hors sujet—offrant une protection runtime au-delà de l'alignement lors de l'entraînement.
Lorsqu'un modèle d'IA génère des informations fausses, fabriquées ou non étayées présentées comme des faits.
Graphes Hierarchical Navigable Small World - l'algorithme état de l'art pour la recherche rapide de plus proches voisins approximatifs en espaces de haute dimension.
La combinaison d’index vectoriels et lexicaux pour supporter à la fois la correspondance sémantique et par mots‑clés.
La capacité des grands modèles de langage à apprendre de nouvelles tâches lors de l'inférence en se conditionnant sur des exemples ou instructions fournis dans le prompt, sans mises à jour de paramètres.
Une structure de données associant les termes aux emplacements de documents, permettant une recherche plein texte rapide sur de grandes collections.
La mise à jour périodique d’un index vectoriel pour refléter de nouvelles données ou des changements de modèle.
La division d’un index volumineux en plusieurs shards répartis sur des machines ou partitions.
La construction de structures de données permettant une recherche rapide de similarité sur des embeddings.
Le processus d'utilisation d'un modèle entraîné pour générer des prédictions ou sorties sur de nouvelles données.
Le fait d’ajouter des informations récupérées ou auxiliaires dans un prompt LLM pour guider la génération.
Une technique d'attaque où des instructions malveillantes sont insérées dans les entrées LLM pour contourner les prompts système, éviter les guardrails ou manipuler le comportement du modèle de manière inattendue.
Une méthode de fine-tuning qui entraîne les modèles de langage à suivre des instructions en langage naturel sur diverses tâches.
Plage de valeurs dans laquelle une quantité est supposée se situer avec une probabilité donnée.
Une stratégie de récupération qui affine de façon répétée les requêtes et le contexte à partir de résultats intermédiaires.
La pratique consistant à concevoir des prompts ou entrées pour contourner les garde-fous et politiques d'un système d'IA.
Ensemble d'exemples avec réponses de référence pour mesurer les performances d'un modèle.
Les choix de conception de haut niveau sur la façon dont un système récupère et structure la connaissance pour les LLM.
Le temps nécessaire à un système de récupération pour renvoyer des résultats à une requête.
Les grands modèles de langage sont des systèmes d'IA entraînés sur de vastes données textuelles pour comprendre et générer du texte semblable à celui des humains.
Les logarithmes des probabilités de tokens produites par un modèle de langage, utilisés pour scorer et analyser les générations.
Low-Rank Adaptation - une technique de fine-tuning efficiente qui entraîne de petites matrices d'adaptation au lieu de mettre à jour tous les poids.
Une technique de réseau neuronal permettant aux modèles de se concentrer sur les parties pertinentes de l'entrée lors de la production de la sortie.
Limiter la récupération sur la base de champs comme la date, la source, la langue ou le niveau de confidentialité.
Des métriques qui décrivent la stabilité, la prévisibilité et la sécurité d’un système d’IA dans le temps.
Une base de données vectorielle open-source optimisée pour stocker, indexer et rechercher des vecteurs d'embedding à grande échelle—permettant la recherche par similarité pour les applications IA comme RAG, recherche sémantique et recommandations.
Un modèle de ML qui convertit du texte ou d’autres données en vector embeddings.
Une récupération qui enchaîne plusieurs étapes de recherche pour répondre à des questions complexes en plusieurs étapes.
Des algorithmes qui trouvent les vecteurs les plus proches d’un embedding de requête.
Un schéma de récupération qui recherche explicitement des preuves contradictoires, manquantes ou infirmantes.
Reconnaissance Optique de Caractères—technologie qui convertit les images de texte (documents numérisés, photos, PDF) en texte lisible par machine, permettant recherche, édition et traitement IA du contenu imprimé ou manuscrit.
La récupération de petits passages ou chunks de texte plutôt que de documents entiers pour des réponses plus précises.
Une métrique mesurant à quel point un modèle de langage prédit bien le texte, avec des valeurs plus basses indiquant une meilleure capacité de prédiction.
Un service de base de données vectorielle entièrement géré conçu spécifiquement pour les applications machine learning, offrant une recherche de similarité serverless à l'échelle.
La phase initiale d'entraînement d'un grand modèle de langage sur des corpus de texte massifs pour apprendre les patterns linguistiques généraux et les connaissances avant le fine-tuning spécifique.
La fraction des documents récupérés qui sont réellement pertinents pour la requête.
Le texte d'entrée ou l'instruction donnée à un modèle de langage pour guider la génération de sa réponse.
Le bloc d'instructions caché ou fixe qui définit le comportement global et les contraintes d'un LLM dans une application donnée.
Quantized LoRA - combine la quantification 4-bit avec les adaptateurs LoRA, permettant le fine-tuning de modèles 65B+ sur un seul GPU de 48 Go.
Réduction de la précision du modèle de 32/16-bit à 8/4-bit, diminuant drastiquement l'utilisation mémoire et accélérant l'inférence.
Techniques qui reformulent ou augmentent automatiquement les requêtes de recherche pour améliorer le retrieval en ajoutant synonymes, termes associés ou reformulations.
La fraction de tous les documents réellement pertinents qu’un système de récupération renvoie.
Un algorithme de décodage qui explore plusieurs séquences candidates en parallèle, gardant les k chemins les plus prometteurs à chaque étape.
Une approche de récupération combinant recherche par mots-clés et recherche vectorielle sémantique pour exploiter les forces des deux méthodes.
Technologie de recherche qui comprend le sens et l'intention plutôt que simplement les mots-clés, pour des résultats plus pertinents et intelligents.
Une technique de récupération en deuxième étape qui réordonne les résultats de recherche initiaux pour améliorer la pertinence.
Technique IA qui identifie et classifie les entités nommées comme personnes, lieux et organisations dans le texte pour l'extraction d'information.
Récupération d'information utilisant des représentations vectorielles denses apprises, permettant la correspondance sémantique au-delà des mots-clés.
Récupération d'information utilisant des vecteurs creux haute dimension basés sur les fréquences de termes, comme BM25 et TF-IDF.
Techniques qui réduisent la dimension des embeddings tout en préservant un maximum d’information.
Le fait de transformer une requête utilisateur en une forme plus efficace pour la récupération.
Vérifier que les changements de modèles ou de pipelines ne dégradent pas involontairement le comportement existant.
Un réseau de neurones où l'information circule uniquement de l'entrée vers la sortie, sans connexions récurrentes.
Un modèle d'apprentissage automatique composé de couches interconnectées de neurones artificiels qui apprennent des patterns à partir de données.
La mesure dans laquelle un système de récupération peut faire remonter toutes les informations nécessaires pour répondre aux questions d’un domaine.
L’application de règles ou de filtres de métadonnées pour restreindre quels documents peuvent être récupérés.
La coordination de plusieurs étapes de récupération, index ou outils pour une même tâche ou requête d’IA.
Une séquence ordonnée d'étapes qui traitent une requête et des documents pour renvoyer des résultats classés dans un système RAG ou de recherche.
Le calcul de scores numériques de pertinence pour des documents ou chunks en fonction d'une requête.
RAG est une technique d'IA qui combine la recherche d'information avec la génération de texte pour produire des réponses précises et sourcées.
Un algorithme qui calcule efficacement les gradients en propageant les erreurs en arrière à travers un réseau neuronal couche par couche.
Reinforcement Learning from Human Feedback—une technique pour affiner les modèles de langage avec les préférences humaines comme signaux de récompense.
Capacité d’un modèle à maintenir ses performances malgré le bruit, les dérives ou des entrées adversariales.
Le regroupement d’embeddings en clusters sur la base de leur similarité sémantique.
Une bibliothèque de tokenisation en sous-mots, indépendante de la langue, qui apprend un vocabulaire directement à partir du texte brut.
Une mesure mathématique de similarité entre deux vecteurs basée sur le cosinus de l'angle entre eux.
Une mesure de similarité entre vecteurs basée sur leur produit scalaire.
Une mesure de la ressemblance de deux textes en termes de sens, indépendamment des mots spécifiques utilisés.
Des techniques de recherche qui retrouvent les éléments les plus similaires dans un espace d’embeddings.
La méthode de division des documents en segments plus petits pour une récupération et un traitement efficaces dans les systèmes RAG.
Évaluer le comportement d’un système d’IA dans des conditions extrêmes ou dégradées.
Part des sorties du modèle contenant des informations inventées ou non sourcées.
Un paramètre contrôlant l'aléatoire des sorties du modèle de langage, affectant créativité versus cohérence.
Soumettre le modèle à des entrées difficiles ou malveillantes pour révéler ses faiblesses.
Term Frequency-Inverse Document Frequency - une mesure statistique de l'importance des mots dans un document par rapport à une collection.
Le processus de division du texte en unités plus petites (tokens) que les modèles de langage peuvent traiter et comprendre.
Schéma de conception où les LLM décident quand et comment appeler des outils externes pour accomplir des tâches.
Utilisation de réviseurs humains pour vérifier, corriger ou approuver les sorties d'IA.
Représentations vectorielles numériques de texte ou d’autres données pour mesurer la similarité sémantique.
Le redimensionnement des embeddings à une norme fixe, souvent des vecteurs unitaires, pour stabiliser les comparaisons.
Une technique de compression qui projette des embeddings continus sur un ensemble limité de codewords.
Une base de données vectorielle open-source qui combine recherche vectorielle avec filtrage de données structurées et modules ML intégrés—permettant recherche sémantique, RAG et applications IA-natives.
Une capacité d'apprentissage automatique où les modèles effectuent des tâches sans exemples spécifiques, s'appuyant uniquement sur les connaissances pré-entraînées et les instructions en langage naturel.
Une méthode d'échantillonnage qui restreint la sélection de tokens aux k tokens les plus probables à chaque étape de génération.
Une méthode d'échantillonnage qui sélectionne parmi le plus petit ensemble de tokens dont la probabilité cumulative dépasse un seuil p.
Suppression des poids ou neurones inutiles des réseaux neuronaux pour réduire la taille et le coût de calcul sans perte significative de précision.
Relancer régulièrement des évaluations en production pour détecter tôt les régressions ou dérives.