Termes clés du droit fiscal belge et de l'IA expliqués
L’ajustement de la pertinence est l’amélioration systématique du classement en ajustant signaux, poids et règles à partir de mesures et d’évaluations.
L’analyse de couverture de retrieval vérifie si l’index et le pipeline peuvent retrouver les sources nécessaires pour un périmètre défini de questions et sujets.
L’analytique de recherche mesure l’usage et la performance de la recherche (requêtes, clics, zéro résultat, satisfaction) pour l’améliorer.
La cartographie des dépendances juridiques construit un graphe de citations et relations entre sources afin que retrieval et analyse suivent ce qui dépend de quoi.
La compréhension de requête décrit comment un système interprète le sens d’une recherche (entités, intention, ambiguïté) avant le retrieval et le classement.
L’attribution de scores indiquant à quel point les preuves ou la récupération soutiennent une réponse.
La création et la maintenance d’index de recherche sur les documents, champs et embeddings.
L’ensemble complet de documents dont dispose un système de recherche ou d’IA.
La découvrabilité du contenu décrit la facilité avec laquelle un contenu peut être trouvé, accessible et indexé par des systèmes de recherche (internes ou externes).
La chaîne d’étapes qui convertit des données sources brutes en contenu indexable et exploitable.
Le prétraitement de données brutes pour supprimer le bruit et uniformiser les formats avant la recherche ou l’IA.
L’identification et la suppression de documents dupliqués ou quasi dupliqués dans un corpus.
Un petit segment de document indexé et consulté comme unité distincte.
L’ingestion et le stockage de nouveaux documents dans une plateforme de recherche ou de connaissance.
L’uniformisation du texte et de la structure entre documents pour simplifier l’indexation et la recherche.
La conversion de fichiers bruts en texte structuré et métadonnées.
La détection automatique de noms, organisations, dates et autres entités dans un texte.
L’expansion sémantique élargit une requête avec des termes ou sens proches (synonymes, entités, embeddings) pour améliorer le rappel sans trahir l’intention.
L’indexation multi-juridictionnelle structure l’index sur plusieurs pays/régions afin que le retrieval respecte juridiction, langue et applicabilité.
Un logiciel qui indexe des documents et traite des requêtes pour retrouver des informations pertinentes.
L’intention de requête est l’objectif derrière une recherche (ce que l’utilisateur veut accomplir) et elle guide le classement des résultats.
Un ensemble structuré de documents et de faits consultés par les systèmes de recherche ou d’IA.
Des techniques de recherche qui reposent surtout sur la correspondance exacte ou quasi exacte de mots‑clés.
L’ajout ou la déduction de champs supplémentaires (entités, thèmes) au‑delà du document brut.
Un modèle de classement par autorité ordonne les sources par autorité juridique et fiabilité afin de faire remonter les sources contrôlantes en premier.
Un modèle formel des concepts et de leurs relations dans un domaine.
La pondération de fiabilité des sources donne plus d’influence aux sources de confiance pour privilégier les contenus officiels et de qualité.
La recherche booléenne combine des termes avec des opérateurs comme AND, OR et NOT pour inclure ou exclure des résultats avec précision.
La recherche plein texte récupère des documents en faisant correspondre des termes à du texte indexé (souvent via un index inversé) puis classe les meilleurs résultats.
L’attribution de scores numériques qui indiquent à quel point un résultat correspond à une requête.
La résolution des conflits de sources décrit comment un système de recherche/RAG détecte et traite des sources contradictoires, en privilégiant l’autorité contrôlante.
Des annotations structurées décrivant ce que représente une page ou un élément.
Le classement des résultats selon leur pertinence sémantique plutôt que de simples mots‑clés.
L’ordre des sources par niveau (loi, arrêté, guide, blog) et par autorité.
Une stratégie d’indexation est le plan qui définit quoi indexer, comment structurer le contenu et comment garder l’index à jour pour une recherche fiable.
Des données organisées en champs et types clairs, par exemple des tables ou enregistrements.
Le suivi de fraîcheur des sources enregistre l’actualité de chaque source (version, mise à jour, dates d’effet) afin que le retrieval reste aligné sur un droit changeant.
L’organisation hiérarchique et la structure du contenu pour aider utilisateurs et systèmes à retrouver l’information.
Une indexation qui permet de filtrer et raisonner sur des dimensions temporelles (versions, validité).
Le contrôle de version du contenu, des schémas et des configurations dans les systèmes de recherche et de connaissance.