Stratégie & décision 7 décembre 2025

Comment évaluer un outil d'IA juridique : 10 questions qui comptent vraiment

La plupart des cabinets commencent par demander 'quelle est sa précision ?' C'est la question 10 de cette liste. Voici les neuf questions à poser d'abord — et pourquoi elles comptent plus pour le travail fiscal professionnel.

évaluation IA IA juridique technologie fiscale due diligence responsabilité professionnelle

Par Auryth Team

La première question que posent la plupart des cabinets lors de l’évaluation d’un outil d’IA juridique est « quelle est sa précision ? » Cela semble raisonnable. C’est aussi la question la moins utile de cette liste.

La précision sans transparence est un risque. Un outil précis à 95 % mais qui ne peut pas vous montrer quels 5 % sont erronés est plus dangereux qu’un outil précis à 90 % qui affiche ses sources à chaque réponse. Vous pouvez gérer un risque connu. Vous ne pouvez pas gérer un risque caché.

Cette liste de contrôle fonctionne pour tout outil d’IA juridique — Auryth, un concurrent, ou un modèle généraliste que vos collaborateurs utilisent déjà en secret. Si un fournisseur ne peut pas répondre clairement à ces questions, cela vous dit quelque chose. S’il le peut, vérifiez les réponses.

1. D’où viennent les sources ?

Ce qu’il faut demander : L’outil interroge-t-il un corpus juridique sélectionné, ou effectue-t-il des recherches sur l’internet ouvert ? Qui maintient le corpus ? Comment est-il structuré ?

Pourquoi c’est important : Un outil qui effectue des recherches sur internet trouvera des articles de blog, une législation obsolète et des juridictions étrangères mélangés au droit actuel. Un outil avec un corpus sélectionné — CIR 92, VCF, Fisconetplus, décisions anticipées DVB, jurisprudence — a une limite de connaissance définie. Vous savez ce qu’il peut rechercher et ce qu’il ne peut pas.

Signal d’alarme : « Nous utilisons le plus grand ensemble de données disponible » sans préciser ce qu’il contient. La taille n’est pas la qualité. Un corpus de 10 millions de pages web non structurées est pire que 50 000 documents juridiques soigneusement structurés avec métadonnées.

2. Pouvez-vous vérifier chaque citation ?

Ce qu’il faut demander : Lorsque l’outil cite une source, pouvez-vous cliquer pour accéder au document original ? La citation est-elle vérifiable, ou s’agit-il simplement d’une référence générée par le modèle ?

Pourquoi c’est important : Des chercheurs de Stanford ont constaté que même les outils d’IA juridique dédiés — Westlaw AI, Lexis+ AI — hallucinent sur 17 à 33 % des requêtes. Les hallucinations ne sont pas des absurdités aléatoires. Ce sont des citations d’apparence plausible vers des dispositions qui ne disent pas ce que le modèle prétend. La seule défense est la vérification.

Signal d’alarme : Citations sans liens cliquables vers le texte original. Si vous ne pouvez pas vérifier une citation en moins de 30 secondes, ce n’est pas une citation — c’est une suggestion.

3. Sait-il quand il ne sait pas ?

Ce qu’il faut demander : L’outil fournit-il des scores de confiance ? Lorsque les preuves sont minces ou absentes, vous le dit-il explicitement — ou répond-il avec la même confiance quelles que soient les circonstances ?

Pourquoi c’est important : Dans la pratique fiscale professionnelle, savoir qu’aucune autorité n’existe sur un point spécifique est une information précieuse. Cela signifie que vous êtes en territoire d’interprétation et que vous devez procéder en conséquence. Un outil qui répond toujours avec une confiance uniforme — qu’il soit soutenu par trois arrêts de la Cour de cassation ou par rien du tout — vous entraîne à cesser de prêter attention à la certitude.

Signal d’alarme : Chaque réponse délivrée avec le même ton d’autorité, quelle que soit la force des preuves sous-jacentes.

4. À quel point la base de connaissances est-elle à jour ?

Ce qu’il faut demander : Lorsque la loi change, à quelle vitesse l’outil est-il mis à jour ? Est-il mis à jour en quelques heures, jours, semaines ou mois ? Quand a eu lieu la dernière mise à jour ?

Pourquoi c’est important : Le droit fiscal belge change constamment. Deux lois-programmes majeures par an. Divergence régionale entre la Flandre, la Wallonie et Bruxelles. La loi-programme de juillet 2025 a restructuré le régime de déduction pour investissement. Si un outil reflète encore les règles d’avant juillet, il n’est pas seulement obsolète — il est confiant et faux sur le droit actuel.

Signal d’alarme : Réponses vagues comme « mis à jour régulièrement » sans fréquence de mise à jour spécifique. Demandez la date de la dernière mise à jour du corpus. S’ils ne peuvent pas vous le dire, c’est votre réponse.

5. Comprend-il la hiérarchie juridique ?

Ce qu’il faut demander : Lorsque l’outil récupère plusieurs sources, les classe-t-il par autorité juridique ? Un arrêt de la Cour de cassation l’emporte-t-il sur une circulaire Fisconetplus ? Une disposition constitutionnelle l’emporte-t-elle sur une décision ministérielle ?

Pourquoi c’est important : La hiérarchie juridique n’est pas un plus — c’est ainsi que fonctionne le raisonnement juridique. Une circulaire Fisconetplus qui contredit la jurisprudence, c’est la circulaire qui a tort, pas la jurisprudence. Un outil qui traite toutes les sources comme des morceaux de texte de poids égal fera parfois remonter la mauvaise autorité comme réponse principale.

Signal d’alarme : Résultats de recherche plats sans indication de l’autorité de la source ou du poids juridique.

6. Peut-il traiter les questions temporelles ?

Ce qu’il faut demander : Si vous posez une question sur une transaction de 2019, l’outil récupère-t-il la loi de 2019 ou la loi actuelle ? Peut-il distinguer entre les versions temporelles de la même disposition ?

Pourquoi c’est important : Le taux d’impôt des sociétés belge était de 29,58 % en 2019 et de 25 % aujourd’hui. Les deux sont corrects — pour des périodes d’imposition différentes. Un outil sans versionnage temporel récupérera la version que sa recherche trouve en premier. Pour un professionnel fiscal conseillant sur une période historique, ce n’est pas un inconvénient mineur — c’est un risque de faute professionnelle.

Signal d’alarme : Aucune capacité à spécifier une date de référence. Si l’outil ne peut pas distinguer « quelle était la loi en 2019 ? » de « quelle est la loi aujourd’hui ? », il échoue à ce test.

7. Comment vos données sont-elles traitées ?

Ce qu’il faut demander : Où sont stockées les données client ? Sont-elles utilisées pour entraîner le modèle ? Qui y a accès ? L’outil est-il conforme à l’article 22 du RGPD sur la prise de décision automatisée ? Qu’advient-il de vos requêtes après la fin de la session ?

Pourquoi c’est important : 56 % des cabinets d’avocats citent la confidentialité des données comme leur principale préoccupation lors de l’évaluation d’outils d’IA. La confidentialité professionnelle n’est pas optionnelle — c’est une obligation légale. Si les requêtes des clients sont utilisées pour améliorer le modèle, les données de votre client se trouvent dans l’ensemble d’entraînement. Si les données quittent l’UE sans garanties adéquates, vous avez un problème de conformité RGPD.

Signal d’alarme : Conditions d’utilisation qui accordent au fournisseur de larges droits d’utiliser les « données d’entrée » pour « l’amélioration du service ». Lisez l’accord de traitement des données. S’il n’y en a pas, renoncez.

8. Que se passe-t-il lorsqu’il se trompe ?

Ce qu’il faut demander : L’outil conserve-t-il une piste d’audit ? Pouvez-vous reconstituer quelles sources ont été récupérées, ce qui a été rejeté et comment la réponse a été générée ? Quelles clauses de non-responsabilité ou limitations de responsabilité s’appliquent ?

Pourquoi c’est important : La responsabilité professionnelle dans la pratique fiscale belge ne disparaît pas parce que vous avez utilisé un outil. Les barreaux à travers l’Europe convergent vers un principe clair : l’IA ne peut pas remplacer la recherche, l’analyse et le jugement indépendants. Lorsqu’un outil donne un conseil erroné et que vous le transmettez à un client, vous devez démontrer votre processus de vérification. Une piste d’audit rend cela possible. Une transcription de chat ne le fait pas.

Signal d’alarme : Aucun enregistrement, aucune piste d’audit, aucune capacité à examiner les requêtes passées. Si vous ne pouvez pas reconstituer votre processus de recherche, vous ne pouvez pas le défendre.

9. Pouvez-vous exporter pour un usage professionnel ?

Ce qu’il faut demander : Pouvez-vous exporter les résultats dans un format structuré adapté à la documentation professionnelle — citations formatées, sources liées, confiance notée ? Ou êtes-vous limité à la copie de texte de chat ?

Pourquoi c’est important : Un outil qui produit des recherches structurées et exportables accélère votre flux de travail. Un outil qui produit du texte de type chat crée une étape de formatage entre la recherche et le produit de travail. La différence entre ces deux est la différence entre un outil de recherche et un chatbot.

Signal d’alarme : Sortie limitée à du texte non formaté dans une fenêtre de chat, sans options d’exportation ou d’intégration.

10. Publie-t-il des métriques de précision ?

Ce qu’il faut demander : Quel est le taux d’hallucination mesuré de l’outil ? Qui l’a mesuré — le fournisseur ou une partie indépendante ? Les métriques sont-elles publiées, ou devez-vous les croire sur parole ?

Pourquoi c’est important : C’est le dernier élément de la liste pour une raison. La précision compte, mais c’est la métrique que les fournisseurs optimisent dans leur marketing et la métrique sur laquelle les professionnels se concentrent trop lors de l’évaluation. Un outil précis à 95 % et opaque est plus dangereux qu’un outil précis à 90 % et transparent — parce que vous pouvez vérifier et corriger les 10 %, mais vous ne pouvez pas identifier les 5 %.

Signal d’alarme : Affirmations de « précision à 99 % » sans méthodologie publiée, ensembles de tests ou validation indépendante. Si le fournisseur a mesuré sa propre précision, demandez comment. S’il ne peut pas expliquer la méthodologie, le chiffre est du marketing.

Dix questions pour évaluer un outil d'IA juridique — liste de contrôle notée pour les professionnels fiscaux

La vérité inconfortable

Seulement 26 % des cabinets d’avocats ont activement intégré l’IA en 2025. Mais 31 % des avocats individuels utilisent déjà l’IA générative au travail — beaucoup sans la connaissance ou l’approbation de leur cabinet. La question n’est pas de savoir si votre cabinet utilisera l’IA. C’est de savoir si vous choisirez un outil qui répond aux normes professionnelles, ou si vos collaborateurs continueront à utiliser ChatGPT dans un onglet de navigateur en espérant que tout se passe bien.

Ces dix questions vous donnent un cadre pour le premier cas. Imprimez-les. Utilisez-les lors de votre prochaine réunion avec un fournisseur. Utilisez-les pour évaluer les outils que votre équipe utilise déjà. Les réponses vous diront tout ce que vous devez savoir.

Comment Auryth TX se positionne sur ces 10 questions

Nous avons construit Auryth TX pour répondre à chaque question de cette liste. Non pas parce que nous avons écrit la liste — mais parce que ce sont les questions que tout professionnel devrait poser, et nous préférons que vous les posiez plutôt que de ne pas le faire.

Sources : Corpus juridique belge — CIR 92, VCF, Fisconetplus, décisions anticipées DVB, jurisprudence, publications doctrinales — tous sélectionnés et structurés.
Vérification des citations : Chaque citation renvoie à la source originale. Chaque affirmation est validée de manière indépendante après génération.
Incertitude : Notation de confiance par affirmation. Lorsque les preuves sont minces, nous vous le disons explicitement.
Actualité : Corpus mis à jour dans les heures suivant les changements juridiques. La loi-programme de juillet 2025 était consultable le jour même.
Hiérarchie juridique : Classement d’autorité à 13 niveaux dans le système juridique belge — de la Constitution à la doctrine.
Requêtes temporelles : Récupération ponctuelle avec métadonnées temporelles sur chaque disposition.
Traitement des données : Résidence des données dans l’UE. Aucun entraînement sur les requêtes client. Conformité RGPD complète avec DPA publié.
Piste d’audit : Chaque requête enregistrée avec sources récupérées, sources rejetées, scores de confiance et métadonnées de génération.
Export : Sortie structurée avec citations formatées, poids d’autorité et indicateurs de confiance.
Précision : Méthodologie publiée. Validation indépendante. Et suffisamment transparent pour que vous puissiez vérifier chaque réponse vous-même.

Testez ces 10 questions sur une vraie question fiscale belge — rejoignez la liste d’attente →

Sources : 1. Magesh, V. et al. (2025). « Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools. » Journal of Empirical Legal Studies. 2. AffiniPay (2025). Legal Industry Report: AI Adoption in Law Firms. 3. Bar Council of England and Wales (2025). « Considerations when using ChatGPT and generative artificial intelligence. » Mis à jour novembre 2025. 4. Thomson Reuters Institute (2025). « Generative AI in Professional Services. »