Retrieval-Augmented Generation — Glossaire

Définition

Retrieval-Augmented Generation (RAG) est une technique qui améliore les grands modèles de langage en récupérant des documents pertinents d’une base de connaissances avant de générer des réponses. Cela ancre la sortie de l’IA dans des informations factuelles et actualisées plutôt que de se fier uniquement aux données d’entraînement.

Pourquoi c’est important

RAG est particulièrement précieux pour les domaines à forte intensité de connaissances où la précision et l’actualité sont critiques. Les LLM traditionnels peuvent générer des informations plausibles mais obsolètes ou incorrectes. RAG résout ce problème en :

Ancrant les réponses dans des sources — chaque réponse fait référence à des documents spécifiques de la base de connaissances
Maintenant l’actualité — les bases de connaissances peuvent être mises à jour sans réentraînement coûteux du modèle
Réduisant les hallucinations — le modèle génère à partir de faits récupérés, pas de motifs mémorisés
Permettant l’auditabilité — les citations permettent aux utilisateurs de vérifier les réponses générées par l’IA

Comment ça fonctionne

Question → Embed → Chercher KB → Récupérer docs → Générer → Réponse
    │                              │
    └──── similarité vectorielle ────┘

L’utilisateur soumet une question
Le système convertit la question en embeddings et interroge la base de connaissances
Les documents les plus pertinents sont récupérés
Le LLM génère une réponse en utilisant le contexte récupéré
La réponse inclut des citations sources pour vérification

Questions fréquentes

Q : Quelle est la différence entre RAG et le fine-tuning ?

R : Le fine-tuning modifie définitivement les poids du modèle avec de nouvelles données. RAG récupère l’information au moment de la requête, ce qui facilite les mises à jour et l’audit. RAG est préféré lorsque le matériel source change fréquemment.

Q : RAG peut-il halluciner ?

R : RAG réduit significativement les hallucinations en ancrant les réponses dans les documents récupérés, mais la qualité dépend de la complétude de la base de connaissances et de la précision de la récupération.

Q : Pourquoi ne pas simplement utiliser un moteur de recherche ?

R : Les moteurs de recherche retournent des documents ; RAG synthétise l’information de plusieurs sources en une réponse cohérente avec le contexte approprié.

Termes connexes

LLM — le composant de génération qui produit des réponses en langage naturel
Embeddings — représentations vectorielles permettant la recherche sémantique

Références

Lewis et al. (2020), “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”, NeurIPS. [11 200+ citations]

Gao et al. (2023), “Retrieval-Augmented Generation for Large Language Models: A Survey”, arXiv. [2 800+ citations]

Izacard & Grave (2021), “Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering”, EACL. [1 400+ citations]

References

Lewis et al. (2020), “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”, NeurIPS. [11,200+ citations]

Gao et al. (2023), “Retrieval-Augmented Generation for Large Language Models: A Survey”, arXiv. [2,800+ citations]

Izacard & Grave (2021), “Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering”, EACL. [1,400+ citations]