Definition
Retrieval-Augmented Generation (RAG) ist eine Technik, die große Sprachmodelle verbessert, indem relevante Dokumente aus einer Wissensdatenbank abgerufen werden, bevor Antworten generiert werden. Dies verankert die KI-Ausgabe in faktischen, aktuellen Informationen anstatt sich ausschließlich auf Trainingsdaten zu verlassen.
Warum es wichtig ist
RAG ist besonders wertvoll für wissensintensive Bereiche, wo Genauigkeit und Aktualität entscheidend sind. Traditionelle LLMs können plausible, aber veraltete oder falsche Informationen generieren. RAG löst dieses Problem durch:
- Verankerung von Antworten in Quellen — jede Antwort verweist auf spezifische Dokumente aus der Wissensdatenbank
- Aufrechterhaltung der Aktualität — Wissensdatenbanken können ohne teures Modell-Neutraining aktualisiert werden
- Reduzierung von Halluzinationen — das Modell generiert aus abgerufenen Fakten, nicht aus auswendig gelernten Mustern
- Ermöglichung von Auditierbarkeit — Zitate ermöglichen Benutzern die Überprüfung von KI-generierten Antworten
Wie es funktioniert
Frage → Embed → KB durchsuchen → Docs abrufen → Generieren → Antwort
│ │
└────── Vektor-Ähnlichkeit ──────┘
- Benutzer stellt eine Frage
- System konvertiert Frage in Embeddings und durchsucht die Wissensdatenbank
- Relevanteste Dokumente werden abgerufen
- LLM generiert Antwort unter Verwendung des abgerufenen Kontexts
- Antwort enthält Quellenangaben zur Verifizierung
Häufige Fragen
F: Wie unterscheidet sich RAG von Fine-Tuning?
A: Fine-Tuning modifiziert permanent die Modellgewichte mit neuen Daten. RAG ruft Informationen zur Abfragezeit ab, was Aktualisierungen und Audits erleichtert. RAG wird bevorzugt, wenn sich Quellmaterial häufig ändert.
F: Kann RAG halluzinieren?
A: RAG reduziert Halluzinationen erheblich, indem Antworten in abgerufenen Dokumenten verankert werden, aber die Qualität hängt von der Vollständigkeit der Wissensdatenbank und der Abrufgenauigkeit ab.
F: Warum nicht einfach eine Suchmaschine verwenden?
A: Suchmaschinen liefern Dokumente zurück; RAG synthetisiert Informationen aus mehreren Quellen zu einer kohärenten Antwort mit angemessenem Kontext.
Verwandte Begriffe
- LLM — die Generierungskomponente, die Antworten in natürlicher Sprache erzeugt
- Embeddings — Vektordarstellungen für semantische Suche
Referenzen
Lewis et al. (2020), “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”, NeurIPS. [11.200+ Zitationen]
Gao et al. (2023), “Retrieval-Augmented Generation for Large Language Models: A Survey”, arXiv. [2.800+ Zitationen]
Izacard & Grave (2021), “Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering”, EACL. [1.400+ Zitationen]
References
Lewis et al. (2020), “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”, NeurIPS. [11,200+ citations]
Gao et al. (2023), “Retrieval-Augmented Generation for Large Language Models: A Survey”, arXiv. [2,800+ citations]
Izacard & Grave (2021), “Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering”, EACL. [1,400+ citations]