Retrieval-Augmented Generation bedeutet, dass man eine Generative Künstliche Intelligenz (z.B. ChatGPT) nutzt, um eigene Informationen auszuwerten. Dazu werden diese Informationen zusammen mit dem Prompt an das KI-System geschickt. Das kann manuell geschehen (indem man im Chat-Fenster ein PDF-Dokument oder eine Excel-Tabelle hochlädt); es kann aber auch automatisiert geschehen, indem ganze Dokumentensammlungen, Datenbanken oder Wissensplattformen an ein KI-System angebunden werden.
RAG löst ein Grundproblem der Generativen Künstlichen Intelligenz im Zusammenhang mit dem Wissensmanagement. Das Wissen, das in den Large Language Models (LLM) heutiger KI-Systeme kodiert ist, basiert auf öffentlich zugänglichen Informationen aus dem Internet. ChatGPT verfügt also nur über (wenn auch sehr umfassendes ) Allgemeinwissen. Alle Daten und Dokumente, die auf unseren persönlichen Computern oder auf den Servern unserer Unternehmen gespeichert sind, hat ChatGPT hingegen während seines Trainings nie zu Gesicht bekommen. Deshalb erhält man von KI-Systemen eher allgemeine Antworten auf seine Fragen.
Wenn man KI nutzen will, um seine eigenen Daten- und Informationsbestände anzuzapfen, dann gibt es zwei Möglichkeiten: Entweder man trainiert sein eigenes LLM, was enorm aufwändig und teuer ist. Oder man nutzt ein fertig trainiertes LLM wie ChatGPT und liefert ihm die zusätzlichen Informationen mit, die es auch noch bedenken soll. Das LLM ist also gewissermassen das unveränderbare Langzeitgedächtnis eines KI-Systems – aber wir können ihm eigene Informationen ins Kurzzeitgedächtnis laden, um spezifischere Antworten zu erhalten. Und dieses Prinzip heisst Retrieval-Augmented Generation.