Was RAG bedeu­tet #

RAG steht für Retrie­val-Aug­men­ted Gene­ra­ti­on. Das Kon­zept wur­de 2020 von Patrick Lewis und Kol­le­gen bei Face­book AI Rese­arch ver­öf­fent­licht und ist heu­te der Archi­tek­tur-Stan­dard für jedes ernst­zu­neh­men­de Enterprise-KI-System.

Drei Begrif­fe im Namen, drei Schrit­te in der Praxis:

Retrie­val (Suche). Bevor das Sprach­mo­dell ant­wor­tet, sucht das Sys­tem in einem Daten­be­stand nach Doku­men­ten, die zur Fra­ge pas­sen. Die­se Suche ist seman­tisch, kein Stich­wort­ab­gleich, son­dern eine Bedeu­tungs­su­che. Eine Fra­ge nach Auf­be­wah­rungs­fris­ten für Per­so­nal­ak­ten” fin­det auch Doku­men­te, die das Wort Auf­be­wah­rungs­frist” nicht ent­hal­ten, aber den Sach­ver­halt behandeln.

Aug­men­ta­ti­on (Anrei­che­rung). Die gefun­de­nen Text­ab­schnit­te wer­den zusam­men mit der ursprüng­li­chen Fra­ge an das Sprach­mo­dell über­ge­ben. Das Modell sieht also nicht nur die Fra­ge, son­dern auch die rele­van­ten Inhal­te aus Ihren Dokumenten.

Gene­ra­ti­on (Ant­wort). Das Sprach­mo­dell for­mu­liert eine Ant­wort, die sich auf die über­ge­be­nen Inhal­te stützt. Weil die Quel­len mit­ge­lie­fert wer­den, kön­nen sie direkt zitiert und ver­linkt wer­den. Das Modell erfin­det kei­ne Para­gra­phen, kei­ne Ver­trags­klau­seln, kei­ne Stu­di­en­ergeb­nis­se, es greift auf das zurück, was tat­säch­lich vor­han­den ist.


War­um RAG nicht Fine-Tuning ist #

Der häu­figs­te Irr­tum: RAG und Fine-Tuning wer­den ver­wech­selt. Sie sind grund­le­gend verschieden.

Fine-Tuning bedeu­tet, ein vor­han­de­nes Sprach­mo­dell auf eige­nen Daten wei­ter­zu­trai­nie­ren. Das Wis­sen wird fest ins Modell ein­ge­brannt. Sobald sich Daten ändern, muss das Modell neu trai­niert wer­den. Für die meis­ten Unter­neh­men ist das wirt­schaft­lich nicht sinn­voll: Die Daten­be­stän­de ändern sich kon­ti­nu­ier­lich, neue Doku­men­te ent­ste­hen täg­lich, ein Trai­ning dau­ert Stun­den bis Tage, und ein eige­nes ML-Team ist nötig.

RAG trai­niert gar nicht. Statt­des­sen wird das Modell im Moment der Anfra­ge mit den aktu­el­len Inhal­ten aus dem Daten­be­stand ver­sorgt. Ein neu­es Doku­ment ist sofort nach der Inde­xie­rung recher­chier­bar. Ein zurück­ge­zo­ge­nes Doku­ment ist sofort aus dem Index ent­fernt. Das Modell selbst bleibt unver­än­dert, es wird nur bes­ser informiert.

Eigen­schaftRAGFine-Tuning
Neue Daten sofort verfügbar✗ (neu­es Trai­ning nötig)
Eige­nes ML-Team erforderlich
Quell­nach­weis möglich
Modell aus­tausch­bar✗ (modell­ge­bun­den)
Geeig­net für wan­deln­de DatenbeständeBedingt
Ein­stiegs­in­ves­ti­ti­onMit­telHoch

Die zwei tech­ni­schen Bau­stei­ne #

RAG braucht zwei Kom­po­nen­ten, die vie­le IT-Ver­ant­wort­li­che noch nicht kennen:

Embed­dings #

Jeder Text­ab­schnitt (ein Absatz aus einem Ver­trag, eine Sei­te aus einem Wiki, ein E‑Mail-Aus­zug) wird in einen mathe­ma­ti­schen Vek­tor über­setzt. Die­ser Vek­tor reprä­sen­tiert die Bedeu­tung des Tex­tes. Inhalt­lich ähn­li­che Tex­te erhal­ten ähn­li­che Vek­to­ren, inhalt­lich ver­schie­de­ne erhal­ten verschiedene.

Das ist die Grund­la­ge der seman­ti­schen Suche: Das Sys­tem ver­gleicht nicht Wör­ter, son­dern Bedeu­tun­gen. Eine Fra­ge nach Kün­di­gungs­fris­ten” fin­det auch ein Doku­ment, das nur von Been­di­gungs­re­ge­lun­gen im Arbeits­ver­hält­nis” spricht.

Vek­tor-Daten­bank #

Die Embed­dings wer­den in einer Vek­tor-Daten­bank gespei­chert. Sie ist spe­zia­li­siert dar­auf, bei einer Such­an­fra­ge sehr schnell die ähn­lichs­ten Vek­to­ren zu fin­den, auch über Mil­lio­nen von Doku­men­ten. Eine gewöhn­li­che SQL-Daten­bank kann das nicht leisten.

In einem pro­duk­ti­ons­rei­fen Enter­pri­se-Sys­tem sind Vek­tor-Daten­bank und Sprach­mo­dell zwei sepa­ra­te Kom­po­nen­ten. Das ist wich­tig: Wer eine fer­ti­ge Lösung bewer­tet, soll­te fra­gen, wo die Vek­tor-Daten­bank läuft. Liegt sie bei einem exter­nen Dienst­leis­ter, ver­las­sen die Embed­dings Ihres Daten­be­stands das Unter­neh­men, auch wenn das eigent­li­che Sprach­mo­dell lokal läuft.


Was RAG für Enter­pri­se-Umge­bun­gen leis­tet #

Für Unter­neh­men mit sen­si­blen Daten und Com­pli­ance-Anfor­de­run­gen bringt RAG drei kon­kre­te Vorteile:

Quell­nach­weis statt Hal­lu­zi­na­ti­on. Jede KI-Ant­wort ist auf Doku­men­te zurück­führ­bar, die tat­säch­lich exis­tie­ren und die der anfra­gen­de Nut­zer lesen darf. Mit­ar­bei­ter kön­nen die Quel­le öff­nen und prü­fen. Das redu­ziert das Hal­lu­zi­na­ti­ons­pro­blem struk­tu­rell, nicht durch Ver­spre­chun­gen eines Anbie­ters, son­dern durch Architektur.

Daten blei­ben aktu­ell (ohne Auf­wand). Ein inter­nes Regel­werk, das heu­te aktua­li­siert wird, ist mor­gen über die KI recher­chier­bar. Kei­ne manu­el­le Pfle­ge, kein Neu-Trai­ning, kein Con­tent-Export in ein sepa­ra­tes System.

Rech­te­ma­nage­ment bleibt wirk­sam. RAG-Sys­te­me kön­nen die Such­ergeb­nis­se vor der Ant­wort­ge­ne­rie­rung fil­tern: Nur Inhal­te, auf die der anfra­gen­de Nut­zer Lese­rech­te besitzt, flie­ßen in den Kon­text. Damit bleibt das bestehen­de AD/LDAP-Rech­te­ma­nage­ment auch im KI-Kon­text wirk­sam, sofern die Lösung das unterstützt.


RAG und Daten­sou­ve­rä­ni­tät: Was im Enter­pri­se-Kon­text gilt #

RAG schützt Daten nicht auto­ma­tisch. Das Schutz­ver­spre­chen gilt nur, wenn alle Kom­po­nen­ten des Sys­tems lokal betrie­ben werden:

  • Das Sprach­mo­dell läuft lokal → Prompts ver­las­sen das Netz­werk nicht
  • Die Vek­tor-Daten­bank läuft lokal → Embed­dings blei­ben im Unternehmen
  • Die Kon­nek­to­ren lau­fen lokal → Kei­ne Daten­ko­pie bei Drittanbietern

Vie­le Cloud-KI-Diens­te bie­ten RAG-ähn­li­che Funk­tio­nen an: Micro­soft Copi­lot, Goog­le Note­book­LM, Ope­nAI Cus­tom GPTs. Der grund­le­gen­de Unter­schied: Die Inde­xie­rung und der Infe­ren­cing-Schritt fin­den auf Ser­vern statt, die dem US CLOUD Act und FISA 702 unter­lie­gen. US-Behör­den kön­nen auf Daten bei US-Unter­neh­men welt­weit zugrei­fen, unab­hän­gig vom Ser­ver­stand­ort. Für regu­lier­te Daten ist das ein struk­tu­rel­les Pro­blem, das kei­ne ver­trag­li­che Zusi­che­rung beseitigt.

Eine loka­le RAG-Appli­ance wie Silent AI führt alle Schrit­te (Inde­xie­rung, Embed­ding, Infe­ren­cing) auf eige­ner On-Pre­mi­ses-Hard­ware durch. Kein Daten­punkt ver­lässt das Netzwerk.

Loka­les KI-Wis­sens­ma­nage­ment mit Silent AIWas ist ?


Gren­zen von RAG #

RAG ist kein All­heil­mit­tel. Drei Gren­zen soll­ten IT-Ver­ant­wort­li­che kennen:

Qua­li­tät der Quel­len ent­schei­det. RAG kann nur so gut sein wie der indi­zier­te Daten­be­stand. Wer ver­al­te­te, wider­sprüch­li­che oder schlecht struk­tu­rier­te Doku­men­te indi­ziert, erhält ver­al­te­te, wider­sprüch­li­che oder schlecht struk­tu­rier­te Ant­wor­ten. Eine Daten-Hygie­ne vor dem Roll­out ist kei­ne Opti­on, son­dern Voraussetzung.

Rech­te müs­sen sau­ber sein. Wenn bestehen­de Berech­ti­gun­gen zu weit gefasst sind (Share­Point-Sites mit Anyo­ne in the orga­niza­ti­on”, File­ser­ver-Shares ohne rol­len­ba­sier­te Zugriffs­kon­trol­le) macht RAG die­se Fehl­kon­fi­gu­ra­ti­on sicht­bar. Ein Rech­te-Audit gehört zum Rollout.

Kein Ersatz für gene­ra­ti­ve Auf­ga­ben. RAG opti­miert den Zugriff auf vor­han­de­nes Wis­sen. Für krea­ti­ve Auf­ga­ben, Über­set­zun­gen oder all­ge­mei­ne Recher­ché außer­halb des eige­nen Daten­be­stands ist Cloud-KI wei­ter­hin das bes­se­re Werk­zeug. RAG und Cloud-KI schlie­ßen sich nicht aus, sie ergän­zen sich nach Datenklasse.


Häu­fi­ge Fra­gen zu RAG #

Brau­che ich für RAG eine eige­ne GPU? Für die Inde­xie­rung (Embed­ding-Erstel­lung) reicht eine CPU. Für das eigent­li­che Infe­ren­cing (das Gene­rie­ren der Ant­wort) ist eine GPU not­wen­dig, sobald die Ant­wort­zei­ten im Pro­duk­tiv­be­trieb unter fünf Sekun­den lie­gen sol­len. Fer­ti­ge Appli­ances wie Silent AI brin­gen die GPU mit.

Wie vie­le Doku­men­te kann RAG verarbeiten? Das hängt von der Vek­tor-Daten­bank und der Hard­ware ab, nicht von RAG als Kon­zept. Pro­duk­ti­ons­rei­fe Sys­te­me ver­ar­bei­ten Mil­lio­nen von Doku­men­ten ohne Qua­li­täts­ver­lust bei der Suche.

Kann RAG struk­tu­rier­te Daten aus SQL-Daten­ban­ken nutzen? Ja, mit ent­spre­chen­den Kon­nek­to­ren. Die struk­tu­rier­ten Daten wer­den in Text umge­wan­delt und wie Doku­men­te indi­ziert. Der Ansatz funk­tio­niert, erfor­dert aber einen spe­zia­li­sier­ten Kon­nek­tor pro Datenbankschema.

Wie aktu­ell sind die Antworten? Ant­wor­ten sind so aktu­ell wie die letz­te Inde­xie­rung der Quel­len. Pro­duk­ti­ve Sys­te­me syn­chro­ni­sie­ren kon­ti­nu­ier­lich oder in kur­zen Inter­val­len, neue Doku­men­te sind typi­scher­wei­se inner­halb von Minu­ten bis einer Stun­de recherchierbar.


Zusam­men­fas­sung #

RAG ist die Archi­tek­tur, die Sprach­mo­del­le für Enter­pri­se-Anwen­dun­gen auf sen­si­blen Daten erst nutz­bar macht. Kein Trai­ning, kein Daten­leck durch Prompts, kein Hal­lu­zi­na­ti­ons­pro­blem ohne Quell­ba­sis. Die Qua­li­tät einer RAG-Lösung ent­schei­det sich nicht am Sprach­mo­dell, son­dern an drei Fra­gen: Wo läuft die Vek­tor-Daten­bank? Wie wird das Rech­te­ma­nage­ment durch­ge­setzt? Wie sau­ber sind die indi­zier­ten Datenquellen?

KI-Wis­sens­ma­nage­ment: Der voll­stän­di­ge LeitfadenSilent AI: Loka­le RAG-Appli­ance für sen­si­ble Daten

Disclaimer

Dieser Beitrag wurde redaktionell erstellt und mit KI-Unterstützung aufbereitet. Er gibt einen allgemeinen Überblick und stellt keine Rechtsberatung dar – für Ihre konkrete Situation empfehlen wir professionellen Rat.