rag erklärt — llms mit firmen-daten

Retrieval-Augmented Generation: warum nicht Fine-Tuning, wie die Architektur aussieht, was bei DSGVO zu beachten ist.

von tokyn studio · 4 min lesezeit

RAG erklärt — LLMs mit Firmen-Daten — Company-GPT

TL;DR. Retrieval-Augmented Generation (RAG) ist eine Architektur, bei der ein Large Language Model vor jeder Antwort gezielt aus einer externen Wissensquelle nachschlägt. Vorteil: das LLM nutzt aktuelle, unternehmensspezifische Daten — ohne dafür neu trainiert zu werden, mit Quellen-Belegen pro Antwort. Stand: 2026-05.

was ist retrieval-augmented generation?

RAG kombiniert zwei Ideen: das Wissen, das in einem Foundation-Modell trainiert wurde, und die Daten, die ihr im Unternehmen habt. Statt das Modell mit euren Daten neu zu trainieren, holt es zur Laufzeit pro Frage genau die Passagen aus eurer Wissensbasis, die am wahrscheinlichsten zur Antwort beitragen — und nutzt diese als zusätzlichen Kontext beim Generieren.

Konkret: ein Mitarbeiter fragt das Company-GPT „Was sind unsere Kündigungsfristen für Rahmenverträge?". RAG durchsucht die hinterlegten Vertragsdokumente, findet die fünf relevantesten Passagen, hängt sie unsichtbar an die Frage und lässt das LLM die Antwort formulieren — mit konkreten Quellenzitaten aus den Verträgen.

warum nicht einfach fine-tuning?

Fine-Tuning (das LLM mit eigenen Daten weitertrainieren) klingt erstmal naheliegender. In der Praxis hat RAG fünf entscheidende Vorteile:

1. Aktualität. Neue Dokumente werden im RAG-System sichtbar, sobald sie indiziert sind — Minuten, nicht Wochen. Fine-Tuning bräuchte für jede Daten-Aktualisierung einen neuen Trainingslauf. 2. Quellenbelege. RAG-Systeme können jede Antwort mit der Quelle belegen. Beim Fine-Tuning verschmilzt das Wissen mit dem Modell — Belege sind nicht mehr rekonstruierbar. 3. Kosten. Fine-Tuning eines GPT-4-Klasse-Modells kostet je nach Datenmenge schnell vier- bis fünfstellig. RAG nutzt das Modell unverändert, kostet nur den Such-Index plus den normalen Inference-Preis. 4. DSGVO-Vorteil. Personenbezogene Daten landen im RAG-Index, nicht im trainierten Modell-Gewicht. Löschanfragen sind technisch möglich (Datensatz aus Index entfernen) — beim Fine-Tuning praktisch nicht. 5. Halluzinationen. RAG reduziert Halluzinationen, weil das Modell explizite Quellen statt nur trainierter Intuition nutzt. Wer keine Quelle findet, kann „Ich weiß es nicht" sagen — eine Disziplin, die Fine-Tuning-Modelle schwer erlernen.

architektur in 5 schritten

1. Ingest. Eure Dokumente (PDFs, Word, Confluence, SharePoint, CRM-Records) werden in einen Such-Index überführt. Texte werden in Chunks (typisch 200–800 Tokens) zerlegt.

2. Embedding. Jeder Chunk bekommt einen Vektor — eine numerische Repräsentation seines Inhalts. Ähnliche Inhalte haben ähnliche Vektoren. Modelle dafür: OpenAI text-embedding-3, Mistral Embed, Nomic, Voyage.

3. Retrieval. Bei einer Nutzer-Frage wird die Frage selbst eingebettet. Über Vektor-Ähnlichkeit (Cosine Similarity) werden die k passendsten Chunks gefunden — typisch k=5 bis 20.

4. Reranking (optional). Ein zweites Modell (z.B. Cohere Rerank) sortiert die k Chunks danach, wie relevant sie wirklich zur Frage sind. Reduziert Rauschen erheblich.

5. Generation. Die Frage plus die top-N Chunks gehen als Prompt ins LLM. Das LLM antwortet auf Basis dieses Kontexts, idealerweise mit Quellenhinweis je Aussage.

typische fehlerquellen

Schlechte Chunks. Zu lang → das LLM muss durch Lärm filtern. Zu kurz → der Kontext fehlt. Iteratives Tuning der Chunk-Größe ist Pflicht.

Falsches Embedding-Modell. Englisch trainiert ≠ Deutsch optimiert. Multilinguale Modelle (Mistral Embed, multilingual-E5) sind für DACH-Kontexte besser als englisch-only Optionen.

Kein Reranking. Pure Vektor-Suche bringt oft Chunks, die thematisch ähnlich sind, aber die Frage nicht beantworten. Reranking ist die billigste Qualitätssteigerung.

Keine Quellen-Belege. Wenn das LLM Antworten ohne Quellen-IDs liefert, kann niemand verifizieren. Pflicht in jedem ernsthaften RAG-Setup: pro Aussage eine Source-ID, die zurück zur Original-Stelle führt.

Veralteter Index. Ohne Re-Indexing bei Daten-Updates ist das System nach Wochen verzerrt. Tägliches Delta-Update sollte Default sein.

dsgvo-relevante aspekte

Wer RAG mit personenbezogenen Daten betreibt (z.B. Kundenakten, HR-Dokumente), muss DSGVO-Sorgfalt einbauen:

Zugriffskontrolle pro Dokument. Wer im RAG-System eine Frage stellt, sollte nur Antworten aus Dokumenten erhalten, für die er berechtigt ist. Das ist nicht „nice to have" — ohne diese Filterung leaked das System Daten zwischen Abteilungen.
Löschpflichten. Wenn ein Kunde gemäß Art. 17 DSGVO Löschung verlangt, muss der Index gepflegt werden — Datensatz raus, Embedding neu berechnen.
AVV mit Embedding-Anbieter. Wer OpenAI oder Mistral als Embedding-Anbieter nutzt, schließt einen Auftragsverarbeitungsvertrag (siehe auch unser [Glossar-Eintrag DSGVO + AI](/glossar#dsgvo-ai)).
EU-Hosting möglich. Mit Mistral, Cohere EU oder self-hosted Open-Source-Modellen (Llama, Mixtral) lässt sich RAG vollständig EU-only betreiben.

wann lohnt sich rag — wann nicht?

Lohnt sich: wann immer ein LLM auf interne Daten zugreifen soll, die nicht im Foundation-Modell trainiert wurden. Klassisch: Vertrags-/Handbuch-Lookup, interne Wissensbasis, Kundenservice mit Produkt-Doku, Recherche-Assistenten in Kanzleien.

Lohnt sich nicht: wenn das LLM nur natürliche Sprache verarbeitet (Übersetzung, Zusammenfassung externer Texte, Code-Generierung). Da reicht das Foundation-Modell. RAG fügt unnötige Latenz und Komplexität hinzu.

was wir bei tokyn tun

Wir bauen RAG-Systeme als Kern unserer [Company-GPT-Implementierungen](/company-gpt). Typische Auslieferungszeit für einen produktiven Pilot: 2–4 Wochen. Inklusive: Chunk-Strategie passend zum Doku-Typ, Embedding-Modell-Auswahl nach Sprache und Compliance, Reranking-Pipeline, Quellen-UI, Zugriffskontrolle pro Dokument, DSGVO-Setup.

Wer einen Anwendungsfall hat: ein [Erstgespräch](/kontakt) klärt in 30 Minuten, ob RAG dafür die richtige Architektur ist.

quellen

[Originalpaper: Lewis et al., 2020 — Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks](https://arxiv.org/abs/2005.11401)
[Cohere Rerank-Dokumentation](https://docs.cohere.com/docs/rerank-overview)
[Mistral Embed (multilingual, EU-gehostet)](https://docs.mistral.ai/capabilities/embeddings/)
[tokyn-Glossar: RAG](/glossar#rag), [Company-GPT](/glossar#company-gpt)

verwandter service

Company-GPT →

alle beiträge

nächster schritt

dein fall, konkret — reden wir.

30 Minuten, kein Pitch-Deck. Wir schauen uns deinen Use Case an und sagen ehrlich, ob und wie es sich lohnt.

Kostenloses Erstgespräch buchen →