Was RAG ist und warum es wichtig ist
Standard-GPT-4o kennt deine internen Unternehmensdokumente, deinen Produktkatalog oder deine Kundendaten nicht. RAG löst das: Du speicherst deinen Inhalt als Vektoreinbettungen in einer Datenbank, und bei einer Anfrage findest du die relevantesten Abschnitte und sendest sie als Kontext an das LLM.
Das Ergebnis: ein KI-Assistent, der Fragen über deine spezifischen Daten beantwortet — genau und mit Quellenangaben.
Für deutsche Unternehmen sind RAG-Anwendungen besonders wertvoll für: interne Wissensbasen (Mitarbeiterhandbücher, Prozessrichtlinien), Kundensupport-Chatbots basierend auf Produktdokumentation, und juristische oder regulatorische Q&A-Systeme. Da alle Daten in deiner Supabase-Instanz bleiben, erfüllst du einfach die DSGVO-Anforderungen an EU-Datenspeicherung.
Schritt 1: pgvector in Supabase aktivieren
Supabase wird mit pgvector eingebaut geliefert. Im Supabase SQL-Editor führst du aus: CREATE EXTENSION IF NOT EXISTS vector;
Dann erstellst du deine Dokumententabelle: CREATE TABLE documents ( id bigint primary key generated always as identity, content text, embedding vector(1536), metadata jsonb, created_at timestamptz default now() );
Erstelle einen Index für schnelle Ähnlichkeitssuche: CREATE INDEX ON documents USING ivfflat (embedding vector_cosine_ops);
Das ist das einzige SQL, das du schreiben musst. Wähle die EU-Region beim Erstellen deines Supabase-Projekts (z.B. eu-central-1 in Frankfurt), um sicherzustellen, dass Vektordaten innerhalb der EU bleiben.
Schritt 2: Einbettungen mit Xano generieren
In Xano erstellst du einen Endpoint, der einen Text-String akzeptiert, die OpenAI Embeddings API (text-embedding-3-small) aufruft und das Ergebnis in deiner Supabase documents-Tabelle speichert.
Der Function Stack: (1) Text-Input abrufen, (2) OpenAI API POST /v1/embeddings aufrufen, (3) Einbettungs-Array aus der Antwort extrahieren, (4) In Supabase über den Supabase API-Connector einfügen.
Führe das für jedes Dokument, jeden Artikel oder jeden FAQ-Eintrag aus, den deine KI kennen soll. Für deutsche Unternehmen kann das sein: Produktblätter, Preisdokumente, Kundenservice-Skripte oder rechtliche Verträge.
Schritt 3: Semantische Suche in Xano
Erstelle einen zweiten Endpoint, der: (1) Einen Nutzer-Anfrage-String akzeptiert, (2) Eine Einbettung für die Anfrage generiert (gleicher OpenAI-Aufruf), (3) Eine Vektorähnlichkeitssuche in Supabase durchführt.
Die Supabase RPC-Funktion dafür: SELECT content, 1 - (embedding <=> query_embedding) as similarity FROM documents ORDER BY embedding <=> query_embedding LIMIT 5;
Das gibt die 5 semantisch relevantesten Abschnitte für die Nutzeranfrage zurück. Das System versteht Bedeutung, nicht nur Keyword-Matching — eine Frage über "Urlaubspolitik" findet den richtigen Abschnitt, auch wenn das genaue Wort nicht im Dokument vorkommt.
Schritt 4: Antwort mit GPT-4o generieren
Mit den abgerufenen Abschnitten rufst du die OpenAI Chat Completions API auf. Der System-Prompt:
"Du bist ein hilfreicher Assistent. Beantworte die Frage des Nutzers NUR mit dem unten angegebenen Kontext. Wenn die Antwort nicht im Kontext enthalten ist, sage das.
Kontext: [HIER ABGERUFENE ABSCHNITTE EINFÜGEN]"
Das verankert die LLM-Antworten in deinen tatsächlichen Daten und verhindert Halluzinationen. Für deutsche Unternehmen kannst du den System-Prompt anpassen, um standardmäßig auf Deutsch zu antworten, förmliches oder informelles "Sie/du" je nach Kontext zu verwenden, und deutsche Regulierungen oder Branchenterminologie zu referenzieren.
Schritt 5: Chat-UI in WeWeb bauen
In WeWeb erstellst du eine Chat-Oberfläche mit einer Nachrichtenliste und einem Eingabefeld. Beim Absenden: rufe deinen Xano-Such-Endpoint auf, streame dann die GPT-Antwort mit Xanos Streaming-Support oder einem direkten OpenAI-Aufruf aus WeWebs Custom Code.
Für die Produktion füge hinzu: Nachrichtenhistorie (in Supabase gespeichert), Quellenangaben (zeige, welche Dokumente abgerufen wurden) und einen Feedback-Mechanismus (Daumen hoch/runter zur Verbesserung der Abrufqualität).
Das gesamte System kann innerhalb von 2–3 Wochen live sein und echte Nutzer bedienen. Eine interne Wissensbasis-Chatbot ist ein ausgezeichnetes erstes RAG-Projekt — definierter Scope, messbarer Wert und geringes Risiko. <a href="/contact">App Studio</a> hat 50+ solcher Apps in Produktion.