Hogyan működik egy RAG alapú AI chatbot? — A grounding receptje érthető magyarázattal
A RAG (Retrieval-Augmented Generation) az a technika, ami eldönti, hogy az AI chatbot a saját dokumentumaiból válaszol-e, vagy kitalál valamit. Mutatjuk a teljes pipeline-t, érthetően.
Egy AI chatbot annyit ér, amennyit grounding-ol. Minden más csak demó.
A "ChatGPT-szerű" chatbot piaci elvárás 2026-ban — minden közepes méretű cég kapott már ajánlatot rá. A gond az, hogy a piacon kínált megoldások 80%-a "csak ChatGPT, beillesztve egy widgetbe". Ez működik egy darabig, aztán az első hét beszélgetésnél kiderül, hogy a chatbot kitalál árakat, hibásan idéz dokumentumokat, és nem ismeri a cég saját termékeit. A megoldás neve: RAG.
Ez a cikk lépésről lépésre bemutatja, hogyan működik egy RAG alapú AI chatbot — érthetően, de mégis úgy, hogy egy CTO is meg tudja értékelni, hogy a vásárolni kívánt rendszer valódi RAG-ot csinál-e, vagy csak így nevezi magát.
Mit jelent a RAG?
A RAG három szóból áll: Retrieval-Augmented Generation. Magyarul: visszakereséssel kiegészített szöveggenerálás. Egy klasszikus chatbot (ChatGPT) az emlékezetéből válaszol — abból, amit a tanítás során látott. Egy RAG chatbot ezt kibővíti: minden kérdés előtt először keresést végez a cég saját dokumentumai között, az így megtalált 3-5 dokumentumrészletet beilleszti a prompt-jába, és csak ezután generál választ. Az eredmény: a válasz a cég saját adataira épül, nem az AI fantáziájára.
A RAG pipeline 6 lépésben
- 1. Indexelés — minden cégen belüli dokumentumot (PDF, weboldal, súgó, termékleírás) feldarabolunk 200-500 szavas darabokra.
- 2. Embedding — minden darabból egy 1024-3072 dimenziós vektort készít egy embedding model. Ez a vektor numerikusan kifejezi a szöveg jelentését.
- 3. Tárolás — a vektorokat vektor adatbázisban tároljuk (pgvector, Pinecone, Qdrant). Egy 5 000 dokumentumos cég adatbázisa kb. 50-200 MB.
- 4. Kérdéskonverzió — amikor a felhasználó kérdez, a kérdést is embedding-eljük ugyanazzal a modellel.
- 5. Visszakeresés — kosinus-hasonlósággal megkeressük az 5 legközelebbi dokumentumrészletet.
- 6. Generálás — a kérdést + a megtalált 5 részletet egyetlen prompt-ba szerkesztjük, és LLM-mel (GPT-4, Claude, Llama) generáltatjuk a választ.
Miért nem hallucinál? — A grounding-szerződés
A RAG önmagában még nem garantálja, hogy a chatbot ne találjon ki dolgokat. A garanciát egy speciális system prompt + válasz-policy adja: "Csak akkor válaszolj, ha a megadott kontextusból egyértelműen levezethető. Ha nem találod a választ a kontextusban, mondd azt, hogy nem tudom, és javasolj egy emberi kontaktot." Ezzel a két mondattal a chatbot már nem akar mindenáron válaszolni — és ha nem tudja, beismeri.
A 4 minőségi szint — hol van az ön rendszere?
- Szint 1 — ChatGPT widget: nincs RAG, csak a tanítási adat. Hallucinál, naprakészsége az LLM cutoff-ja.
- Szint 2 — kulcsszó-keresés + ChatGPT: a cég dokumentumait keresi, de csak BM25-tel. Pontatlan találatok, gyakori hallucinálás.
- Szint 3 — vektor RAG: embedding-alapú visszakeresés + grounding prompt. Ez a piaci minimum 2026-ban.
- Szint 4 — hibrid RAG + finomhangolás: vektor + kulcsszó + rerank-er + cég-specifikus finomhangolás. Vállalati grade, 90%+ helyes válasz arány.
Hogyan mérje, hogy működik-e?
Három mérőszám az, ami egy RAG rendszer minőségét mutatja: (1) válaszminőség — 100 véletlen kérdés válaszának kézi pontozása 0-5 skálán; (2) lefedettség — milyen arányban válaszolt érdemben (nem "nem tudom"); (3) válaszidő — átlag és 95. percentilis. Ha bármelyik szám romlik, a rendszer karbantartásra szorul: új dokumentumok indexelése, embedding-modell frissítése, vagy a grounding-szerződés finomhangolása.
A Nortinia AI Chat hibrid RAG architektúrára épül (Szint 4), magyarországi adatközpontban futtatva. 14 napos POC-t tudunk indítani, mérhető válaszminőséggel a saját dokumentumain.
A Nortinia AI Chat részleteit itt találja: /ai-termekek/nortinia-ai-chat