AI-stack döntés: a 3-szintű architektúra, amit ma építenél
A leggyakoribb hiba, amit AI-bevezetésnél látunk: a csapat eldönti, hogy „használjuk a GPT-4-et”, és minden — chat, összegzés, beágyazás, klasszifikáció — egyetlen modellen fut. Hat hét múlva 3,200 EUR/hó számla és 4-7 másodperces válaszidők. A megoldás nem egy másik modell. A megoldás egy stack.
A három szint
Amikor a Nortinia tanácsadáson stack-tervet csinálunk, három réteget rajzolunk fel egy ügyfél előtt — egytől sem futunk el, mindegyik másra való.
1. szint — Szintézis (Claude Opus / GPT-4 osztály)
Ide tartozik minden, ami sokat „gondolkodik”: hosszú dokumentum-összegzés, jogi szöveg újraírás, többlépcsős érvelés, eszközhasználat orchestrálása, ügynök-koordinálás. Drága, lassú (~2-6s), de a minőség máshogy nem hozható. Tipikus arány a forgalomban: 5-10%. Ide tartozik az ár 60-70%-a is.
Anti-pattern: chatbot „Köszi, segítettél!”-jét Opus-szal válaszoltatni. Forintban: 1 millió tokenért 18-25 EUR-t fizetsz, ahol a Haiku 0,8 EUR-ért megoldja.
2. szint — Gyors válasz (Claude Haiku / GPT-4o-mini osztály)
A chat 80%-a ide tartozik: egyszerű kérdés-felelet, FAQ, fix-formátumú extrakció, kategorizálás, könnyű routing. Latency 400-900ms, ár tizedrésze a felső osztálynak. Itt a játékszabály: mindent ide tegyél, amit ide lehet — és csak mérés alapján emelj feljebb.
A Nortinia tenant-okon átlagosan 73% Haiku, 18% Opus, 9% embedding/egyéb. Egy ügyfélnél, ahol nem volt szint-tervezés, ez 4% Haiku / 91% Opus volt belépéskor.
3. szint — Memória és visszakeresés (embeddings + vektor DB)
Amit nem chatben hívsz: dokumentum-darabolás, beágyazás, hasonlóság-keresés. text-embedding-3-small vagy bge-m3, ezredannyiba kerül egy hívás. Itt nem latency a kérdés, hanem mit indexelsz és hogyan frissíted. A leggyakoribb hiba: 18 hónapja indexeltek mindent egyszer, és azóta a tudásbázis driftel.
A döntési mátrix
Költség / minőség / latency háromszögében minden új feature 5 kérdéssel kategorizálódik:
- Egy mondat a válasz vagy érvelési lánc? — egy mondat → 2. szint
- Kell-e külső eszközt hívni közben? — több hívás → 1. szint
- Real-time UX vagy async batch? — batch → mindig olcsóbb modell
- Strukturált kimenet (JSON) vagy szabad próza? — JSON-t a Haiku is megbízhatóan ad, ha a séma kötött
- Visszakeresés vagy generálás? — visszakeresés → embedding + RAG, ne LLM-mel kerestess
Ezt a mátrixot az implementáció előtt ki kell töltened. Utólag fáj.
Tipikus mérési eredmény
Egy közepes B2B SaaS-on (40k chat/hó), miután stack-szintű routing-ot bevezettünk:
- Havi modell-számla: 1,840 → 410 EUR (-77%)
- p50 latency: 2.1s → 0.7s (-67%)
- CSAT a chaten: 4.1 → 4.4 (a gyorsabb válasz jobban számít, mint a „kicsit okosabb”)
A stack-szintű döntés nem AI-stratégia. Ez mérnöki higiénia.
A tanulság
Ne egy modellt válassz — egy stack-et. Húzd meg a három szintet még a kódolás előtt, és minden új feature előtt töltsd ki a döntési mátrixot. Az LLM-piac 6 havonta változik; az architektúra-mintád 3 évig kitart.