Ugrás a tartalomhoz
← Vissza a naplóhoz

AI-stack döntés: a 3-szintű architektúra, amit ma építenél

Egy modell helyett egy stack: Opus a szintézisre (5-10%), Haiku a gyors válaszra (80%), embeddings a memóriára. Mért eredmény: -77% költség, -67% latency.

AI-stack döntés: a 3-szintű architektúra, amit ma építenél

A leggyakoribb hiba, amit AI-bevezetésnél látunk: a csapat eldönti, hogy „használjuk a GPT-4-et”, és minden — chat, összegzés, beágyazás, klasszifikáció — egyetlen modellen fut. Hat hét múlva 3,200 EUR/hó számla és 4-7 másodperces válaszidők. A megoldás nem egy másik modell. A megoldás egy stack.

A három szint

Amikor a Nortinia tanácsadáson stack-tervet csinálunk, három réteget rajzolunk fel egy ügyfél előtt — egytől sem futunk el, mindegyik másra való.

1. szint — Szintézis (Claude Opus / GPT-4 osztály)

Ide tartozik minden, ami sokat „gondolkodik”: hosszú dokumentum-összegzés, jogi szöveg újraírás, többlépcsős érvelés, eszközhasználat orchestrálása, ügynök-koordinálás. Drága, lassú (~2-6s), de a minőség máshogy nem hozható. Tipikus arány a forgalomban: 5-10%. Ide tartozik az ár 60-70%-a is.

Anti-pattern: chatbot „Köszi, segítettél!”-jét Opus-szal válaszoltatni. Forintban: 1 millió tokenért 18-25 EUR-t fizetsz, ahol a Haiku 0,8 EUR-ért megoldja.

2. szint — Gyors válasz (Claude Haiku / GPT-4o-mini osztály)

A chat 80%-a ide tartozik: egyszerű kérdés-felelet, FAQ, fix-formátumú extrakció, kategorizálás, könnyű routing. Latency 400-900ms, ár tizedrésze a felső osztálynak. Itt a játékszabály: mindent ide tegyél, amit ide lehet — és csak mérés alapján emelj feljebb.

A Nortinia tenant-okon átlagosan 73% Haiku, 18% Opus, 9% embedding/egyéb. Egy ügyfélnél, ahol nem volt szint-tervezés, ez 4% Haiku / 91% Opus volt belépéskor.

3. szint — Memória és visszakeresés (embeddings + vektor DB)

Amit nem chatben hívsz: dokumentum-darabolás, beágyazás, hasonlóság-keresés. text-embedding-3-small vagy bge-m3, ezredannyiba kerül egy hívás. Itt nem latency a kérdés, hanem mit indexelsz és hogyan frissíted. A leggyakoribb hiba: 18 hónapja indexeltek mindent egyszer, és azóta a tudásbázis driftel.

A döntési mátrix

Költség / minőség / latency háromszögében minden új feature 5 kérdéssel kategorizálódik:

  1. Egy mondat a válasz vagy érvelési lánc? — egy mondat → 2. szint
  2. Kell-e külső eszközt hívni közben? — több hívás → 1. szint
  3. Real-time UX vagy async batch? — batch → mindig olcsóbb modell
  4. Strukturált kimenet (JSON) vagy szabad próza? — JSON-t a Haiku is megbízhatóan ad, ha a séma kötött
  5. Visszakeresés vagy generálás? — visszakeresés → embedding + RAG, ne LLM-mel kerestess

Ezt a mátrixot az implementáció előtt ki kell töltened. Utólag fáj.

Tipikus mérési eredmény

Egy közepes B2B SaaS-on (40k chat/hó), miután stack-szintű routing-ot bevezettünk:

  • Havi modell-számla: 1,840 → 410 EUR (-77%)
  • p50 latency: 2.1s → 0.7s (-67%)
  • CSAT a chaten: 4.1 → 4.4 (a gyorsabb válasz jobban számít, mint a „kicsit okosabb”)

A stack-szintű döntés nem AI-stratégia. Ez mérnöki higiénia.

A tanulság

Ne egy modellt válassz — egy stack-et. Húzd meg a három szintet még a kódolás előtt, és minden új feature előtt töltsd ki a döntési mátrixot. Az LLM-piac 6 havonta változik; az architektúra-mintád 3 évig kitart.

Beszéljünk a projektedről

Mondd el, mit építesz — meglátjuk, hogyan segíthetünk.