Claude és GPT-5.4 egy céges tűzfal mögött — mi működik valójában
Három ügyfél, három különböző compliance szint, három különböző self-hosted AI setup. Megosztjuk, melyik dolgozik éles üzemben.
A "self-hosted AI" nem azt jelenti, hogy mindent magad futtatsz — hanem azt, hogy tudod, kinek van hozzáférése az adataidhoz.
A "nem küldhetjük az adatot OpenAI-nak" mondat 2026-ban minden második bevezető call-on elhangzik. A kérdés persze nem az, hogy "lehet-e LLM-et céges tűzfal mögött futtatni", hanem az, hogy "milyen kompromisszumokkal". Három éles ügyfélprojektből gyűjtünk most össze tapasztalatokat.
Setup 1: API proxy gateway-vel
A legegyszerűbb: az Anthropic vagy OpenAI API egy saját proxyn keresztül érhető el, ami PII-maszkol a prompton és a válaszon is. A modell továbbra is a cloud-ban fut, de az érzékeny adat soha nem hagyja el a hálózatot plaintextben. Ezt a "jó, de nem is kiemelkedő" compliance szint használja.
Setup 2: Azure OpenAI + regionális tenant
Az EU-s pénzügyi ügyfeleknél ez a középút: Azure OpenAI EU-s régióban, dedikált tenant-ben. Ugyanaz a GPT-5.4, csak Microsoft SLA-val és adatrezidencia-garanciával. A modell továbbra sem a te géped fut, de a szerződéses lánc teljesen zárt.
Setup 3: teljesen on-prem open model
- Llama 3.1 70B vagy Mistral Large saját GPU clusterben
- vLLM vagy TGI inference szerver
- Kb. 40-60%-át éri el a Claude Opus minőségének bonyolult taskon
- Az első évi költség 2-4x drágább, mint a cloud API
- Csak akkor éri meg, ha a compliance tiltja minden cloudot
- A Nortinia ebben a setupban is deployol és fenntart
A három közül a legtöbb ügyfél az első kettőt választja. A harmadikat ritkán, csak amikor a compliance tényleg nem enged mást. De mindhárom működik — és a Nortinia mindhárom setup mögé áll, mérnökileg és üzletileg.
A döntési fa — öt kérdés, ami eldönti
- 1. Kikerülhet-e bármilyen ügyféladat a te hálózatodból (akár maszkolva)? Ha nem → Setup 3.
- 2. Kötelez-e a compliance EU-s adatrezidenciára írásos szerződéssel? Ha igen → Setup 2.
- 3. Van-e havi 500 ezer Ft alatti LLM forgalmad? Ha igen → Setup 1 elég.
- 4. Van-e benned 2-4x drágább éves költségre fedezet a következő évre? Ha nem → kerüld az on-prem-et.
- 5. Kell-e neked a Claude Opus szintű minőség bonyolult feladatokon? Ha igen → Setup 3 még nem elég.
Három éves táv az, ami a valós TCO-t megmutatja. Az első évben az on-prem drágább. A másodikban egyenlő. A harmadikban már olcsóbb — de csak akkor, ha a modellt nem kell frissíteni, és az inference hardware-t sem. A gyakorlat az, hogy évente kell frissíteni, így a harmadik év sem olcsóbb. A cloud variáns azért nyer legtöbb esetben.