Több nyelv, egy tudĂĄsbĂĄzis â hogyan mĂ»ködik az AI Chat fordĂtĂĄsa
A legtöbb többnyelvĂ» chat-rendszer kĂ©t mĂłdon hibĂĄzik: vagy mindent fordĂt CMS-szinten (nyelvenkĂ©nt szerkesztett duplikĂĄtum-content, drĂĄgĂĄn, lassan), vagy mindent fordĂt beszĂ©lgetĂ©s közben (drĂĄga a tokenelszĂĄmolĂĄs, Ă©s a szakkifejezĂ©sek eltorzulnak). A Nortinia AI Chat egy harmadik utat vĂĄlasztott: egy nyelven Ărt forrĂĄs, fordĂtĂĄs-tudatos retrieval.
A koncepciĂł: egyszer embedolunk, többször keresĂŒnk
A tenant a tudĂĄsbĂĄzist egyetlen forrĂĄs-nyelven Ărja meg â a hazai piacokon ez tipikusan magyar. Ez lehet termĂ©kleĂrĂĄs, FAQ, ĂSZF-pont, vagy belsĂ” knowledge-base bejegyzĂ©s.
A pipeline:
- Embedding â minden dokumentum-chunk-ot a forrĂĄs-nyelven embedolunk multilingual modellel (text-embedding-3-large vagy hasonlĂł). A modell a szemantikĂĄt kĂłdolja, nem a felszĂni szavakat. Egy magyar "szĂĄllĂtĂĄsi idĂ”" embedding Ă©s egy angol "delivery time" embedding közel van a vektorban.
- Query â a lĂĄtogatĂł bĂĄrmely nyelven kĂ©rdezhet. A kĂ©rdĂ©st a lĂĄtogatĂł nyelvĂ©n embedoljuk. A vektorkeresĂ©s ugyanabban a tĂ©rben fut.
- GenerĂĄlĂĄs â a top-k chunk visszakerĂŒl a modellnek a forrĂĄs-nyelven, Ă©s a modell a vĂĄlasz-nyelven fogalmaz. A prompt explicit utasĂtĂĄst ad: "A user nyelve magyar / angol / nĂ©met â vĂĄlaszolj abban."
Kulcs: a tudĂĄsbĂĄzis tartalmĂĄt soha nem fordĂtjuk elĂ”re. A modell a tartalom jelentĂ©sĂ©t fordĂtja oda-vissza a beszĂ©lgetĂ©s közben.
A glossary-overrride a szakkifejezésekre
Van ahol a generikus fordĂtĂĄs nem elĂ©g. Jogi, regulatorikus, vagy brand-specifikus kifejezĂ©sek kötött formĂĄban kell hogy megjelenjenek. Erre a per-tenant glossary szolgĂĄl:
{
"glossary": {
"hu": {
"ĂSZF": "ĂSZF",
"GDPR-megfelelÔség": "GDPR-megfelelÔség",
"Pro csomag": "Pro csomag"
},
"en": {
"ĂSZF": "Terms of Service (ĂSZF)",
"GDPR-megfelelÔség": "GDPR compliance",
"Pro csomag": "Pro plan"
},
"de": {
"ĂSZF": "AGB",
"GDPR-megfelelÔség": "DSGVO-KonformitÀt",
"Pro csomag": "Pro-Tarif"
}
}
}
A prompt-Ă©pĂtĂ©skor a glossary-bejegyzĂ©seket szigorĂș instrukciĂłkĂ©nt adjuk ĂĄt. A modell tudja: ha az "ĂSZF" szĂłt hasznĂĄlja, az angol felĂ© "Terms of Service (ĂSZF)" formĂĄban, nem "general conditions"-kĂ©nt.
A hĂĄrom nyelv amit a legtöbbet teszteltĂŒnk
Magyar, angol, német. Ezeken a flotta teljes forgalmånak 96%-a fut. A pontossåg (vålaszhelyesség human-eval alapjån) a következÔ:
- Magyar â magyar: 94.2% (a forrĂĄsnyelv, termĂ©szetesen a legjobb)
- Magyar â angol: 91.8% (a generikus fordĂtĂĄs itt nagyon jĂł)
- Magyar â nĂ©met: 88.3% (a glossary-override nĂ©lkĂŒl 79% volt â a komponĂĄlt szakszavak miatt)
A sarokeset: magyar összetett fÔnevek
A magyar nyelv egyik sajĂĄtossĂĄga, hogy szóösszetĂ©tellel vĂ©gtelen Ășj fĂ”nevet kĂ©pez. "ĂgyfĂ©lelĂ©gedettsĂ©gfelmĂ©rĂ©s" â ez egy valĂłdi szĂł, de a tokenizer nem ismeri. Az embedding minĂ”sĂ©ge ezekre csökken (mert ritkĂĄk a trĂ©ning-corpus-ban).
Amit csinĂĄlunk: a tenant indexelĂ©s elĂ”tt egy pre-processor pass-on ĂĄtengedi a forrĂĄs-szöveget, amely a tĂșl hosszĂș összetett fĂ”neveket rĂ©szekre bontja. Az eredmĂ©ny: "ĂŒgyfĂ©lelĂ©gedettsĂ©g-felmĂ©rĂ©s" lesz belĂ”le, amit a tokenizer mĂĄr termĂ©szetesen kezel. Egy korai chunk-pontossĂĄg-tesztben ez a pass 6.4%-kal javĂtotta az embedding-keresĂ©s pontossĂĄgĂĄt magyar source-on.
A boring gyakorlat
Néhåny dolog, amit a tenantnek be kell tartania ahhoz, hogy ez jól mûködjön:
- Egy forrĂĄsnyelv per dokumentum-csoport. Ne keverj egy FAQ-bejegyzĂ©sen belĂŒl HU + EN szöveget â az embedding zajos lesz.
- Glossary minden brand-szĂłra. TermĂ©kneveket, csomagneveket, jogi rövidĂtĂ©seket be kell Ărni.
- TesztelĂ©s human-eval-lal. NegyedĂ©vente 50 kĂ©rdĂ©s / nyelvi pĂĄr random mintĂĄn â ha valami romlik, idĂ”ben lĂĄtjuk.
TanulsĂĄg
A többnyelvĂ»sĂ©g az AI chat-ben nem ingyen jön. De a duplĂĄn-szerkesztett-tudĂĄsbĂĄzis modell költsĂ©gĂ©bĂ”l 80%-ot megtakarĂthatsz, ha jĂłl csinĂĄlod. A maradĂ©k 20% a glossary + human-eval â az ĂĄra egy negyedĂ©vi munka, ami beĂ©pĂŒl a rendszerbe.