UgrĂĄs a tartalomhoz
← Vissza a naplóhoz

Több nyelv, egy tudĂĄsbĂĄzis — hogyan mĂ»ködik az AI Chat fordĂ­tĂĄsa

Egy nyelven írt forrås, multilingual embedding, query bårmely nyelven. Glossary-override a brand- és szakkifejezésekre. Hårom tesztelt nyelv: HU, EN, DE.

Több nyelv, egy tudĂĄsbĂĄzis — hogyan mĂ»ködik az AI Chat fordĂ­tĂĄsa

A legtöbb többnyelvû chat-rendszer két módon hibåzik: vagy mindent fordít CMS-szinten (nyelvenként szerkesztett duplikåtum-content, drågån, lassan), vagy mindent fordít beszélgetés közben (dråga a tokenelszåmolås, és a szakkifejezések eltorzulnak). A Nortinia AI Chat egy harmadik utat vålasztott: egy nyelven írt forrås, fordítås-tudatos retrieval.

A koncepciĂł: egyszer embedolunk, többször keresĂŒnk

A tenant a tudĂĄsbĂĄzist egyetlen forrĂĄs-nyelven Ă­rja meg — a hazai piacokon ez tipikusan magyar. Ez lehet termĂ©kleĂ­rĂĄs, FAQ, ÁSZF-pont, vagy belsĂ” knowledge-base bejegyzĂ©s.

A pipeline:

  1. Embedding — minden dokumentum-chunk-ot a forrĂĄs-nyelven embedolunk multilingual modellel (text-embedding-3-large vagy hasonlĂł). A modell a szemantikĂĄt kĂłdolja, nem a felszĂ­ni szavakat. Egy magyar "szĂĄllĂ­tĂĄsi idĂ”" embedding Ă©s egy angol "delivery time" embedding közel van a vektorban.
  2. Query — a lĂĄtogatĂł bĂĄrmely nyelven kĂ©rdezhet. A kĂ©rdĂ©st a lĂĄtogatĂł nyelvĂ©n embedoljuk. A vektorkeresĂ©s ugyanabban a tĂ©rben fut.
  3. GenerĂĄlĂĄs — a top-k chunk visszakerĂŒl a modellnek a forrĂĄs-nyelven, Ă©s a modell a vĂĄlasz-nyelven fogalmaz. A prompt explicit utasĂ­tĂĄst ad: "A user nyelve magyar / angol / nĂ©met — vĂĄlaszolj abban."

Kulcs: a tudåsbåzis tartalmåt soha nem fordítjuk elÔre. A modell a tartalom jelentését fordítja oda-vissza a beszélgetés közben.

A glossary-overrride a szakkifejezésekre

Van ahol a generikus fordítås nem elég. Jogi, regulatorikus, vagy brand-specifikus kifejezések kötött formåban kell hogy megjelenjenek. Erre a per-tenant glossary szolgål:

{
  "glossary": {
    "hu": {
      "ÁSZF": "ÁSZF",
      "GDPR-megfelelÔség": "GDPR-megfelelÔség",
      "Pro csomag": "Pro csomag"
    },
    "en": {
      "ÁSZF": "Terms of Service (ÁSZF)",
      "GDPR-megfelelÔség": "GDPR compliance",
      "Pro csomag": "Pro plan"
    },
    "de": {
      "ÁSZF": "AGB",
      "GDPR-megfelelÔség": "DSGVO-KonformitÀt",
      "Pro csomag": "Pro-Tarif"
    }
  }
}

A prompt-Ă©pĂ­tĂ©skor a glossary-bejegyzĂ©seket szigorĂș instrukciĂłkĂ©nt adjuk ĂĄt. A modell tudja: ha az "ÁSZF" szĂłt hasznĂĄlja, az angol felĂ© "Terms of Service (ÁSZF)" formĂĄban, nem "general conditions"-kĂ©nt.

A hĂĄrom nyelv amit a legtöbbet teszteltĂŒnk

Magyar, angol, német. Ezeken a flotta teljes forgalmånak 96%-a fut. A pontossåg (vålaszhelyesség human-eval alapjån) a következÔ:

  • Magyar → magyar: 94.2% (a forrĂĄsnyelv, termĂ©szetesen a legjobb)
  • Magyar → angol: 91.8% (a generikus fordĂ­tĂĄs itt nagyon jĂł)
  • Magyar → nĂ©met: 88.3% (a glossary-override nĂ©lkĂŒl 79% volt — a komponĂĄlt szakszavak miatt)

A sarokeset: magyar összetett fÔnevek

A magyar nyelv egyik sajĂĄtossĂĄga, hogy szóösszetĂ©tellel vĂ©gtelen Ășj fĂ”nevet kĂ©pez. "ÜgyfĂ©lelĂ©gedettsĂ©gfelmĂ©rĂ©s" — ez egy valĂłdi szĂł, de a tokenizer nem ismeri. Az embedding minĂ”sĂ©ge ezekre csökken (mert ritkĂĄk a trĂ©ning-corpus-ban).

Amit csinĂĄlunk: a tenant indexelĂ©s elĂ”tt egy pre-processor pass-on ĂĄtengedi a forrĂĄs-szöveget, amely a tĂșl hosszĂș összetett fĂ”neveket rĂ©szekre bontja. Az eredmĂ©ny: "ĂŒgyfĂ©lelĂ©gedettsĂ©g-felmĂ©rĂ©s" lesz belĂ”le, amit a tokenizer mĂĄr termĂ©szetesen kezel. Egy korai chunk-pontossĂĄg-tesztben ez a pass 6.4%-kal javĂ­totta az embedding-keresĂ©s pontossĂĄgĂĄt magyar source-on.

A boring gyakorlat

Néhåny dolog, amit a tenantnek be kell tartania ahhoz, hogy ez jól mûködjön:

  • Egy forrĂĄsnyelv per dokumentum-csoport. Ne keverj egy FAQ-bejegyzĂ©sen belĂŒl HU + EN szöveget — az embedding zajos lesz.
  • Glossary minden brand-szĂłra. TermĂ©kneveket, csomagneveket, jogi rövidĂ­tĂ©seket be kell Ă­rni.
  • TesztelĂ©s human-eval-lal. NegyedĂ©vente 50 kĂ©rdĂ©s / nyelvi pĂĄr random mintĂĄn — ha valami romlik, idĂ”ben lĂĄtjuk.

TanulsĂĄg

A többnyelvĂ»sĂ©g az AI chat-ben nem ingyen jön. De a duplĂĄn-szerkesztett-tudĂĄsbĂĄzis modell költsĂ©gĂ©bĂ”l 80%-ot megtakarĂ­thatsz, ha jĂłl csinĂĄlod. A maradĂ©k 20% a glossary + human-eval — az ĂĄra egy negyedĂ©vi munka, ami beĂ©pĂŒl a rendszerbe.

BeszĂ©ljĂŒnk a projektedrƑl

Mondd el, mit Ă©pĂ­tesz — meglĂĄtjuk, hogyan segĂ­thetĂŒnk.

Több nyelv, egy tudĂĄsbĂĄzis — hogyan mĂ»ködik az AI Chat fordĂ­tĂĄsa — Nortinia Journal | Nortinia