Ugrás a tartalomhoz
← Vissza a naplóhoz

Hang vs. szöveg — mikor melyiket használja az ember és miért

A Nortinia AI Asszisztens hang és szöveg módja ugyanaz a tool-tár. A kérdés csak az, mikor melyik kényelmesebb a felhasználónak.

Hang vs. szöveg

A Nortinia AI Asszisztens két módusban érhető el ugyanazon a felületen: szöveges chat és élő hangbeszélgetés. Mindkettő ugyanazt a tool-katalógust használja, ugyanazt az audit-trail-t hagyja, ugyanazokra a scope-okra szigorú. A különbség nem a képességekben van, hanem abban, hogy mikor érdemes melyikhez nyúlni.

Amikor a hang nyer

Mobil pickerek

A telefonon való gépelés lassú. Egy raktáros mobil-szkennelés közben két ujjal nem fog 8 mezős formot kitölteni. A hang itt egyértelmű győztes: "szállítólap, három pala, Pécs raktár, holnap reggel" — kész. A rendszer azonnali preview-t mutat, a felhasználó megerősíti egy bólintással (vagy "igen"-nel).

Vezetők mozgásban

A pénzügyi vezető az autóból kérdezi "mi a tegnap óta lezárt számlák összege?" A válasz hang-felolvasásban jön, alatta a vizuális összegzés (autóban: hangzott; irodában visszanézve: olvasható).

Kéz-foglalt környezetek

Orvosi praxis vezetése (kezet mosott), bolti pultnál (csomagol), gyártósoron (szerszámmal). A hang itt nem luxus, hanem az egyetlen használható interface.

Gyors keresés

"Hol van Kovács Péter számlája?" — hangon 3 másodperc. Kézzel: keresés-mező megnyitása, gépelés, várakozás, kattintás. A hang itt latency-előnnyel nyer.

Amikor a szöveg nyer

Hosszú listák

"Adj egy listát a múlt heti 50 legnagyobb tranzakcióról" — hang-felolvasás 50 tételen abszurd. A rendszer ilyenkor automatikusan szövegre kapcsol, és a hang csak az összegző mondatot mondja: "itt van az 50 tétel táblázatban, kattints a tovább-ra a részletekért".

Formális jóváhagyások

Egy 4 millió forintos refund jóváhagyása formális gomb-nyomást kíván — nem hang-megerősítést. Az audit-trail-ben jobban néz ki egy explicit kattintás, mint egy hangminta. Compliance okból a > 1M Ft mutációk kötelezően szöveg + gomb-kombinációval mennek.

Képernyő-megosztás kollégákkal

Megbeszélésen képernyőt osztasz, a kollégád látja, mit kérdezel és milyen választ kapsz. A hang itt zavaró — a szoba másik fele is hallja. A szöveg vizuálisan diszkrét, és a kolléga vissza tud nézni a beszélgetésre későbbi referenciaként.

Pontos paraméter-megadás

"Új termék, neve PRO-2026-Q4-EU, ára 199990, ÁFA 27%, kategória elektronika." Ezt szövegben átadni gyorsabb és kevesebb hiba-eséllyel jár, mint hangon ("P-R-O kötőjel kettő-nulla-..."-szótagolni).

A kétirányú handoff

A legtöbb felhasználó nem választ egyet. Reggel hangon kezdi az autóban ("foglald össze a tegnap esti megrendeléseket"), aztán a laptopnál szöveggel folytatja ugyanazt a beszélgetést.

A folytonosság úgy működik, hogy minden chat-session egy közös conversation ID alatt fut, mindegy hogy a felhasználó éppen hangon vagy szövegen kommunikál. A waveform mellett egy diszkrét "szöveg"-kapcsoló: egy kattintás, és ugyanaz a kontextus megy tovább szöveg-módba (a hang-előzmény transcript-ként mellé).

Fordítva is: szöveges chat közben a felhasználó megnyomja a mikrofon-ikont, és a következő prompt hangon megy be. A bot szöveg vagy hang válasszal felel a felhasználó preferenciája szerint (preferencia perzisztens, session-szinten override-olható).

A hibrid use-case

"Mond el, hogy néz ki a holnapi szállítási terv" — hangon. A bot hangban összegez (3 mondat), és szövegben mutatja a részleteket (táblázat). A felhasználó hallja a lényeget, a részletet látja. Ez a hibrid mód a leggyakoribb, és a felhasználói visszajelzésekben a legnépszerűbb is.

A választás gyakorlatban

Nem kell stratégia. A felhasználó használja, ami az adott pillanatban kényelmes. A rendszer beáll arra, hogy mindkét csatorna ugyanazt nyújtja, és a váltás súrlódásmentes.

A mérésünk: a tipikus power-user 70% szöveg, 25% hang, 5% hibrid. A mobil-elsődleges felhasználó 60% hang, 35% szöveg, 5% hibrid. Egyik sem rossz arány — a rendszernek mindkettő van.

Mit fejlesztünk legközelebb

Három dolog: (1) ambient mode — a hang-csatorna nyitva marad háttérben, a bot megszólal csak fontos eseményeknél ("új high-priority refund érkezett"). (2) többnyelvű hang ugyanabban a sessionben (HU prompt, EN válasz, stb.). (3) hang-onboarding mode új felhasználóknak — az első bejelentkezésnél a bot hangban végigvisz egy 90 másodperces körutat a felületen.

Beszéljünk a projektedről

Mondd el, mit építesz — meglátjuk, hogyan segíthetünk.

Hang vs. szöveg — mikor melyiket használja az ember és miért — Nortinia Journal | Nortinia