Mi az a kulcsszófelismerés?

Cikk
01/23/2024

A kulcsszófelismerés egy szó- vagy rövid kifejezést észlel egy hangstreamben. Ezt a technikát kulcsszó-észlelésnek is nevezik.

A kulcsszófelismerés leggyakoribb használati esete a virtuális asszisztensek hangaktiválása. A "Hey Cortana" például a Cortana-asszisztens kulcsszója. A kulcsszó felismerése után a rendszer forgatókönyv-specifikus műveletet hajt végre. A virtuális asszisztensi forgatókönyvek esetében a gyakori eredmény a hang beszédfelismerése, amely a kulcsszót követi.

A virtuális asszisztensek általában mindig figyelnek. A kulcsszófelismerés adatvédelmi határként működik a felhasználó számára. A kulcsszókövetelmény kapuként működik, amely megakadályozza, hogy a nem kapcsolódó felhasználói hang átkeljen a helyi eszközön a felhőbe.

A pontosság, a késés és a számítási összetettség egyensúlya érdekében a kulcsszófelismerés többtényezős rendszerként van implementálva. Az elsőn túl minden fázis esetében a hang csak akkor lesz feldolgozva, ha az azt megelőző szakasz felismeri az érdeklődési kulcsszót.

A jelenlegi rendszer több fázisból áll, amelyek lefedik a peremhálózatot és a felhőt:

Diagram that shows multiple stages of keyword recognition across the edge and cloud.

A kulcsszófelismerés pontosságát a következő metrikák mérik:

Helyes elfogadási arány: Méri a rendszer azon képességét, hogy felismerje a kulcsszót, amikor egy felhasználó beszéli. A helyes elfogadási arányt valódi pozitív aránynak is nevezik.
Hamis elfogadási arány: Méri a rendszer azon képességét, hogy kiszűrje a felhasználó által beszélt kulcsszót. A hamis elfogadási arányt hamis pozitív aránynak is nevezik.

A cél a helyes elfogadási arány maximalizálása a hamis elfogadási arány minimalizálása mellett. A jelenlegi rendszer úgy lett kialakítva, hogy észleljen egy kulcsszót vagy kifejezést, amelyet rövid csend előz meg. A kulcsszó mondat vagy kimondott szöveg közepén való észlelése nem támogatott.

Egyéni kulcsszó eszközmodellekhez

A Speech Studio egyéni kulcsszóportáljával olyan kulcsszófelismerő modelleket hozhat létre, amelyek a peremhálózaton futnak bármilyen szó vagy rövid kifejezés megadásával. A megfelelő kiejtések kiválasztásával tovább személyre szabhatja a kulcsszómodellt.

Árképzés

Az egyéni kulcsszó használata nem jár költséggel modellek létrehozásához, beleértve az alapszintű és a speciális modelleket is. A Speech SDK-val az eszközön futtatott modelleket sem kell költségesen futtatni, ha más Speech service-funkciókkal, például beszédfelolvasással használják.

Modellek típusai

Egyéni kulcsszóval kétféle eszközmodellt hozhat létre bármely kulcsszóhoz.

Modell típusa	Leírás
Alap	Leginkább demó- vagy gyors prototípus-készítéshez alkalmas. A modellek egy közös alapmodellel jönnek létre, és akár 15 percet is igénybe vehet. Előfordulhat, hogy a modellek nem rendelkeznek optimális pontossági jellemzőkkel.
Felsőfokú	Leginkább termékintegrációs célokra alkalmas. A modellek egy közös alapmodell adaptálásával jönnek létre szimulált betanítási adatok használatával a pontossági jellemzők javítása érdekében. A modellek előkészítése akár 48 órát is igénybe vehet.

Feljegyzés

A speciális modelltípust támogató régiók listáját a kulcsszófelismerő régió támogatási dokumentációjában tekintheti meg.

Egyik modelltípus sem követeli meg a betanítási adatok feltöltését. Az egyéni kulcsszó teljes mértékben kezeli az adatlétrehozás és a modell betanítását.

Kiejtés

Új modell létrehozásakor az egyéni kulcsszó automatikusan létrehozza a megadott kulcsszó lehetséges kiejtéseit. Meghallgathatja az egyes kiejtéseket, és kiválaszthatja azokat a változatokat, amelyek szorosan tükrözik azt, ahogyan a felhasználók a kulcsszót mondják. Az összes többi kiejtést nem szabad kijelölni.

Fontos megfontolni a kiválasztott kiejtéseket a legjobb pontossági jellemzők biztosítása érdekében. Ha például a szükségesnél több kiejtést választ, magasabb hamis elfogadási arányt kaphat. Ha túl kevés kiejtést választ, és nem minden várt változatot fed le, akkor a helyes elfogadási arány alacsonyabb lehet.

Modellek tesztelése

Miután az egyéni kulcsszó létrehozza az eszközmodelleket, a modellek közvetlenül a portálon tesztelhetők. A portál használatával közvetlenül a böngészőbe is beszólhat, és kulcsszófelismerési eredményeket kaphat.

Kulcsszó-ellenőrzés

A kulcsszó-ellenőrzés egy felhőalapú szolgáltatás, amely csökkenti az eszközön futó, robusztus, Azure-ban futó modellek hamis elfogadásainak hatását. A kulcsszó-ellenőrzéshez nincs szükség hangolásra vagy betanításra a kulcsszó-ellenőrzéshez. A növekményes modellfrissítések folyamatosan üzembe vannak helyezve a szolgáltatásban a pontosság és a késés javítása érdekében, és transzparensek az ügyfélalkalmazások számára.

Árképzés

A kulcsszó-ellenőrzés mindig a szöveghez való beszéddel együtt használatos. A kulcsszó-ellenőrzés használata a szöveghez való beszéd költségén túl nem jár költséggel.

Kulcsszó-ellenőrzés és szövegfelolvasás

Ha kulcsszóellenőrzést használ, az mindig a szöveghez való beszéddel együtt történik. Mindkét szolgáltatás párhuzamosan fut, ami azt jelenti, hogy a hang mindkét szolgáltatásnak egyidejű feldolgozás céljából lesz elküldve.

Diagram that shows parallel processing of keyword verification and speech to text.

A kulcsszó-ellenőrzés és a szöveghez való beszéd párhuzamos futtatása a következő előnyökkel jár:

Nincs más késés a szöveghez való beszédben: A párhuzamos végrehajtás azt jelenti, hogy a kulcsszó-ellenőrzés nem jár késéssel. Az ügyfél gyorsan megkapja a szöveges beszéd eredményeit. Ha a kulcsszó-ellenőrzés megállapítja, hogy a kulcsszó nem volt jelen a hangban, a szövegfeldolgozás leáll. Ez a művelet védelmet nyújt a szövegfeldolgozás szükségtelen beszéde ellen. A hálózati és felhőmodellek feldolgozása növeli a hangaktiválás felhasználó által érzékelt késését. További információ: Javaslatok és irányelvek.
Kényszerített kulcsszóelőtag a beszéd szöveggé alakításához: A szövegfeldolgozáshoz való beszéd biztosítja, hogy az ügyfélnek küldött eredmények előtagként szerepeljenek a kulcsszóval. Ez a viselkedés nagyobb pontosságot tesz lehetővé a kulcsszót követő beszéd és szöveg eredményében.
Beszéd és szöveg közötti időtúllépés: Mivel a kulcsszó a hang elején várhatóan jelen van, a szöveghez való beszéd hosszabb, legfeljebb öt másodperces szünetet tesz lehetővé a kulcsszó után, mielőtt meghatározza a beszéd végét, és megszakítja a beszédet a szövegfeldolgozással. Ez a viselkedés biztosítja, hogy a felhasználói élmény megfelelően legyen kezelve a szakaszos parancsok (kulcsszó-szüneteltetési><<>parancs>) és a láncolt parancsok (<kulcsszóparancs>><) esetében.<

Kulcsszó-ellenőrzési válaszok és késési szempontok

A szolgáltatásnak küldött minden kérés esetén a kulcsszó-ellenőrzés két válasz egyikét adja vissza: elfogadva vagy elutasítva. A feldolgozási késés a kulcsszó hosszától és annak a hangszegmensnek a hosszától függően változik, amely várhatóan tartalmazza a kulcsszót. A feldolgozási késés nem tartalmazza az ügyfél és a Speech-szolgáltatások közötti hálózati költségeket.

Kulcsszó-ellenőrzési válasz	Leírás
Elfogadva	Azt jelzi, hogy a szolgáltatás úgy gondolta, hogy a kulcsszó megtalálható a kérés részeként megadott hangstreamben.
Elutasítva	Azt jelzi, hogy a szolgáltatás úgy véli, hogy a kulcsszó nem szerepel a kérés részeként megadott hangstreamben.

Az elutasított esetek gyakran nagyobb késést eredményeznek, mivel a szolgáltatás több hangot dolgoz fel, mint az elfogadott eseteket. Alapértelmezés szerint a kulcsszó-ellenőrzés legfeljebb két másodpercnyi hanganyagot dolgoz fel a kulcsszó kereséséhez. Ha a kulcsszó két másodperc alatt nem található, a szolgáltatás időtúllépést jelez, és elutasított választ jelez az ügyfélnek.

Kulcsszó-ellenőrzés használata egyéni kulcsszóból származó eszközmodellekkel

A Speech SDK lehetővé teszi az egyéni kulcsszóval generált eszközmodellek zökkenőmentes használatát kulcsszó-ellenőrzéssel és szöveggé alakítással. Transzparensen kezeli a következőt:

Hangbeolvasás kulcsszó-ellenőrzésre és beszédfelismerésre az eszközmodell eredményei alapján.
A kulcsszó és a kulcsszó ellenőrzése.
További metaadatok átadása a felhőbe a végpontok közötti forgatókönyv vezényléséhez.

Nem kell explicit módon megadnia semmilyen konfigurációs paramétert. A rendszer automatikusan kinyer minden szükséges információt az egyéni kulcsszó által létrehozott eszközmodellből.

Az itt csatolt minta és oktatóanyagok bemutatják a Speech SDK használatát:

A Speech SDK integrációja és forgatókönyvei

A Speech SDK lehetővé teszi az egyéni kulcsszó- és kulcsszóellenőrzéssel létrehozott, személyre szabott eszközalapú kulcsszófelismerési modellek egyszerű használatát. A termék igényeinek kielégítése érdekében az SDK a következő két forgatókönyvet támogatja:

Eset	Leírás	Példák
Végpontok közötti kulcsszófelismerés szövegfelolvasással	Leginkább olyan termékekhez ideális, amelyek egyéni kulcsszóellenőrzéssel és beszédalapú szöveggel rendelkező, testre szabott eszközalapú kulcsszómodellt használnak. Ez a forgatókönyv a leggyakoribb.	Hangsegéd mintakódja Oktatóanyag: Az Azure AI Bot Service használatával készült asszisztens hangalapú engedélyezése a C# Speech SDK-val Oktatóanyag: Egyéni parancsalkalmazás létrehozása egyszerű hangparancsokkal
Offline kulcsszófelismerés	Leginkább olyan hálózati kapcsolat nélküli termékekhez ideális, amelyek egyéni kulcsszóból származó, testre szabott eszközalapú kulcsszómodellt használnak.	C# windowsos UWP-mintán Java androidos mintán

Mi az a kulcsszófelismerés?

Egyéni kulcsszó eszközmodellekhez

Árképzés

Modellek típusai

Kiejtés

Modellek tesztelése

Kulcsszó-ellenőrzés

Árképzés

Kulcsszó-ellenőrzés és szövegfelolvasás

Kulcsszó-ellenőrzési válaszok és késési szempontok

Kulcsszó-ellenőrzés használata egyéni kulcsszóból származó eszközmodellekkel

A Speech SDK integrációja és forgatókönyvei

Következő lépések

További források