Hangbemenet

Hangbemenet

A Hang a HoloLens egyik legfontosabb bemenete. Ez lehetővé teszi, hogy közvetlenül parancsoljon egy hologramot anélkül, hogy kézmozdulatokat kellene használnia. A hangbemenet természetes módon kommunikálhat a szándékkal. A hang különösen jó az összetett felületek bejárásában, mivel lehetővé teszi, hogy a felhasználók egyetlen paranccsal átvágják a beágyazott menüket.

A hangbemenetet ugyanaz a motor működteti, amely minden univerzális Windows-alkalmazásban támogatja a beszédet. A HoloLensben a beszédfelismerés mindig az eszköz beállításaiban konfigurált Windows megjelenítési nyelven fog működni.


Hang és tekintet

Hangparancsok használatakor a fej vagy a szem tekintete a tipikus célzási mechanizmus, legyen szó akár a "kiválasztás" kurzoráról, akár a parancs egy éppen megtekintett alkalmazáshoz való irányításáról. Előfordulhat, hogy nem is kell egyetlen tekintetmutatót sem megjeleníteni ("lásd, mondd ki"). Egyes hangparancsokhoz egyáltalán nincs szükség célra, például"go to start" vagy "Hey Cortana".

Eszköztámogatás

Szolgáltatás HoloLens (1. generációs) HoloLens 2 Modern headsetek
Hangbemenet ✔️ ✔️ ✔️ (mikrofonnal)

A "select" parancs

HoloLens (1. generációs)

Még anélkül is, hogy kifejezetten hangtámogatást ad az alkalmazáshoz, a felhasználók egyszerűen aktiválhatják a hologramokat a "select" rendszerhangparancs kimondásával. Ez ugyanúgy viselkedik, mint a HoloLensen lévő légcsapás, a Kiválasztás gomb megnyomása a HoloLens kattintásra, vagy az eseményindító lenyomása egy Windows Mixed Reality mozgásvezérlőn. Hallani fog egy hangot, és megjelenik egy elemleírás a "select" kifejezéssel, amely megerősítésként jelenik meg. A "Select" használatát egy alacsony energiaigényű kulcsszóészlelési algoritmus teszi lehetővé, ami azt jelenti, hogy bármikor kimondhatja, minimális akkumulátor-élettartammal. Akár azt is mondhatja, hogy "válassza ki" a kezét melletted.



HoloLens 2

Ha a "select" hangparancsot szeretné használni a HoloLens 2, először fel kell hoznia a tekintet kurzorát, hogy mutatóként használhassa. A felhozandó parancs könnyen megjegyezhető , csak mondja ki a "select" parancsot.

Ha ki szeretne lépni az üzemmódból, használja ismét a kezét a levegőre koppintással, az ujjaival egy gombhoz közeledve vagy a rendszer kézmozdulatával.

Kép: Mondja ki a "select" parancsot a hangparancs kiválasztásához

A felhasználók a



Hey Cortana

Bármikor kimondhatja, hogy "Hey Cortana". Nem kell megvárnia, amíg megjelenik, hogy továbbra is feltehesse a kérdését, vagy utasítást adjon neki. Próbálja meg például egyetlen mondatként kimondani a "Hey Cortana, mi az időjárás?" szöveget. Cortanával kapcsolatos további információkért és a elvégezhető műveletekért forduljon hozzá! Mondja ki a "Hey Cortana, mit mondhatok?" szöveget, és lekéri a munka és a javasolt parancsok listáját. Ha már szerepel a Cortana alkalmazásban, válassza a ? ikont az oldalsávon ugyanezen menü felhúzásához.

HoloLens-specifikus parancsok

  • "Mit mondhatok?"
  • "Ugrás a Start menüre" – bloom helyett a Start menü megnyitása
  • "Alkalmazás> indítása<"
  • "Alkalmazás> áthelyezése <ide"
  • "Kép készítése"
  • "Felvétel indítása"
  • "Rögzítés leállítása"
  • "Show hand ray"
  • "Kézsugarak elrejtése"
  • "Növelje a fényerőt"
  • "Csökkentse a fényerőt"
  • "Növelje a kötetet"
  • "Csökkentse a kötetet"
  • "Elnémítás" vagy "Visszahangosítás"
  • "Az eszköz leállítása"
  • "Indítsa újra az eszközt"
  • "Menj aludni"
  • "Mennyi az idő?"
  • "Mennyi akkumulátor van még hátra?"


"Lásd, mondja ki"

A HoloLens rendelkezik egy "see it, say it" modellel a hangbevitelhez, ahol a gombok címkéi azt is közlik a felhasználókkal, hogy milyen hangparancsokat mondhatnak el. Ha például egy alkalmazásablakot néz a HoloLensben (1st gen), a felhasználó mondhatja a "Kiigazítás" parancsot az alkalmazás világbeli helyzetének módosításához.

Kép: A felhasználó kimondhatja a "Kiigazítás" parancsot, amelyet az alkalmazássávon láthat az alkalmazás helyzetének módosításához

Hely
Amikor egy alkalmazásablakot vagy hologramot tekint meg, a felhasználó kimondhatja a


Ha az alkalmazások ezt a szabályt követik, a felhasználók könnyen megérthetik, hogy mit kell mondani a rendszer vezérléséhez. Miközben a HoloLens (1. generációs) egyik gombjára néz, megjelenik egy "hangleképezés" elemleírás, amely egy másodperc múlva megjelenik, ha a gomb hangalapú, és megjeleníti a parancsot, hogy "nyomja meg" azt. Ha meg szeretné jeleníteni a hang elemleírásait HoloLens 2, a hangkurzor megjelenítéséhez mondja ki a "select" vagy a "Mit mondhatok" (Lásd a képet).

Kép: "Lásd, mondd ki" parancsok jelennek meg a gombok alatt

Nézze meg, mondjuk, hogy a parancsok a gombok alatt jelennek meg



Hangparancsok a gyors hologram-kezeléshez

Számos hangparancsot mondhat, miközben egy hologramot néz, hogy gyorsan elvégezhesse a manipulációs feladatokat. Ezek a hangparancsok a világon elhelyezett alkalmazásablakokon és 3D-s objektumokon működnek.

Hologram-kezelési parancsok

  • Arccal
  • Nagyobb | Növel
  • Kisebb

A HoloLens 2 természetesebb interakciókat is létrehozhat szempillantással kombinálva, amely implicit módon környezeti információkat biztosít arról, hogy mire hivatkozik. Megnézhet például egy hologramot, és kimondhatja, hogy "tegye ezt", majd nézze át, hová szeretné helyezni, és mondja ki az " ide" szöveget. Vagy megnézhet egy holografikus részt egy összetett gépen, és azt mondhatja: "adjon nekem további információt erről".

Hangparancsok felderítése

Egyes parancsok, például a fenti gyors manipuláció parancsai rejtve lehetnek. Ha szeretné megtudni, hogy milyen parancsokat használhat, tekintsen egy objektumra, és mondja ki a következőt: "Mit mondhatok?". Megjelenik a lehetséges parancsok listája. A fej tekintetének kurzorával is körülnézhet, és felfedheti a hang elemleírásait az ön előtt lévő egyes gombokhoz.

Ha teljes listát szeretne, bármikor mondja ki a "Show all commands" (Az összes parancs megjelenítése) parancsot.

Diktálás

A hangdiktálás hatékonyabb lehet, ha levegő koppintással gépel be szöveget egy alkalmazásba. Ez jelentősen felgyorsíthatja a bemenetet, és kevesebb erőfeszítést igényel a felhasználó számára.

A hang diktálása a mikrofon gombjának kiválasztásával kezdődik
A hang diktálása a billentyűzet mikrofon gombjának kiválasztásával kezdődik

Ha a holografikus billentyűzet aktív, a gépelés helyett diktálási módra válthat. Az első lépésekhez válassza ki a mikrofont a szövegbeviteli mező oldalán.

Hangparancsok hozzáadása az alkalmazáshoz

Fontolja meg a hangparancsok hozzáadását minden ön által buildelt felülethez. A hang hatékony módszer a rendszer és az alkalmazások vezérlésére. Mivel a felhasználók különböző dialektusokkal és ékezetekkel beszélnek, a beszéd kulcsszavak megfelelő megválasztása biztosítja, hogy a felhasználók parancsai egyértelműek legyenek.

Ajánlott eljárások

Az alábbiakban néhány olyan eljárást ismertetünk, amelyek elősegítik a zökkenőmentes beszédfelismerést.

  • Rövid parancsok használata – Ha lehetséges, válasszon két vagy több szótagból álló kulcsszavakat. Az egy szótagos szavak általában különböző magánhangzós hangokat használnak, amikor különböző ékezetes személyek beszélnek. Példa: A "Videó lejátszása" jobb, mint a "Jelenleg kijelölt videó lejátszása"
  • Egyszerű szókincs használata – Példa: A "Jegyzet megjelenítése" jobb, mint a "Plakát megjelenítése"
  • Győződjön meg arról, hogy a parancsok nem destruktívak – Győződjön meg arról, hogy a beszédparancsok bármely művelete nem romboló, és könnyen visszavonható abban az esetben, ha egy másik, a felhasználó közelében beszélő személy véletlenül elindít egy parancsot.
  • Kerülje a hasonló hangparancsokat – Ne regisztráljon több hasonló hangparancsot. Példa: A "Show more" (Továbbiak megjelenítése) és a "Show store" (Áruház megjelenítése) hasonló hangjelzéssel jelenhet meg.
  • Az alkalmazás regisztrációjának törlése, ha nem használja – Ha az alkalmazás nem olyan állapotban van, amelyben egy adott beszédparancs érvényes, fontolja meg a regisztráció törlését, hogy más parancsok ne tévesztendők össze.
  • Tesztelés különböző ékezetekkel – Tesztelje az alkalmazást különböző ékezetes felhasználókkal.
  • Hangparancsok konzisztenciájának fenntartása – Ha a "Vissza" az előző oldalra kerül, tartsa fenn ezt a viselkedést az alkalmazásokban.
  • Kerülje a rendszerparancsok használatát – Az alábbi hangparancsok vannak fenntartva a rendszer számára, ezért ne használja őket az alkalmazásokban:
    • "Hey Cortana"
    • "Kiválasztás"
    • "Ugrás a kezdéshez"

A hangbevitel előnyei

A hangbevitel természetes módja a szándékaink közlésének. A hang különösen jó a felületi bejárások során, mert segíthet a felhasználóknak átvágni egy felület több lépését. A felhasználó azt mondhatja, hogy "vissza", miközben egy weblapot néz, ahelyett, hogy fel kellene lépnie, és meg kellene nyomnia a vissza gombot az alkalmazásban. Ez a kis időmegtakarítás erőteljes érzelmi hatással van a felhasználó által érzékelt élmény, és ad nekik egy kis mennyiségű szuperhatalom. A hang használata is kényelmes beviteli módszer, ha a karjaink tele vannak, vagy többfeladatosak. Azokon az eszközökön, ahol a billentyűzeten nehéz gépelni, a hang diktálása hatékony alternatívát jelenthet a szövegbevitelhez. Végül, bizonyos esetekben, amikor a tekintet és a kézmozdulat pontossága korlátozott, a hang segíthet a felhasználó szándékának egyértelműsítésében.

A hang használata előnyös lehet a felhasználó számára

  • Csökkenti az időt – hatékonyabbá kell tennie a célokat.
  • Minimalizálja a munkamennyiséget – hatékonyabbá és könnyedebbé teszi a feladatokat.
  • Csökkenti a kognitív terhelést – intuitív, könnyen megtanulható és megjegyezhető.
  • Társadalmilag elfogadható – illeszkednie kell a viselkedés társadalmi normáihoz.
  • Rutinszerű – a hang könnyen szokásos viselkedéssé válhat.

A hangbevitel kihívásai

Bár a hangbevitel számos különböző alkalmazáshoz kiváló, számos kihívással is szembe kell néz. A hangbevitel előnyeinek és kihívásainak megértése lehetővé teszi, hogy az alkalmazásfejlesztők intelligensebb döntéseket hozzanak a hangbemenet használatának módjáról és időpontjáról, és nagyszerű élményt teremthessenek a felhasználók számára.

Hangbemenet a folyamatos bevitel vezérléséhez Ezek közé tartozik a finomított vezérlés. Előfordulhat például, hogy egy felhasználó módosítani szeretné a hangerőt a zenealkalmazásban. Azt is mondhatja, hogy "hangosabb", de nem világos, hogy a rendszernek mennyivel hangosabbnak kellene lennie a hangerőnek. A felhasználó a következőt mondhatja: "Legyen egy kicsit hangosabb", de a "kicsit" nehezen számszerűsíthető. A hologramok hanggal való áthelyezése vagy méretezése hasonlóképpen nehéz.

A hangbemenet-észlelés megbízhatósága Bár a hangbemeneti rendszerek egyre jobbak és jobbak, előfordulhat, hogy helytelenül hallanak és értelmeznek egy hangparancsot. A kulcs az alkalmazás feladványának megoldása. Visszajelzést küldhet a felhasználóknak, amikor a rendszer figyel, és hogy a rendszer mit értett meg, tisztázza a felhasználók beszédének megértését érintő lehetséges problémákat.

Hangbemenet megosztott helyeken Előfordulhat, hogy a hang nem fogadható el társadalmilag olyan helyeken, amelyeket megoszt másokkal. Íme, néhány példa:

  • Előfordulhat, hogy a felhasználó nem szeretne zavarni másokat (például egy csendes könyvtárban vagy megosztott irodában)
  • A felhasználók kényelmetlenül érezhetik magukat, amikor nyilvánosan beszélnek,
  • Előfordulhat, hogy a felhasználó kényelmetlenül érzi magát egy személyes vagy bizalmas üzenet diktálásával (beleértve a jelszavakat is), miközben mások figyelnek

Egyedi vagy ismeretlen szavak hangbevitele A hangbeviteli nehézségek akkor is előfordulnak, ha a felhasználók olyan szavakat diktálnak, amelyek a rendszer számára ismeretlenek lehetnek, például becenevek, bizonyos szlengszavak vagy rövidítések.

Hangparancsok tanulása Bár a végső cél az, hogy természetes módon kommunikáljon a rendszerével, az alkalmazások gyakran továbbra is adott előre meghatározott hangparancsokra támaszkodnak. A hangparancsok jelentős halmazával kapcsolatos kihívás, hogy hogyan taníthatja meg őket anélkül, hogy túlterheli a felhasználót, és hogyan segítheti a felhasználót a megtartásukban.



Hangvisszajelzési állapotok

Ha a Hang megfelelően van alkalmazva, a felhasználó megérti, hogy mit mondhat, és egyértelmű visszajelzést kap, amelyet a rendszer helyesen hallott. Ez a két jel magabiztossá teszi a felhasználót abban, hogy a Voice-t használja elsődleges bemenetként. Az alábbi diagram bemutatja, hogy mi történik a kurzorsal a hangbemenet felismerésekor, és hogyan kommunikál a felhasználóval.

1. Normál kurzorállapot
1. Normál kurzorállapot

2. Kommunikálja a hangvisszajelzést, majd eltűnik
2. Kommunikálja a hangvisszajelzést, majd eltűnik

*3. Normál kurzorállapot
3. Visszatérés a normál kurzorállapotba




A legtöbb dolog, amit a felhasználóknak tudniuk kell a "beszédről" a vegyes valóságban

  • Gomb megcélzása közben mondja ki a "Kiválasztás" parancsot (bárhol kiválaszthat egy gombot).
  • Egyes alkalmazásokban kimondhatja az alkalmazássáv gombjának feliratnevét , hogy végrehajtsa a műveletet. Egy alkalmazás megtekintése közben például a felhasználó kimondhatja az "Eltávolítás" parancsot, hogy eltávolítsa az alkalmazást a világból (ez időt takarít meg attól, hogy kézzel kell kiválasztania).
  • Cortana a "Hey Cortana" (Hey Cortana) üzenettel indítható el. Kérdéseket tehet fel neki ("Hey Cortana, milyen magas az Eiffel-torony"), megkérheti, hogy nyisson meg egy alkalmazást ("Hey Cortana, nyissa meg a Netflixet"), vagy mondja meg neki, hogy hozza fel a Start menüt ("Hey Cortana, vigyél haza") és még sok mást.

Gyakori kérdések és aggodalmak a felhasználók számára a hanggal kapcsolatban

  • A használható parancsok
  • Hogyan tudom, hogy a rendszer helyesen hallott engem?
    • A rendszer folyamatosan hibásan kapja meg a hangparancsokat.
    • Nem reagál, ha hangparancsot adok neki.
  • Helytelenül reagál, amikor hangparancsot adok neki.
  • Hogyan hangomat egy adott alkalmazásra vagy alkalmazásparancsra célozom?
  • Használhatok hangparancsot a HoloLens holografikus keretének kiparancsolásához?

Kommunikáció

Azoknak az alkalmazásoknak, amelyek szeretnék kihasználni a HoloLens által biztosított testre szabott hangbemenet-feldolgozási lehetőségeket, fontos tisztában lenni az alkalmazás által használható különböző hangstream-kategóriákkal . Windows 10 számos különböző streamkategóriát támogat, és a HoloLens ezek közül háromat használ, hogy lehetővé tegye az egyéni feldolgozást a mikrofon beszédre, kommunikációra és egyéb eszközökre szabott hangminőségének optimalizálásához, amely környezeti környezeti hangrögzítéshez (azaz "kamerához") használható.

  • A AudioCategory_Communications stream kategória hívásminőségi és kísérőszöveg-forgatókönyvekhez van testre szabva, és 16 kHz-es, 24 bites mono audiostreamet biztosít az ügyfélnek a felhasználó hangjának
  • A AudioCategory_Speech stream kategória a HoloLens (Windows) beszédmotorhoz van testre szabva, és 16 kHz-es, 24 bites mono streamet biztosít a felhasználó hangjának. Ezt a kategóriát szükség esetén külső beszédmotorok is használhatják.
  • A AudioCategory_Other stream kategória a környezeti környezeti hangrögzítéshez van testre szabva, és 48 kHz-es 24 bites sztereó hangstreamet biztosít az ügyfélnek.

Mindez a hangfeldolgozás hardveresen gyorsított, ami azt jelenti, hogy a funkciók sokkal kevesebb energiát ürítenek ki, mintha ugyanezt a feldolgozást a HoloLens CPU-n végezték volna. Ne futtasson más hangbemeneti feldolgozást a CPU-n a rendszer akkumulátor-üzemidejének maximalizálása és a beépített, kiszervezett hangbemeneti feldolgozás előnyeinek kihasználása érdekében.

Nyelvek

HoloLens 2 több nyelvet is támogat. Ne feledje, hogy a beszédparancsok mindig a rendszer megjelenítési nyelvén futnak akkor is, ha több billentyűzet van telepítve, vagy ha az alkalmazások egy másik nyelven próbálnak beszédfelismerőt létrehozni.

Hibaelhárítás

Ha problémákat tapasztal a "select" és a "Hey Cortana" használatával, próbáljon meg csendesebb helyre lépni, elfordulni a zajforrástól, vagy hangosabban beszélni. Jelenleg a HoloLens összes beszédfelismerése kifejezetten az angol Egyesült Államok anyanyelvi beszélőire van optimalizálva.

A Windows Mixed Reality Developer Edition 2017-es kiadásában a hangvégpont felügyeleti logikája (örökre) megfelelően fog működni, miután kijelentkezett, majd a kezdeti HMD-kapcsolat után újra bejelentkezett a PC asztalára. Mielőtt a WMR OOBE-n keresztüli első kijelentkezés/bejelentkezés után a felhasználó különböző hangfunkciós problémákat tapasztalhatna, a hangtól kezdve a hangváltásig, attól függően, hogy a rendszer hogyan lett beállítva a HMD első csatlakoztatása előtt.



Hangbevitel az MRTK-ban (Mixed Reality Toolkit) a Unityhez

Az MRTK-val bármilyen objektumhoz egyszerűen hozzárendelhet hangparancsokat. A kulcsszavak meghatározásához használja az MRTK beszédbeviteli profilját . A SpeechInputHandler szkript hozzárendelésével bármely objektum válaszolhat a Beszédbeviteli profilban meghatározott kulcsszavakra. A SpeechInputHandler beszéd-megerősítési címkét is biztosít a felhasználó megbízhatóságának javítása érdekében.


Lásd még