Röstinmatning

Röstinmatning

Röst är en av de viktigaste formerna av indata i HoloLens. Det gör att du direkt kan kommando ett hologram utan att behöva använda handgester. Röstindata kan vara ett naturligt sätt att kommunicera din avsikt. Röst är särskilt bra på att bläddra i komplexa gränssnitt, eftersom det gör det möjligt för användare att klippa igenom kapslade menyer med ett kommando.

Röstindata drivs av samma motor som stöder tal i alla Universal Windows Apps. På HoloLens fungerar taligenkänning alltid i det Windows visningsspråk som konfigurerats i enheten Inställningar.


Röst och blick

När du använder röstkommandon är huvud- eller ögonögonfall den typiska målmekanismen, oavsett om det är med en markör att "välja" eller för att skicka kommandot till ett program som du tittar på. Det kanske inte ens krävs för att visa en blickmarkör ("se det, säg det"). Vissa röstkommandon kräver inte ett mål alls, till exempel "gå till start" eller "Hej Cortana".


Stöd för enheter

Funktion HoloLens (första generationen) HoloLens 2 Integrerande headset
Röstinmatning ✔️ ✔️ ✔️ (med mikrofon)

Kommandot "select"

HoloLens (första generationen)

Även om du inte lägger till röststöd i appen specifikt kan användarna aktivera hologram genom att helt enkelt säga systemröstkommandot "select". Detta fungerar på samma sätt som en lufttryckning på HoloLens, genom att trycka på knappen Välj på HoloLens-klickareneller trycka på utlösaren på en Windows Mixed Reality rörelsekontroll. Du kommer att höra ett ljud och en knappbeskrivning med "select" visas som bekräftelse. "Välj" aktiveras av en algoritm för nyckelordsidentifiering med låg energi, vilket innebär att du kan säga det när som helst med minimal inverkan på batterilivslängden. Du kan till och med säga "select" (välj) med händerna vid din sida.



HoloLens 2

Om du vill använda röstkommandot "select" HoloLens 2 måste du först ta fram blickmarkören som pekare. Kommandot för att ta fram det är lätt att komma ihåg – säg bara "select".

Om du vill avsluta läget använder du händerna igen genom att trycka i luften, närmar dig en knapp med din hand eller med hjälp av systemgesten.

Bild: Säg "select" för att använda röstkommandot för val

En användare kan säga "select" (välj) för att använda röstkommandot för ett val.



Hey Cortana

Du kan säga "Hej Cortana" för att ta Cortana när som helst. Du behöver inte vänta tills hon ser ut att kunna ställa din fråga eller ge henne en instruktion. Prova till exempel att säga "Hej Cortana, vad är vädret?" som en enda mening. Mer information om Cortana och vad du kan göra finns i fråga henne! Säg "Hej Cortana, vad kan jag säga?" och hon hämtar en lista över fungerande och föreslagna kommandon. Om du redan är i Cortana väljer du ? på sidopanelen för att hämta samma meny.

HoloLens specifika kommandon

  • "Vad kan jag säga?"
  • "Gå till Start" – i stället för bloom för att komma till Start-menyn
  • "Starta"
  • "Flytta hit"
  • "Ta en bild"
  • "Starta inspelning"
  • "Stoppa inspelning"
  • "Visa hand ray"
  • "Dölj hand ray"
  • "Öka ljusstyrkan"
  • "Minska ljusstyrkan"
  • "Öka volymen"
  • "Minska volymen"
  • "Stäng av" eller "Slå på ljudet"
  • "Stäng av enheten"
  • "Starta om enheten"
  • "Gå till strömsparläge"
  • "Vilken tid är det?"
  • "Hur mycket batteri har jag kvar?"


"Se det, säg det"

HoloLens har en "se den, säg det"-modell för röstinmatning, där etiketter på knappar talar om för användarna vilka röstkommandon de kan säga också. När du till exempel tittar på ett appfönster i HoloLens (första generationen) kan en användare säga kommandot "Justera" för att justera appens position i världen.

Bild: En användare kan säga kommandot "Justera" som visas i appfältet för att justera appens position

Utrymme
När du tittar på ett appfönster eller hologram kan en användare säga kommandot "Justera" som visas i appfältet för att justera appens position i världen


När appar följer den här regeln kan användarna enkelt förstå vad de ska säga för att kontrollera systemet. När du tittar på en knapp i HoloLens (första generationen) visas en knappbeskrivning för "röstigenkänning" som visas efter en sekund om knappen är röstaktiverad och visar kommandot för att tala för att "trycka på" den. Om du vill visa röstbeskrivningar i HoloLens 2 visar du röstmarkören genom att säga "select" eller "What can I say" (Se bild).

Bild: Kommandona "Se det, säg det" visas under knapparna

Se det, säg att det kommandon visas under knapparna



Röstkommandon för snabb hologrammanipulering

Det finns många röstkommandon som du kan säga samtidigt som du tittar på ett hologram för att snabbt utföra manipuleringsuppgifter. Dessa röstkommandon fungerar i appfönster och 3D-objekt som du har placerat i världen.

Kommandon för hologrammanipulering

  • Ansikts mig
  • Större | Förbättra
  • Mindre

I HoloLens 2 kan du också skapa mer naturliga interaktioner i kombination med blicken, som implicit ger sammanhangsbaserad information om vad du refererar till. Du kan till exempel titta på ett hologram och säga "put this"(placera det här) och sedan titta över var du vill placera det och säga "hit". Eller så kan du titta på en holografisk del på en komplex dator och säga: "ge mig mer information om det här".

Identifiera röstkommandon

Vissa kommandon, till exempel kommandon för snabb manipulering ovan, kan döljas. Om du vill veta mer om vilka kommandon du kan använda kan du titta på ett objekt och säga "vad kan jag säga?". En lista över möjliga kommandon visas. Du kan också använda huvudmarkören för att titta runt och visa röstknappbeskrivningarna för varje knapp framför dig.

Om du vill ha en fullständig lista kan du säga "Visa alla kommandon" när som helst.

Diktamen

I stället för att skriva med lufttryckkan röstdikteringen vara mer effektiv för att ange text i en app. Detta kan göra indata snabbare med mindre arbete för användaren.

Röst diktering börjar med att välja mikrofonknappen
Röst diktering börjar med att välja mikrofonknappen på tangentbordet

När det holografiska tangentbordet är aktivt kan du växla till dikteringsläge i stället för att skriva. Välj mikrofonen på sidan av textinmatningsrutan för att komma igång.

Lägga till röstkommandon i din app

Överväg att lägga till röstkommandon i alla funktioner som du skapar. Röst är ett kraftfullt sätt att styra systemet och apparna. Eftersom användarna talar med olika typer av dialekter och accenter, kommer rätt val av ordnyckelord att se till att användarnas kommandon tolkas entydigt.

Bästa praxis

Nedan visas några metoder som hjälper till med smidig taligenkänning.

  • Använd koncisa kommandon – Välj nyckelord med två eller flera stavelser när det är möjligt. En syllable-ord tenderar att använda olika vowel-ljud när de talas av personer med olika accenter. Exempel: "Spela upp video" är bättre än "Spela upp den valda videon"
  • Använd enkel vokabulär – Exempel: "Visa anteckning" är bättre än "Visa placard"
  • Kontrollera att kommandona är icke-destruktiva – Kontrollera att alla talkommandoåtgärder är icke-destruktiva och enkelt kan ångras om en annan person som talar nära användaren av misstag utlöser ett kommando.
  • Undvik kommandon med liknande ljud – Undvik att registrera flera talkommandon som låter liknande. Exempel: "Visa mer" och "Visa butik" kan låta ungefär så.
  • Avregistrera appen när den inte används – När appen inte är i ett tillstånd där ett visst talkommando är giltigt bör du överväga att avregistrera den så att andra kommandon inte förväxlas för den appen.
  • Testa med olika accenter – Testa din app med användare med olika accenter.
  • Upprätthålla röstkommandokonsekvens – Om "Gå tillbaka" går till föregående sida behåller du det här beteendet i dina program.
  • Undvik att använda systemkommandon – Följande röstkommandon är reserverade för systemet, så undvik att använda dem i dina program:
    • "Hej Cortana"
    • "Välj"
    • "Gå till start"

Fördelar med röstinmatning

Röstinmatning är ett naturligt sätt att kommunicera våra avsikter. Rösten är särskilt bra på gränssnitts traversaler eftersom det kan hjälpa användarna att gå igenom flera steg i ett gränssnitt. En användare kan säga "gå tillbaka" när de tittar på en webbsida, i stället för att behöva gå upp och trycka på bakåtknappen i appen. Den här lilla tidsbesparingen har en kraftfull känslomässig effekt på användarens uppfattning av upplevelsen och ger dem en liten mängd superkrafter. Att använda röst är också en praktisk inmatningsmetod när vi har våra arm fulla eller har flera uppgifter. På enheter där det är svårt att skriva på ett tangentbord kan röstdikteringen vara ett effektivt alternativ till textinmatning. Slutligen, i vissa fall när precisionsintervallet för blick och gest är begränsat, kan rösten bidra till att tvetydiga användarens avsikt.

Hur användning av röst kan vara till nytta för användaren

  • Minskar tiden – det bör göra slutmålet mer effektivt.
  • Minimerar arbetet – det bör göra uppgifterna mer smidiga och enkla.
  • Minskar kognitiv belastning – det är intuitivt, lätt att lära sig och komma ihåg.
  • Det är socialt acceptabelt – det bör passa in i samhällets normer för beteende.
  • Det är rutin – rösten kan lätt bli ett beteende för beteendet.

Utmaningar för röstinmatning

Röstinmatning är bra för många olika program, men den står även inför flera utmaningar. Genom att förstå både fördelarna och utmaningarna för röstinmatning kan apputvecklare göra smartare val för hur och när de ska använda röstinmatning och skapa en bra upplevelse för sina användare.

Röstindata för kontinuerlig inmatningskontroll Finkornig kontroll är en av dem. En användare kanske till exempel vill ändra sin volym i sin musikapp. Hon kan säga "högre", men det är inte tydligt hur mycket högre systemet ska göra volymen. Användaren kan säga: "Gör det lite högre", men "lite" är svårt att kvantifiera. Det är lika svårt att flytta eller skala hologram med röst.

Tillförlitlighet för identifiering av röstindata Även om röstinmatningssystem blir bättre och bättre kan de ibland felaktigt höra och tolka ett röstkommando. Nyckeln är att hantera utmaningen i ditt program. Ge feedback till användarna när systemet lyssnar och vad systemet förstår klargör potentiella problem med att förstå användarnas tal.

Röstindata i delade utrymmen Rösten kanske inte är socialt acceptabel i utrymmen som du delar med andra. Några exempel:

  • Användaren kanske inte vill störa andra (till exempel i ett tyst bibliotek eller på ett delat kontor)
  • Användare kan känna sig klumpiga när de pratar med sig själva offentligt,
  • En användare kan känna sig osäker när de dikterar ett personligt eller konfidentiellt meddelande (inklusive lösenord) medan andra lyssnar

Röstinmatning av unika eller okända ord Problem med röstinmatning kommer också när användare dikterar ord som kan vara okända för systemet, till exempel smeknamn, vissa slangord eller förkortningar.

Learning röstkommandon Även om slutmålet är att på ett naturligt sätt samtala med systemet, förlitar sig ofta appar fortfarande på specifika fördefinierade röstkommandon. En utmaning som är associerad med en betydande uppsättning röstkommandon är hur du lär dem utan att överbelasta användaren och hur de kan hjälpa användaren att behålla dem.



Tillstånd för röstfeedback

När Voice tillämpas korrekt förstår användaren vad de kan säga och får tydlig feedback om att systemet har hört dem korrekt. Dessa två signaler gör att användaren känner sig säker på att använda Röst som primär indata. Nedan visas ett diagram som visar vad som händer med markören när röstindata identifieras och hur den kommunicerar detta till användaren.

1. Normalt markörtillstånd
1. Normalt markörtillstånd

2. Kommunicerar röstfeedback och försvinner sedan
2. Kommunicerar röstfeedback och försvinner sedan

*3. Normalt markörtillstånd
3. Återgår till normalt markörtillstånd




Det viktigaste användarna bör känna till om "tal" i mixad verklighet

  • Säg "Välj" när du riktar in dig på en knapp (du kan använda den var som helst för att välja en knapp).
  • Du kan säga etikettnamnet på en knapp i appfältet i vissa appar för att vidta en åtgärd. När du till exempel tittar på en app kan en användare säga kommandot "Ta bort" för att ta bort appen från världen (detta sparar tid från att behöva välja den med din hand).
  • Du kan börja Cortana lyssna genom att säga "Hej Cortana". Du kan ställa frågor till henne ("Hej Cortana, hur lång är Tower"), be henne att öppna en app ("Hej Cortana, öppna Netflix") eller be henne ta fram Start-menyn ("Hej Cortana, ta mig hem") med mera.

Vanliga frågor och problem som användare har om röst

  • Vad kan jag säga?
  • Hur gör jag för att att systemet har hört mig på rätt sätt?
    • Systemet får mina röstkommandon fel.
    • Den reagerar inte när jag ger den ett röstkommando.
  • Den reagerar på fel sätt när jag ger den ett röstkommando.
  • Hur gör jag för att min röst till en specifik app eller ett visst appkommando?
  • Kan jag använda röst för att kommandoa ut den holografiska ramen på HoloLens?

Kommunikation

För program som vill dra nytta av de anpassade alternativen för bearbetning av ljudinspelning som tillhandahålls av HoloLens, är det viktigt att förstå de olika ljudströmskategorier som din app kan använda. Windows 10 stöder flera olika strömkategorier och HoloLens använder tre av dessa för att möjliggöra anpassad bearbetning för att optimera mikrofonens ljudkvalitet som skräddarsytts för tal, kommunikation och annat, som kan användas för ljudinspelning i omgivande miljö (dvs. "videokamera") scenarier.

  • Kategorin AudioCategory_Communications är anpassad för scenarier med samtalskvalitet och uppläsning och ger klienten en 16 kHz 24-bitars monoljudström av användarens röst
  • Kategorin AudioCategory_Speech är anpassad för talmotorn HoloLens (Windows) och ger den en 16 kHz 24-bitars monoström av användarens röst. Den här kategorin kan användas av talmotorer från tredje part om det behövs.
  • Den AudioCategory_Other strömkategorin är anpassad för ljudinspelning i omgivande miljö och ger klienten en 48 kHz 24-bitars stereoljudström.

All den här ljudbearbetningen är maskinvaruaccelererad, vilket innebär att funktionerna tömmer mycket mindre kraft än om samma bearbetning gjordes på HoloLens CPU. Undvik att köra annan bearbetning av ljudindata på processorn för att maximera systemets batterilivslängd och dra nytta av den inbyggda, avlästa ljudindatabearbetningen.

Språk

HoloLens 2 stöder flera språk. Tänk på att talkommandon alltid körs på systemets visningsspråk även om flera tangentbord är installerade eller om appar försöker skapa en taligenkänning på ett annat språk.

Felsökning

Om du har problem med att använda "select" och "Hej Cortana" kan du försöka flytta till ett tystare utrymme, från källan till brus eller genom att tala högre. Just nu är all taligenkänning på HoloLens just nu justerad och optimerad specifikt för inbyggda talare USA engelska.

För Windows Mixed Reality Developer Edition version 2017 fungerar logiken för ljudslutpunktshantering bra (för alltid) efter utloggning och tillbaka till PC-skrivbordet efter den första HMD-anslutningen. Innan den första ut-/in-händelsen efter att ha gått igenom WMR OOBE kunde användaren uppleva olika problem med ljudfunktioner, från inget ljud till inget ljudbyte beroende på hur systemet konfigurerades innan HMD:en för första gången ansluts.



Röstinmatning i MRTK (Mixed Reality Toolkit) för Unity

Med MRTK kan du enkelt tilldela röstkommandon för alla objekt. Använd MRTK:s talindataprofil för att definiera dina nyckelord. Genom att tilldela SpeechInputHandler-skriptet kan du få alla objekt att svara på nyckelorden som definierats i talindataprofilen. SpeechInputHandler tillhandahåller också en etikett för talbekräftelse som förbättrar användarens förtroende.


Se även