Spraakinvoer

Spraakinvoer

Spraak is een van de belangrijkste vormen van invoer op HoloLens. Hiermee kunt u rechtstreeks een hologram opdrachten geven zonder handbewegingen te gebruiken. Spraakinvoer kan een natuurlijke manier zijn om uw intentie te communiceren. Spraak is vooral goed in het doorlopen van complexe interfaces, omdat gebruikers hiermee geneste menu's met één opdracht kunnen doorlopen.

Spraakinvoer wordt powered by dezelfde engine die ondersteuning biedt voor spraak in alle Universal Windows Apps. Op HoloLens werkt spraakherkenning altijd in de Windows weergavetaal die is geconfigureerd in uw Instellingen.


Spraak en staren

Wanneer u spraakopdrachten gebruikt, is hoofd- of oogcontact het typische doelmechanisme, of u nu met de cursor wilt 'selecteren' of uw opdracht wilt doorskanaalen naar een toepassing die u bekijkt. Het is mogelijk niet eens vereist om een starend cursor weer te geven ('see it, say it'). Voor sommige spraakopdrachten is helemaal geen doel vereist, zoals 'ga naar start' of 'Hey Cortana.'


Ondersteuning voor apparaten

Functie HoloLens (eerste generatie) HoloLens 2 Immersive headsets
Spraakinvoer ✔️ ✔️ ✔️ (met microfoon)

De opdracht 'selecteren'

HoloLens (eerste generatie)

Zelfs zonder specifiek spraakondersteuning aan uw app toe te voegen, kunnen uw gebruikers hologrammen activeren door de systeemstemopdracht 'select' te zeggen. Dit werkt hetzelfde als een tik in de lucht op HoloLens, door op de knop Selecteren te drukken op de HoloLens-clicker ofdoor op de trigger op een Windows Mixed Reality-bewegingscontrollerte drukken. U hoort een geluid en u ziet knopinfo met 'selecteren' als bevestiging. 'Selecteren' wordt ingeschakeld door een algoritme voor detectie van trefwoorden met weinig vermogen, wat betekent dat u dit op elk gewenst moment kunt zeggen met minimale impact op de levensduur van de accu. U kunt zelfs 'selecteren' zeggen met uw handen aan uw zijde.



HoloLens 2

Als u de spraakopdracht 'selecteren' wilt gebruiken in HoloLens 2, moet u eerst de muisaanwijzer laten zien die u als aanwijzer wilt gebruiken. De opdracht om deze te laten zien is gemakkelijk te onthouden, bijvoorbeeld 'selecteren'.

Als u de modus wilt afsluiten, gebruikt u uw handen opnieuw door op de lucht te tikken, een knop met uw vingers te benaderen of door de systeembewegingen te gebruiken.

Afbeelding: Zeg 'selecteren' om de spraakopdracht te gebruiken voor selectie

Een gebruiker kan 'select' zeggen om de spraakopdracht voor een selectie te gebruiken.



Hey Cortana

U kunt op elk Cortana 'Hey Cortana' zeggen. U hoeft niet te wachten tot ze verschijnt om door te gaan met het stellen van uw vraag of haar een instructie te geven. Probeer bijvoorbeeld 'Hey Cortana, wat is het weer?' als één zin. Voor meer informatie over Cortana en wat u kunt doen, vraagt u haar! Zeg "Hey Cortana, wat kan ik zeggen?" en ze haalt een lijst op met werkende en voorgestelde opdrachten. Als u zich al in de app Cortana, selecteert u het ? op de zijbalk om hetzelfde menu op te halen.

HoloLens-specifieke opdrachten

  • "Wat kan ik zeggen?"
  • 'Ga naar het startmenu' - in plaats van de bloemen om naar het menu Start te gaan
  • 'Starten'
  • 'Verplaatsen hier'
  • 'Een foto maken'
  • 'Opname starten'
  • "Opname stoppen"
  • 'Show hand ray'
  • 'Hand ray verbergen'
  • 'De helderheid verhogen'
  • 'De helderheid verlagen'
  • 'Het volume verhogen'
  • 'Het volume verlagen'
  • 'Dempen' of 'Dempen dempen'
  • 'Sluit het apparaat af'
  • 'Start het apparaat opnieuw op'
  • Ga naar de slaapstand
  • "Hoe laat is het?"
  • "Hoeveel accu heb ik nog?"


"See It, Say It"

HoloLens heeft een 'see it, say it'-model voor spraakinvoer, waarbij labels op knoppen gebruikers ook vertellen welke spraakopdrachten ze kunnen zeggen. Wanneer een gebruiker bijvoorbeeld naar een app-venster in HoloLens (1e generatie) kijkt, kan deze opdracht 'Aanpassen' zeggen om de positie van de app in de wereld aan te passen.

Afbeelding: Een gebruiker kan de opdracht 'Aanpassen' zeggen, die in de app-balk wordt weer gegeven om de positie van de app aan te passen

Ruimte
Wanneer een gebruiker een app-venster of hologram bekijkt, kan deze de opdracht 'Aanpassen' zeggen die in de app-balk wordt weergegeven om de positie van de app in de wereld aan te passen


Wanneer apps deze regel volgen, kunnen gebruikers gemakkelijk begrijpen wat ze moeten zeggen om het systeem te beheren. Terwijl u naar een knop in HoloLens (1e generatie) kijkt, ziet u knopinfo voor 'spraakbezwijking' die na een seconde wordt weergegeven als de knop spraak is ingeschakeld en de opdracht wordt weergegeven om op te drukken. Als u knopinfo voor spraak wilt weergeven in HoloLens 2, geeft u de spraakcursor weer door 'select' of 'What can I say' (Zie afbeelding) te zeggen.

Afbeelding: De opdrachten 'See it, say it' worden onder de knoppen weergegeven

Bekijk het, stel dat de opdrachten onder de knoppen worden weergegeven



Spraakopdrachten voor snelle hologrammenmanipulatie

Er zijn veel spraakopdrachten die u kunt zeggen terwijl u naar een hologram gaat om snel manipulatietaken uit te voeren. Deze spraakopdrachten werken op app-vensters en 3D-objecten die u ter wereld hebt geplaatst.

Opdrachten voor hologrammenmanipulatie

  • Face me
  • Grotere | Verbeteren
  • Kleinere

Op HoloLens 2 kunt u ook natuurlijkere interacties maken in combinatie met oogcontacten. Dit biedt impliciet contextuele informatie over waar u naar verwijst. U kunt bijvoorbeeld naar een hologram kijken en 'put this' zeggen en vervolgens kijken waar u het wilt plaatsen en 'over hier' zeggen. Of u kunt een holografische onderdeel op een complexe machine bekijken en zeggen: "geef me meer informatie over dit".

Spraakopdrachten detecteren

Sommige opdrachten, zoals de opdrachten voor snelle manipulatie hierboven, kunnen worden verborgen. Als u wilt weten welke opdrachten u kunt gebruiken, staren naar een object en zeggen: "Wat kan ik zeggen?". Er wordt een lijst met mogelijke opdrachten weergegeven. U kunt ook de cursor voor de hoofd staren gebruiken om rond te kijken en de stemknopinfo voor elke knop voor u weer te geven.

Als u een volledige lijst wilt, zegt u op elk gewenst moment 'Alle opdrachten weergeven'.

Dicteren

In plaats van te typen met tikken in delucht, kan spraakdicteren efficiënter zijn om tekst in een app in te voeren. Dit kan de invoer voor de gebruiker sterk versnellen met minder inspanning.

Spraakdicteren begint met het selecteren van de microfoonknop
Spraakdicteren begint met het selecteren van de microfoonknop op het toetsenbord

Steeds wanneer het holografische toetsenbord actief is, kunt u overschakelen naar de dicteermodus in plaats van te typen. Selecteer de microfoon aan de zijkant van het tekstinvoervak om aan de slag te gaan.

Spraakopdrachten toevoegen aan uw app

U kunt spraakopdrachten toevoegen aan elke ervaring die u bouwt. Spraak is een krachtige manier om het systeem en de apps te beheren. Omdat gebruikers met verschillende soorten dialecten en accenten spreken, zorgt de juiste keuze van spraaktrefwoorden ervoor dat de opdrachten van uw gebruikers ondubbelzinnig worden geïnterpreteerd.

Aanbevolen procedures

Hieronder vindt u enkele procedures die helpen bij een soepele spraakherkenning.

  • Beknopte opdrachten gebruiken: kies waar mogelijk trefwoorden van twee of meer lettergrepen. Woorden met één lettergrepen gebruiken vaak verschillende klinkergeluiden wanneer ze worden uitgesproken door personen met verschillende accenten. Voorbeeld: 'Video afspelen' is beter dan 'De geselecteerde video afspelen'
  • Eenvoudige woordenlijst gebruiken: voorbeeld: 'Opmerking tonen' is beter dan 'Placard tonen'
  • Zorg ervoor dat opdrachten niet-destructief zijn: zorg ervoor dat spraakopdrachtacties niet-destructief zijn en eenvoudig ongedaan kunnen worden gemaakt als een andere persoon die in de buurt spreekt per ongeluk een opdracht activeert.
  • Vergelijkbare klinkende opdrachten voorkomen: vermijd het registreren van meerdere spraakopdrachten die vergelijkbaar klinken. Voorbeeld: 'Meer tonen' en 'Winkel tonen' kunnen vergelijkbaar klinken.
  • De registratie van uw app ongedaan maken wanneer deze niet wordt gebruikt: wanneer uw app niet de status heeft waarin een bepaalde spraakopdracht geldig is, kunt u de registratie ervan ongedaan maken, zodat andere opdrachten niet voor die ene opdracht worden verward.
  • Testen met verschillende accenten: test uw app met gebruikers van verschillende accenten.
  • Consistentie van spraakopdrachten behouden: als 'Terug' naar de vorige pagina gaat, behoudt u dit gedrag in uw toepassingen.
  • Vermijd het gebruik van systeemopdrachten: de volgende spraakopdrachten zijn gereserveerd voor het systeem, dus vermijd het gebruik ervan in uw toepassingen:
    • "Hey Cortana"
    • 'Selecteren'
    • Ga naar het begin

Voordelen van spraakinvoer

Spraakinvoer is een natuurlijke manier om onze intenties te communiceren. Spraak is vooral goed in interface-traversals, omdat dit gebruikers kan helpen bij het doorlopen van meerdere stappen van een interface. Een gebruiker kan 'ga terug' zeggen terwijl hij naar een webpagina kijkt, in plaats van naar boven te gaan en op de knop Terug in de app te drukken. Deze kleine tijdbesparing heeft een krachtig emotionele effect op de waarneming van de ervaring van de gebruiker en geeft hen een kleine hoeveelheid superkracht. Het gebruik van spraak is ook een handige invoermethode wanneer we onze arm vol hebben of als we meerdere taken uitvoeren. Op apparaten waarbij typen op een toetsenbord lastig is, kan spraakdicteren een efficiënte alternatieve manier zijn om tekst in te geven. Ten laatste, in sommige gevallen wanneer het bereik van nauwkeurigheid voor staren en gebaren beperkt is, kan stem helpen om de intentie van de gebruiker ondubbelzinnig te maken.

Hoe het gebruik van spraak de gebruiker kan helpen

  • Vermindert de tijd: het zou het einddoel efficiënter moeten maken.
  • Minimaliseert de inspanning. Dit zou taken vloeiender en moeiteloos moeten maken.
  • Vermindert de cognitieve belasting: het is intuïtief, gemakkelijk te leren en te onthouden.
  • Het is sociaal acceptabel: het moet passen in de 10e norm van gedrag.
  • Het is routinematig: spraak kan gemakkelijk een normaal gedrag worden.

Uitdagingen voor spraakinvoer

Hoewel spraakinvoer geweldig is voor veel verschillende toepassingen, staat het ook voor verschillende uitdagingen. Door inzicht te krijgen in zowel de voordelen als uitdagingen voor spraakinvoer kunnen app-ontwikkelaars slimmere keuzes maken voor hoe en wanneer ze spraakinvoer gebruiken en een geweldige ervaring voor hun gebruikers creëren.

Spraakinvoer voor continu invoerbeheer Een van deze twee is een fijnf mogelijk beheer. Een gebruiker wil bijvoorbeeld het volume wijzigen in de muziek-app. Ze kan hardop zeggen, maar het is niet duidelijk hoeveel hard het systeem het volume moet maken. De gebruiker kan zeggen: 'Maak het iets harder', maar 'een beetje' is moeilijk te kwantificeren. Het verplaatsen of schalen van hologrammen met spraak is even moeilijk.

Betrouwbaarheid van spraakinvoerdetectie Hoewel spraakinvoersystemen beter en beter worden, kunnen ze soms een spraakopdracht onjuist horen en interpreteren. De sleutel is om de uitdaging in uw toepassing aan te pakken. Geef uw gebruikers feedback wanneer het systeem luistert en wat het systeem heeft begrepen, verduidelijkt mogelijke problemen met het begrijpen van de spraak van de gebruikers.

Spraakinvoer in gedeelde ruimten Spraak is mogelijk niet sociaal acceptabel in ruimten die u met anderen deelt. Enkele voorbeelden:

  • De gebruiker wil anderen mogelijk niet storen (bijvoorbeeld in een stille bibliotheek of een gedeeld kantoor)
  • Gebruikers vinden het misschien vreemd om in het openbaar met zichzelf te praten,
  • Een gebruiker vindt het misschien vervelend om een persoonlijk of vertrouwelijk bericht (inclusief wachtwoorden) te dicteren terwijl anderen luisteren

Spraakinvoer van unieke of onbekende woorden Problemen met spraakinvoer komen ook voor wanneer gebruikers woorden dicteren die onbekend zijn voor het systeem, zoals bijnamen, bepaalde woorden in woorden of afkortingen.

Learning spraakopdrachten Hoewel het uiteindelijke doel is om op natuurlijke wijze te praten met uw systeem, zijn apps vaak nog steeds afhankelijk van specifieke vooraf gedefinieerde spraakopdrachten. Een uitdaging die is gekoppeld aan een aanzienlijke set spraakopdrachten is hoe u ze kunt leren zonder de gebruiker te overbelasten en hoe de gebruiker kan helpen om deze te behouden.



Stemfeedback-staten

Wanneer Voice correct wordt toegepast, begrijpt de gebruiker wat hij kan zeggen en krijgt hij duidelijke feedback die het systeem op de juiste wijze heeft gehoord. Deze twee signalen geven de gebruiker het vertrouwen om Voice als primaire invoer te gebruiken. Hieronder ziet u een diagram dat laat zien wat er met de cursor gebeurt wanneer spraakinvoer wordt herkend en hoe deze met de gebruiker communiceert.

1. Normale cursortoestand
1. Normale cursortoestand

2. Communiceert spraakfeedback en verdwijnt vervolgens
2. Communiceert spraakfeedback en verdwijnt vervolgens

*3. Reguliere cursortoestand
3. Retourneert naar de normale cursortoestand




Belangrijkste dingen die gebruikers moeten weten over 'spraak' in mixed reality

  • Zeg 'Selecteren' terwijl u een knop als doel hebt (u kunt deze overal gebruiken om een knop te selecteren).
  • U kunt in sommige apps de labelnaam van een app-balkknop gebruiken om actie te ondernemen. Wanneer een gebruiker bijvoorbeeld naar een app kijkt, kan deze de opdracht Verwijderen gebruiken om de app uit de wereld te verwijderen (dit bespaart tijd om deze met uw hand te selecteren).
  • U kunt beginnen Cortana luisteren door 'Hey Cortana' te zeggen. U kunt haar vragen stellen ('Hey Cortana, hoe lang is deOrentoren'), haar vertellen dat ze een app moet openen ('Hey Cortana, Netflix openen') of haar vertellen dat ze het startmenu moet openen ('Hey Cortana, take me home') en meer.

Veelvoorkomende vragen en zorgen die gebruikers hebben over spraak

  • Wat kan ik zeggen?
  • Hoe kan ik dat het systeem mij correct heeft gehoord?
    • Mijn spraakopdrachten blijven fout in het systeem.
    • Het reageert niet wanneer ik het een spraakopdracht geef.
  • Het reageert op de verkeerde manier wanneer ik het een spraakopdracht geef.
  • Hoe kan ik mijn stem richten op een specifieke app of app-opdracht?
  • Kan ik spraak gebruiken om dingen uit het holografische frame op de HoloLens?

Communicatie

Voor toepassingen die willen profiteren van de aangepaste audio-invoerverwerkingsopties van HoloLens, is het belangrijk om inzicht te krijgen in de verschillende categorieën audiostreams die uw app kan gebruiken. Windows 10 ondersteunt verschillende stroomcategorieën en HoloLens maakt gebruik van drie van deze categorieën om aangepaste verwerking mogelijk te maken om de audiokwaliteit van de microfoon te optimaliseren die is afgestemd op spraak, communicatie en andere, die kunnen worden gebruikt voor omgevingsomgeving audio-opnamescenario's (dat wil zeggen'camcorder').

  • De AudioCategory_Communications streamcategorie is aangepast voor scenario's met de kwaliteit van aanroepen en gesproken tekst en biedt de client een 24-bits 24-bits mono-audiostroom van de stem van de gebruiker
  • De categorie AudioCategory_Speech stream is aangepast voor de HoloLens-spraakent engine (Windows) en biedt een 24-bits 16 kHz monostream van de stem van de gebruiker. Deze categorie kan indien nodig worden gebruikt door spraaken engines van derden.
  • De AudioCategory_Other streamcategorie is aangepast voor audio-opname in de omgeving en biedt de client een 24-bits audiostream van 48 kHz.

Al deze audioverwerking is versneld, wat betekent dat de functies veel minder stroom gebruiken dan wanneer dezelfde verwerking is uitgevoerd op de HoloLens CPU. Vermijd het uitvoeren van andere audio-invoerverwerking op de CPU om de levensduur van de systeemaccu te maximaliseren en te profiteren van de ingebouwde, ge offloade verwerking van audio-invoer.

Talen

HoloLens 2 ondersteunt meerdere talen. Houd er rekening mee dat spraakopdrachten altijd worden uitgevoerd in de weergavetaal van het systeem, zelfs als er meerdere toetsenborden zijn geïnstalleerd of als apps proberen een spraakherkenning in een andere taal te maken.

Problemen oplossen

Als u problemen hebt met het gebruik van 'selecteren' en 'Hey Cortana', gaat u naar een stillere ruimte, keert u de bron van ruis weg of spreekt u hardop. Op dit moment is alle spraakherkenning op HoloLens afgestemd en geoptimaliseerd voor systeemeigen sprekers van Verenigde Staten Engels.

Voor de Windows Mixed Reality Developer Edition-release van 2017 werkt de logica voor het beheer van audio-eindpunten prima (voor altijd) na het afmelden en weer aanmelden bij het pc-bureaublad na de eerste HMD-verbinding. Vóór de eerste keer dat de gebruiker zich af- of aftekende na wmr OOBE, kon de gebruiker verschillende problemen met de audiofunctionaliteit ervaren, variërend van geen audio tot geen audio-schakeling, afhankelijk van hoe het systeem was ingesteld voordat de HMD voor de eerste keer verbinding maakte.



Spraakinvoer in MRTK (Mixed Reality Toolkit) voor Unity

Met MRTK kunt u eenvoudig spraakopdrachten toewijzen aan alle objecten. Gebruik het spraakinvoerprofiel van MRTK om uw trefwoorden te definiëren. Door het script SpeechInputHandler toe te wijzen, kunt u ervoor zorgen dat elk object reageert op de trefwoorden die zijn gedefinieerd in het spraakinvoerprofiel. SpeechInputHandler biedt ook een spraakbevestigingslabel om het vertrouwen van de gebruiker te verbeteren.


Zie ook