Spracheingabe

Voice input

Die Stimme ist eine der wichtigsten Formen der Eingabe für HoloLens. Es ermöglicht Ihnen, ein Hologramm direkt zu befehlen, ohne Handgesten zu verwenden. Die Spracheingabe kann eine natürliche Art sein, Ihre Absichten zu kommunizieren. Voice ist besonders gut bei der Durchführung komplexer Schnittstellen, da Benutzer durch geschachtelte Menüs mit einem Befehl ausschneiden können.

Die Spracheingabe wird von demselben Modul unterstützt, das Die Sprache in allen universellen Windows Apps unterstützt. Auf HoloLens funktioniert die Spracherkennung immer in der Windows Anzeigesprache, die in Ihrem Gerät Einstellungen konfiguriert ist.


Stimme und Blick

Wenn Sie Sprachbefehle, Kopf- oder Augenblicke verwenden, ist der typische Zielmechanismus, egal ob mit einem Cursor zum Auswählen oder zum Kanalieren Ihres Befehls zu einer Anwendung, die Sie betrachten. Es kann nicht einmal erforderlich sein, einen Blickzeiger anzuzeigen ("sehen Sie es, sagen Sie es") zu zeigen. Einige Sprachbefehle erfordern kein Ziel, z. B. "Start wechseln" oder "Hey Cortana".


Geräteunterstützung

Feature HoloLens (1. Generation) HoloLens 2 Immersive Headsets
Spracheingabe ✔️ ✔️ ✔️ (mit Mikrofon)

Der Befehl "auswählen"

HoloLens (1. Generation)

Auch ohne spezielles Hinzufügen von Sprachunterstützung zu Ihrer App können Ihre Benutzer Hologramme einfach aktivieren, indem Sie den Systemstimmebefehl "auswählen" sagen. Dies verhält sich genauso wie ein Luft tippen auf HoloLens, drücken Sie die Auswahlschaltfläche auf dem HoloLens Klicker oder drücken Sie den Trigger auf einem Windows Mixed Reality Bewegungscontroller. Sie hören einen Sound und sehen eine QuickInfo mit "select" als Bestätigung angezeigt. "Select" wird durch einen Schlüsselworterkennungsalgorithmus aktiviert, was bedeutet, dass Sie es jederzeit mit minimalen Akkulaufzeiteffekten sagen können. Sie können sogar "auswählen" mit Ihren Händen auf Ihrer Seite sagen.



HoloLens 2

Um den Sprachbefehl "auswählen" in HoloLens 2 zu verwenden, müssen Sie zuerst den Blickzeiger aufführen, der als Zeiger verwendet werden soll. Der Befehl zum Aufführen ist einfach zu merken– sagen Sie einfach", "auswählen".

Um den Modus zu beenden, verwenden Sie Ihre Hände erneut, indem Sie auf eine Schaltfläche mit Den Fingern tippen oder die Systemgeste verwenden.

Bild: Sagen Sie "auswählen", um den Sprachbefehl für die Auswahl zu verwenden

A user can say



Hey Cortana

Sie können "Hey Cortana" sagen, um jederzeit Cortana zu bringen. Sie müssen nicht darauf warten, dass sie ihre Frage weiterhin fragt oder ihnen eine Anweisung gibt. Versuchen Sie beispielsweise, "Hey Cortana, was ist das Wetter?" als einzelner Satz zu sagen. Weitere Informationen zu Cortana und was Sie tun können, bitten Sie sie! Sagen Sie "Hey Cortana, was kann ich sagen?" und sie ruft eine Liste der Arbeit und vorgeschlagene Befehle auf. Wenn Sie sich bereits in der Cortana-App befinden, wählen Sie das Symbol auf der Seitenleiste aus, um dieses Menü abzurufen.

HoloLens-spezifische Befehle

  • Was kann ich sagen?
  • "Zum Start wechseln" – statt Blüte zumStartmenü zu gelangen
  • "App> starten<"
  • "App> hier verschieben<"
  • „Foto aufnehmen“
  • "Aufzeichnung starten"
  • „Aufzeichnung beenden“
  • "Handstrahl anzeigen"
  • "Handstrahl ausblenden"
  • "Erhöhen der Helligkeit"
  • "Helligkeit verringern"
  • "Erhöhen des Volumens"
  • "Lautstärke verringern"
  • "Stummschalten" oder "Stummschalten"
  • "Herunterfahren des Geräts"
  • "Gerät neu starten"
  • "Zum Schlaf wechseln"
  • „Wie viel Uhr ist es?“
  • "Wie viel Akku habe ich links?"


"Sehen Sie es, sagen Sie es"

HoloLens verfügt über ein "sehen, sagen Sie es"-Modell für spracheingaben, wo Bezeichnungen auf Schaltflächen Benutzern mitteilen, welche Sprachbefehle sie auch sagen können. Wenn Sie beispielsweise ein App-Fenster in HoloLens (1. Generation) betrachten, kann ein Benutzer "Anpassen" sagen, um die Position der App in der Welt anzupassen.

Bild: Ein Benutzer kann den Befehl "Anpassen" sagen, der in der App-Leiste angezeigt wird, um die Position der App anzupassen.

space
When looking at an app window or hologram, a user can say the


Wenn Apps dieser Regel folgen, können Benutzer einfach verstehen, was sie sagen müssen, um das System zu steuern. Während Sie auf eine Schaltfläche in HoloLens (1. Generation) blicken, wird eine "Voice dwell"-QuickInfo angezeigt, die nach einer Sekunde angezeigt wird, wenn die Schaltfläche sprachaktiv ist und den Befehl anzeigt, um mit "drücken" zu sprechen. Um Sprach-Toolinfos in HoloLens 2 anzuzeigen, zeigen Sie den Sprachcursor an, indem Sie "auswählen" oder "Was kann ich sagen" (Siehe Bild).

Abbildung: "Sehen Sie es, sagen Sie es"-Befehle werden unter den Schaltflächen angezeigt.

See it, say it commands appear below the buttons



Sprachbefehle für schnelle Hologrammbearbeitung

Es gibt viele Sprachbefehle, die Sie sagen können, während Sie auf ein Hologramm blicken, um Manipulationsaufgaben schnell zu erledigen. Diese Sprachbefehle funktionieren in App-Fenstern und 3D-Objekten, die Sie in der Welt platziert haben.

Hologramm-Manipulationsbefehle

  • Gesicht mir
  • Größere | Verbessern
  • Kleiner

Auf HoloLens 2 können Sie auch natürliche Interaktionen in Kombination mit Augenblick erstellen, die implizit kontextbezogene Informationen zu dem, was Sie beziehen, bereitstellt. Sie könnten z. B. ein Hologramm betrachten und "dies" sagen, und schauen Sie dann nach, wo Sie es platzieren möchten, und sagen Sie "hier". Oder Sie könnten sich ein holografisches Teil auf einem komplexen Computer ansehen und sagen: "Geben Sie mir weitere Informationen zu diesem Thema".

Ermitteln von Sprachbefehlen

Einige Befehle, wie die Befehle für schnelle Manipulation oben, können ausgeblendet werden. Um zu erfahren, welche Befehle Sie verwenden können, sehen Sie sich ein Objekt an, und sagen Sie", "was kann ich sagen?". Eine Liste möglicher Befehle wird angezeigt. Sie können auch den Kopfblickzeiger verwenden, um nachzusehen und die Sprach-Quickinfos für jede Schaltfläche vor Ihnen anzuzeigen.

Wenn Sie eine vollständige Liste möchten, sagen Sie einfach"Alle Befehle anzeigen" jederzeit.

Diktieren

Anstatt mit Luft tippen zu können, kann die Sprachdiktat effizienter sein, um Text in eine App einzugeben. Dies kann die Eingabe mit weniger Aufwand für den Benutzer erheblich beschleunigen.

Voice dictation starts by selecting the microphone button
Voice-Diktat beginnt, indem Sie die Mikrofonschaltfläche auf der Tastatur auswählen.

Wenn die holografische Tastatur aktiv ist, können Sie zum Diktiermodus wechseln, anstatt einzugeben. Wählen Sie das Mikrofon auf der Seite des Textfelds aus, um zu beginnen.

Hinzufügen von Sprachbefehlen zu Ihrer App

Erwägen Sie, Sprachbefehle zu jeder von Ihnen erstellten Umgebung hinzuzufügen. Voice ist eine leistungsstarke Möglichkeit, das System und die Apps zu steuern. Da Benutzer mit unterschiedlichen Dialekten und Akzenten sprechen, stellen Sie sicher, dass die Befehle Ihrer Benutzer eindeutig interpretiert werden.

Bewährte Methoden

Nachfolgend finden Sie einige Methoden aufgeführt, die eine reibungslose Spracherkennung ermöglichen.

  • Präzise Befehle verwenden: Wählen Sie nach Möglichkeit Schlüsselwörter mit zwei oder mehr Silben aus. Einsilbige Wörter neigen dazu, unterschiedliche Vokallaute zu verwenden, wenn sie von Personen mit unterschiedlichen Akzenten gesprochen werden. Beispiel: "Video wiedergeben" ist besser als "Aktuell ausgewähltes Video wiedergeben"
  • Einfaches Vokabular verwenden - Beispiel: "Notiz anzeigen" ist besser als "Placard anzeigen"
  • Stellen Sie sicher, dass Befehle nicht destruktiv sind – Stellen Sie sicher, dass alle Sprachbefehlsaktionen nicht destruktiv sind und leicht rückgängig machen können, falls eine andere Person, die in der Nähe des Benutzers spricht, versehentlich einen Befehl auslöst.
  • Vermeiden Sie ähnliche Soundbefehle – Vermeiden Sie das Registrieren mehrerer Sprachbefehle, die ähnlich klingen. Beispiel: "Mehr anzeigen" und "Store anzeigen" können ähnlich klingen.
  • Heben Sie die Registrierung Ihrer App auf, wenn sie nicht verwendet wird– Wenn Ihre App nicht in einem Zustand befindet, in dem ein bestimmter Sprachbefehl gültig ist, sollten Sie die Registrierung aufheben, damit andere Befehle für diese nicht verwechselt werden.
  • Mit verschiedenen Akzenten testen: Testen Sie Ihre App mit Benutzern, die unterschiedliche Akzente verwenden.
  • Konsistenz von Sprachbefehlen beibehalten: Wenn „Zurück“ zur vorherigen Seite wechselt, übernehmen Sie dieses Verhalten in Ihren Anwendungen.
  • Vermeiden Sie die Verwendung von Systembefehlen – Die folgenden Sprachbefehle sind für das System reserviert, daher vermeiden Sie die Verwendung in Ihren Anwendungen:
    • „Hey Cortana“
    • „Auswählen“
    • "Gehe zu Start"

Vorteile der Spracheingabe

Die Spracheingabe ist eine natürliche Art, unsere Absichten zu kommunizieren. Voice ist besonders gut bei Schnittstellendurchgängen , da benutzer mehrere Schritte einer Schnittstelle durchlaufen können. Benutzer*innen können beim Anzeigen einer Webseite „Zurück“ sagen, anstatt nach oben zu navigieren und in der App auf die Schaltfläche „Zurück“ zu klicken. Dieses kleine Zeitsparen hat einen starken emotionalen Effekt auf die Wahrnehmung der Erfahrung des Benutzers und gibt ihnen eine kleine Menge Superpower. Die Verwendung von Stimme ist auch eine bequeme Eingabemethode, wenn wir unsere Arme voll haben oder multiaufgabenweise sind. Auf Geräten, auf denen die Eingabe einer Tastatur schwierig ist, kann die Sprachdiktatur eine effiziente alternative Möglichkeit zum Eingeben von Text sein. Schließlich kann die Stimme in einigen Fällen, wenn der Bereich der Genauigkeit für Blick und Geste begrenzt ist, die Stimme dazu beitragen, die Absicht des Benutzers zu disambiguieren.

Vorteile der Spracheingabe für den Benutzer

  • Verkürzt den Zeitaufwand – das Endziel sollte effizienter erreicht werden.
  • Minimiert den Aufwand – Aufgaben sollten flüssiger und müheloser verlaufen.
  • Reduziert die kognitive Belastung – sie ist intuitiv, leicht zu erlernen und zu merken.
  • Diese Praxis ist sozial akzeptiert und sollte gesellschaftlichen Verhaltensmustern entsprechen.
  • Sie stellt eine Routine dar – die Spracheingabe kann leicht zu einem gewohnheitsmäßigen Verhalten werden.

Herausforderungen für die Spracheingabe

Während die Spracheingabe für viele verschiedene Anwendungen hervorragend ist, stellt es sich auch mit mehreren Herausforderungen dar. Das Verständnis sowohl der Vorteile als auch der Herausforderungen für die Spracheingabe ermöglicht Es App-Entwicklern, intelligentere Auswahlmöglichkeiten für die Verwendung von Spracheingaben zu treffen und eine großartige Erfahrung für ihre Benutzer zu schaffen.

Spracheingabe für kontinuierliche Eingabesteuerung Feinkornierte Steuerung ist eines davon. Ein Benutzer möchte beispielsweise die Lautstärke in der Musik-App ändern. Sie kann "lauter" sagen, aber es ist nicht klar, wie viel lauter das System die Lautstärke machen soll. Der Benutzer könnte sagen: "Machen Sie es etwas lauter", aber "ein wenig" ist schwer zu quantifizieren. Das Verschieben oder Skalieren von Hologrammen mit Stimme ist ähnlich schwierig.

Zuverlässigkeit der Spracheingabeerkennung Während Spracheingabesysteme besser und besser werden, können sie manchmal einen Sprachbefehl falsch hören und interpretieren. Der Schlüssel besteht darin, die Herausforderung in Ihrer Anwendung zu beheben. Geben Sie Ihren Benutzern Feedback, wenn das System lauscht und was das System verstanden hat, erläutert potenzielle Probleme, die die Sprache der Benutzer verstehen.

Spracheingabe in freigegebenen Räumen Stimme ist möglicherweise nicht sozial akzeptabel in Räumen, die Sie mit anderen teilen. Hier sind einige Beispiele:

  • Der Benutzer möchte möglicherweise andere Personen nicht stören (z. B. in einer ruhigen Bibliothek oder in einem freigegebenen Büro)
  • Benutzer fühlen sich möglicherweise ungünstig, sich öffentlich zu sprechen,
  • Ein Benutzer fühlt sich möglicherweise unangenehm an, eine persönliche oder vertrauliche Nachricht (einschließlich Kennwörtern) zu diktieren, während andere hören

Spracheingabe eindeutiger oder unbekannter Wörter Schwierigkeiten bei der Spracheingabe kommen auch dann, wenn Benutzer Wörter diktieren, die dem System möglicherweise unbekannt sind, z. B. Spitznamen, bestimmte Slangwörter oder Abkürzungen.

Learning Sprachbefehle, während das ultimative Ziel ist, natürlich mit Ihrem System zu sprechen, verlassen sich häufig Apps immer noch auf bestimmte vordefinierte Sprachbefehle. Eine Herausforderung, die mit einer erheblichen Reihe von Sprachbefehlen verbunden ist, ist, wie sie sie unterrichten, ohne den Benutzer zu überladen und wie der Benutzer sie behalten kann.



Statusangaben für Spracherkennungsfeedback

Wenn die Spracherkennung richtig angewendet wird, versteht der Benutzer, was er sagen kann und er erhält ein eindeutiges Feedback, das das System ihn richtig verstanden hat. Diese beiden Signale geben dem Benutzer das Gefühl, dass er die Spracherkennung als primäre Eingabemethode verwenden kann. Nachfolgend ist in einem Diagramm dargestellt, was mit dem Cursor geschieht, wenn die Spracheingabe erkannt wird und wie dies dem Benutzer vermittelt wird.

1. Regular cursor state
1. Regulärer Cursorzustand

2. Communicates voice feedback and then disappears
2. Kommuniziert Sprachfeedback und verschwindet dann

*3. Regular cursor state
3. Zurück zum regulären Cursorzustand




Wichtige Informationen zur Spracherkennung in Mixed Reality

  • Sagen Sie "Auswählen" , während Sie auf eine Schaltfläche abzielen (Sie können dies an einer beliebigen Stelle verwenden, um eine Schaltfläche auszuwählen).
  • Sie können in einigen Apps den Bezeichnungsnamen einer Schaltfläche auf der App-Leiste sagen, um eine Aktion auszuführen. Während sie beispielsweise eine App betrachten, kann ein Benutzer den Befehl "Entfernen" sagen, um die App aus der Welt zu entfernen (dies spart Zeit, um es mit Der Hand auszuwählen).
  • Sie können Cortana hören, indem Sie "Hey Cortana" sagen. Sie können ihre Fragen stellen ("Hey Cortana, wie hoch ist der Eiffelturm"), um eine App ("Hey Cortana, Netflix öffnen") zu öffnen, oder sie zu informieren, das Startmenü ("Hey Cortana, zu Hause zu bringen") und vieles mehr.

Häufig gestellte Fragen und Bedenken von Benutzern zur Spracheingabe

  • Was kann ich sagen?
  • Woher weiß ich, ob das System mich richtig verstanden hat?
    • Das System versteht meine Sprachbefehle immer wieder falsch.
    • Es reagiert nicht, wenn ich einen Sprachbefehl erteile.
  • Es reagiert falsch, wenn ich einen Sprachbefehl erteile.
  • Wie richte ich meine Stimme auf eine bestimmte App oder einen bestimmten App-Befehl aus?
  • Kann ich Objekte per Sprachbefehl aus dem holografischen Rahmen der HoloLens bewegen?

Kommunikation

Für Anwendungen, die die von HoloLens bereitgestellten benutzerdefinierten Audioeingabeverarbeitungsoptionen nutzen möchten, ist es wichtig, die verschiedenen Audiostreamkategorien zu verstehen, die Ihre App nutzen kann. Windows 10 unterstützt mehrere verschiedene Datenstromkategorien und HoloLens verwendet drei dieser Daten, um die benutzerdefinierte Verarbeitung zu ermöglichen, um die Mikrofonaudioqualität zu optimieren, die für Sprach-, Kommunikations- und andere, die für Umgebungsaudioaufnahme (d. h. "Camcorder") Szenarien verwendet werden können.

  • Die AudioCategory_Communications Streamkategorie ist für Anrufqualitäts- und Kommentarszenarien angepasst und bietet dem Client einen 16-kHz 24-Bit-Mono-Audiostream der Stimme des Benutzers.
  • Die AudioCategory_Speech Streamkategorie ist für das Sprachmodul HoloLens (Windows) angepasst und bietet es mit einem 16-kHz 24-Bit-Monostream der Stimme des Benutzers. Diese Kategorie kann bei Bedarf von Sprachmodulen von Drittanbietern verwendet werden.
  • Die AudioCategory_Other Streamkategorie ist für die Audioaufzeichnung für Umgebungsumgebungen angepasst und bietet dem Client einen 48-kHz 24-Bit-Stereo-Audiostream.

All diese Audioverarbeitung ist hardwarebeschleunigt, was bedeutet, dass die Features viel weniger Strom verbrauchen als wenn die gleiche Verarbeitung auf der HoloLens CPU durchgeführt wurde. Vermeiden Sie das Ausführen anderer Audioeingabeverarbeitungen auf der CPU, um die Akkulaufzeit des Systems zu maximieren und die integrierte Audioeingabeverarbeitung zu nutzen.

Sprachen

HoloLens 2 unterstützt mehrere Sprachen. Beachten Sie, dass Sprachbefehle immer in der Anzeigesprache des Systems ausgeführt werden, auch wenn mehrere Tastaturen installiert sind oder wenn Apps versuchen, eine Spracherkennung in einer anderen Sprache zu erstellen.

Problembehandlung

Wenn Sie Probleme mit der Verwendung von "Select" und "Hey Cortana" haben, versuchen Sie, zu einem leiseren Raum zu wechseln, sich von der Quelle des Lärms zu entfernen oder lauter zu sprechen. Zu diesem Zeitpunkt ist alle Spracherkennung auf HoloLens abgestimmt und speziell auf Muttersprachler von USA Englisch optimiert.

Für die version Windows Mixed Reality Developer Edition 2017 funktioniert die Audioendpunktverwaltungslogik nach dem Abmelden und wieder auf dem PC-Desktop nach der ersten HMD-Verbindung. Vor diesem ersten Abmelden/In-Ereignis nach dem Durchlaufen von WMR OOBE konnte der Benutzer verschiedene Audiofunktionen probleme haben, die von keinem Audio- bis hin zu keinem Audiowechsel reichen, je nachdem, wie das System eingerichtet wurde, bevor das HMD zum ersten Mal verbunden wurde.



Spracheingabe in MRTK (Mixed Reality Toolkit) für Unity

Mit MRTK können Sie jedem Objekt ganz einfach Sprachbefehl zuweisen. Verwenden Sie das Spracheingabeprofil von MRTK, um Ihre Schlüsselwörter zu definieren. Durch Zuweisen des SpeechInputHandler-Skripts können Sie jedes Objekt auf die schlüsselwörter reagieren, die im Spracheingabeprofil definiert sind. SpeechInputHandler bietet außerdem sprachbestätigungsbezeichnungen, um das Vertrauen des Benutzers zu verbessern.


Siehe auch