Wprowadzanie danych przy użyciu głosu

Wprowadzanie danych przy użyciu głosu

Głos jest jedną z kluczowych form danych wejściowych na HoloLens. Umożliwia ona bezpośrednie polecenie hologramu bez konieczności używania gestów ręki. Wprowadzanie głosu może być naturalnym sposobem komunikowania intencji. Głos jest szczególnie dobry w przypadku przechodzenia przez złożone interfejsy, ponieważ umożliwia użytkownikom przechodzenie przez zagnieżdżone menu za pomocą jednego polecenia.

Wprowadzanie głosu jest obsługiwane przez ten sam aparat, który obsługuje mowę we wszystkich aplikacjach uniwersalnych Windows Apps. Na HoloLens rozpoznawanie mowy będzie zawsze działać w języku wyświetlania Windows skonfigurowanym w ustawieniach Ustawienia.


Głos i spojrzenie

Gdy używasz poleceń głosowych, typowym mechanizmem określania wartości docelowej jest spojrzenie na głowy lub okiem, niezależnie od tego, czy używasz kursora do "wyboru", czy też do kierowania polecenia do szukanej aplikacji. Może nawet nie być wymagane pokazanie żadnego kursora spojrzenia ("zobacz, powiedzmy to").. Niektóre polecenia głosowe nie wymagają w ogóle celu, takiego jak "przejdź do początku" lub "Hej, Cortana".


Obsługa urządzeń

Funkcja HoloLens (1. generacja) HoloLens 2 Immersyjne zestawy nagłowne
Wprowadzanie danych przy użyciu głosu ✔️ ✔️ ✔️ (z mikrofonem)

Polecenie "select"

HoloLens (1. generacja)

Nawet bez dodawania obsługi głosu do aplikacji użytkownicy mogą aktywować hologramy, mówiąc po prostu polecenie głosowe systemu "select". Działa totak samo jak naciśnięcie w powietrzu HoloLens, naciśnięcie przycisku wyboru na kliknięciu przycisku HoloLens lub naciśnięcie wyzwalacza na kontrolerze ruchu Windows Mixed Reality ruchu. Usłyszysz dźwięk i zobaczysz etykietkę narzędzia z komunikatem "select" (wybierz) wyświetlaną jako potwierdzenie. Opcja "Wybierz" jest włączana przez algorytm wykrywania słów kluczowych o niskim poziomie zasilania, co oznacza, że można go powiedzieć w dowolnym momencie przy minimalnym wpływie na czas pracy baterii. Możesz nawet powiedzieć "select" (wybierz) z twoimi rąkami po swojej stronie.



HoloLens 2

Aby użyć polecenia głosowego "select" w HoloLens 2, należy najpierw wyprowadzić kursor w celu użycia go jako wskaźnika. Polecenie , aby je wyprowadzić, jest łatwe do zapamiętania — wystarczy powiedzieć "wybierz".

Aby wyjść z trybu, użyj ponownie rąk, naciskając w powietrzu, podchodząc do przycisku za pomocą palców lub gestem systemowym.

Obraz: Powiedz "select", aby użyć polecenia głosowego do wyboru

Użytkownik może powiedzieć "select", aby użyć polecenia głosowego w celu wybrania opcji.



Hej, Cortana

Możesz powiedzieć "Hej Cortana", aby Cortana w dowolnym momencie. Nie musisz czekać, aż pojawi się, aby nadal zadawać jej pytania lub wydawać jej instrukcję. Na przykład spróbuj powiedzieć "Hey Cortana, what's the weather?" (Co to jest pogoda?) w jednym zdaniu. Aby uzyskać więcej informacji Cortana o tym, co możesz zrobić, zapytaj ją! Powiedz "Hey Cortana, what can I say?" (Co mogę powiedzieć? I ściągnie listę poleceń roboczych i sugerowanych. Jeśli jesteś już w aplikacji Cortana, wybierz pozycję ? na pasku bocznym, aby ściągnąć to samo menu.

HoloLens poleceń specyficznych dla użytkownika

  • "Co mogę powiedzieć?"
  • "Przejdź do startu" — zamiast blooma, aby przejść do menu Start
  • "Uruchom "
  • "Przenieś tutaj"
  • "Take a picture" (Zrób zdjęcie)
  • "Rozpocznij nagrywanie"
  • "Zatrzymaj nagrywanie"
  • "Show hand ray" (Pokaż promienie dłoni)
  • "Hide hand ray" (Ukryj promienie dłoni)
  • "Zwiększ jasność"
  • "Zmniejsz jasność"
  • "Zwiększ wolumin"
  • "Zmniejsz wolumin"
  • "Wycisz" lub "Wycisz"
  • "Zamknij urządzenie"
  • "Uruchom ponownie urządzenie"
  • "Przejdź do uśpienia"
  • "What time is it?" (Co to jest godzina?)
  • "Ile baterii pozostało?"


"See It, Say It"

HoloLens ma model "zobacz, powiedzmy", w którym etykiety przycisków informują użytkowników o poleceniach głosowych, które mogą powiedzieć. Na przykład podczas korzystania z okna aplikacji w HoloLens (1. generacji) użytkownik może powiedzieć polecenie "Dostosuj", aby dostosować pozycję aplikacji na świecie.

Obraz: użytkownik może powiedzieć polecenie "Dostosuj", które zobaczy na pasku aplikacji, aby dostosować położenie aplikacji

spacje
Podczas korzystania z okna aplikacji lub hologramu użytkownik może powiedzieć polecenie "Dostosuj", które zobaczy na pasku aplikacji, aby dostosować pozycję aplikacji na świecie


Gdy aplikacje są zgodne z tą regułą, użytkownicy mogą łatwo zrozumieć, co powiedzieć, aby kontrolować system. Gdy spojrzysz na przycisk w programie HoloLens (1. generacja), zobaczysz etykietkę narzędzia "voice dwell", która pojawia się po sekundzie, jeśli przycisk jest włączony głosowo i wyświetla polecenie , aby porozmawiać z nim "naciśnij". Aby wyświetlić etykietki narzędzi głosowych w HoloLens 2, wyświetl kursor głosowy, mówiąc "select" lub "What can I say" (Zobacz obraz).

Obraz: polecenia "Zobacz, powiedz to" są wyświetlane poniżej przycisków

Zobacz, powiedzmy, że polecenia są wyświetlane poniżej przycisków



Polecenia głosowe umożliwiające szybkie manipulowanie hologramem

Istnieje wiele poleceń głosowych, które można powiedzieć, patrząc na hologram, aby szybko wykonywać zadania manipulowania. Te polecenia głosowe działają w oknach aplikacji i obiektach 3D, które zostały umieszczone na świecie.

Polecenia manipulowania hologramem

  • Face me
  • Większe | Zwiększenia
  • Mniejsze

Na HoloLens 2 można również tworzyć bardziej naturalne interakcje w połączeniu z spojrzeniem, które niejawnie dostarcza kontekstowe informacje o tym, do czego się odwołujesz. Na przykład możesz popatrzeć na hologram i powiedzieć "put this" (umieść to), a następnie sprawdzić, gdzie chcesz go umieścić, i powiedzieć "over here" (tutaj). Możesz też przyjrzeć się części holograficznej na złożonej maszynie i powiedzieć: "give me more information about this".

Odnajdywanie poleceń głosowych

Niektóre polecenia, takie jak polecenia do szybkiego manipulowania powyżej, mogą być ukryte. Aby dowiedzieć się więcej o poleceniach, których można użyć, spojrz na obiekt i powiedz "co mogę powiedzieć?". Zostanie wyświetlona lista możliwych poleceń. Możesz również użyć kursora na spojrzenia głowy, aby rozejrzeć się i ujawnić etykietki narzędzi głosowych dla każdego przycisku przed toem.

Jeśli chcesz uzyskać pełną listę, powiedz po prostu "Pokaż wszystkie polecenia" w dowolnym momencie.

Dyktowania

Zamiast wpisywać tekst za pomocą naciśnięciaw powietrzu, dyktowanie głosowe może być wydajniejsze w przypadku wprowadzania tekstu do aplikacji. Może to znacznie przyspieszyć wprowadzanie danych przy mniejszym wysiłku dla użytkownika.

Dyktowanie głosowe rozpoczyna się od wybrania przycisku mikrofonu
Dyktowanie głosowe rozpoczyna się od wybrania przycisku mikrofonu na klawiaturze

Za każdym razem, gdy klawiatura holograficzna jest aktywna, można przełączyć się do trybu dyktowania zamiast pisania. Wybierz mikrofon z boku pola wprowadzania tekstu, aby rozpocząć pracę.

Dodawanie poleceń głosowych do aplikacji

Rozważ dodanie poleceń głosowych do dowolnego kompilowanych funkcji. Głos to zaawansowany sposób kontrolowania systemu i aplikacji. Ponieważ użytkownicy mówią z różnymi dialektami i akcentami, odpowiedni wybór słów kluczowych mowy zapewnia jednoznaczną interpretację poleceń użytkowników.

Najlepsze rozwiązania

Poniżej przedstawiono kilka rozwiązań, które mogą pomóc w bezproblemowym rozpoznawczym rozpoznawania mowy.

  • Użyj zwięzłych poleceń — jeśli to możliwe, wybierz słowa kluczowe z co najmniej dwoma typami. Słowa jednosergowe zwykle używają różnych dźwięków samogłosek, gdy są wypowiadane przez osoby o różnych akcentach. Przykład: opcja "Odtów wideo" jest lepsza niż "Odtów aktualnie wybrane wideo"
  • Korzystanie z prostego słownictwa — przykład: "Pokaż notatkę" jest lepszy niż "Pokaż słownik"
  • Upewnij się, że polecenia nie są destrukcyjne — upewnij się, że wszystkie akcje poleceń mowy są niedestrukcyjne i można je łatwo cofnąć, jeśli inna osoba mówiąca w pobliżu użytkownika przypadkowo wyzwoli polecenie.
  • Unikaj podobnych brzmijących poleceń — unikaj rejestrowania wielu poleceń mowy, które brzmią podobnie. Przykład: "Pokaż więcej" i "Pokaż sklep" mogą brzmieć podobnie.
  • Wyrejestruj aplikację, gdy nie jest używana — jeśli aplikacja nie jest w stanie, w którym konkretne polecenie mowy jest prawidłowe, rozważ wyrejestrowanie jej, aby inne polecenia nie były mylone z tym poleceniem.
  • Przetestuj przy użyciu różnych akcentów — przetestuj aplikację z użytkownikami różnych akcentów.
  • Zachowanie spójności poleceń głosowych — jeśli polecenie "Wstecz" przechodzi do poprzedniej strony, zachowaj to zachowanie w aplikacjach.
  • Unikaj używania poleceń systemowych — następujące polecenia głosowe są zarezerwowane dla systemu, dlatego należy unikać używania ich w aplikacjach:
    • "Hey Cortana"
    • "Wybierz"
    • "Przejdź do startu"

Zalety wprowadzania głosu

Wprowadzanie głosu to naturalny sposób komunikowania naszych intencji. Głos jest szczególnie dobry w przypadku przechodzenia przez interfejs, ponieważ może ułatwić użytkownikom przechodzenie przez wiele kroków interfejsu. Użytkownik może powiedzieć "wróć" podczas patrzenia na stronę internetową, zamiast pójść w górę i nacisnąć przycisk Wstecz w aplikacji. To małe oszczędności czasu mają zaawansowany emocjonalny wpływ na postrzeganie doświadczenia przez użytkownika i dają im niewielką ilość superpower. Użycie głosu jest również wygodną metodą wprowadzania danych, gdy ramce są pełne lub mają wielozadaniowe zadania. Na urządzeniach, na których pisanie na klawiaturze jest trudne, dyktowanie głosowe może być efektywną alternatywą dla wprowadzania tekstu. Ponadto w niektórych przypadkach, gdy zakres dokładności spojrzenia i gestu jest ograniczony, głos może pomóc w ujednoznacznienie intencji użytkownika.

Korzystanie z głosu może być korzystne dla użytkownika

  • Skraca czas — powinno to sprawić, że końcowy cel powinien być bardziej wydajny.
  • Minimalizuje nakład pracy — powinien sprawić, że zadania będą bardziej płynne i łatwe.
  • Zmniejsza obciążenie poznawcze — jest intuicyjne, łatwe do nauczenia się i zapamiętania.
  • Jest to akceptowalne ze względu na społeczności — powinno być dopasowane do norm społecznych zachowania.
  • Jest to rutyna — głos może łatwo stać się zachowaniem najgorętszym.

Wyzwania związane z wprowadzaniem głosu

Chociaż dane wejściowe głosu są doskonałe dla wielu różnych aplikacji, również stoją przed kilkoma wyzwaniami. Zrozumienie zarówno zalet, jak i wyzwań związanych z wprowadzaniem głosu umożliwia deweloperom aplikacji inteligentniejsze wybór sposobu i sytuacji, w których należy używać głosu, oraz tworzenie doskonałego doświadczenia dla użytkowników.

Wprowadzanie głosowe dla ciągłej kontroli danych wejściowych Jednym z nich jest ujednolicona kontrola. Na przykład użytkownik może chcieć zmienić swój wolumin w swojej aplikacji do muzyki. Może powiedzieć "głośniej", ale nie jest jasne, jak dużo głośniej system ma robić wolumin. Użytkownik może powiedzieć: "Zrób to nieco głośniej", ale "trochę" jest trudne do oszacowania. Przenoszenie lub skalowanie hologramów za pomocą głosu jest podobnie trudne.

Niezawodność wykrywania danych wejściowych głosu Chociaż systemy wprowadzania głosu stają się lepsze i lepsze, czasami mogą niepoprawnie słyszeć i interpretować polecenia głosowe. Kluczem jest, aby rozwiązać problem w aplikacji. Przekazać opinię użytkownikom, gdy system nasłuchuje, i to, co rozumie system, wyjaśnia potencjalne problemy z rozumieniem mowy użytkowników.

Wprowadzanie głosu w przestrzeniach udostępnionych Głos może nie być akceptowalny w miejscach, które udostępniasz innym osobom. Oto kilka przykładów:

  • Użytkownik może nie chcieć przeszkadzać innym (na przykład w cichym bibliotece lub udostępnionym biurze)
  • Użytkownicy mogą wydawać się niezręcznie widzieli, jak rozmawiają ze sobą publicznie.
  • Podczas nasłuchiwania przez inne osoby użytkownik może mieć wrażenie dyktowania wiadomości osobistych lub poufnych (w tym haseł).

Wprowadzanie głosu unikatowych lub nieznanych słów Trudności z wprowadzaniem głosu mają również użytkownicy dyktujący słowa, które mogą być nieznane w systemie, takie jak pseudonimy, niektóre słowa jęzłomne lub skróty.

Edukacja poleceń głosowych Mimo że ostatecznym celem jest naturalna konwersacja z systemem, często aplikacje nadal polegają na określonych wstępnie zdefiniowanych poleceniach głosowych. Wyzwaniem związanym ze znaczącym zestawem poleceń głosowych jest to, jak nauczyć je bez przeciążania użytkownika i jak pomóc użytkownikowi je zachować.



Stany opinii głosowej

Gdy funkcja Voice jest prawidłowo stosowana, użytkownik rozumie, co może powiedzieć, i może uzyskać jasne informacje zwrotne, które system prawidłowo je odemiał. Te dwa sygnały sprawiają, że użytkownik może mieć pewność, że używa głosu jako podstawowych danych wejściowych. Poniżej znajduje się diagram pokazujący, co się dzieje z kursorem po rozpoznaciu głosu i w jaki sposób przekazuje je użytkownikowi.

1. Zwykły stan kursora
1. Zwykły stan kursora

2. Przekazuje opinie głosowe, a następnie znika
2. Przekazuje opinie głosowe, a następnie znika

*3. Zwykły stan kursora
3. Powraca do zwykłego stanu kursora




Najważniejsze rzeczy, które użytkownicy powinni wiedzieć o "mowie" w rzeczywistości mieszanej

  • Powiedz "Wybierz" podczas określania przycisku jako docelowego (możesz użyć go w dowolnym miejscu, aby wybrać przycisk).
  • Możesz powiedzieć nazwę etykiety przycisku paska aplikacji w niektórych aplikacjach, aby podjąć akcję. Na przykład podczas korzystania z aplikacji użytkownik może powiedzieć polecenie "Usuń", aby usunąć aplikację ze świata (dzięki temu można zaoszczędzić czas na zaznaczaniu jej ręcznie).
  • Możesz rozpocząć nasłuchiwanie Cortana powiedzenie "Hej, Cortana". Możesz zadawać jej pytania ("Hey Cortana, how tall is the Eiffel tower") ("Hey Cortana, how tall is the Eiffel tower"), poproś ją o otwarcie aplikacji ("Hey Cortana, open Netflix") lub poproś ją o uruchomienie menu Start ("Hey Cortana, take me home") i nie tylko.

Typowe pytania i obawy użytkowników dotyczące głosu

  • What can I say? (Co mogę powiedzieć?)
  • Jak mogę, czy system poprawnie mnie wysłuchał?
    • System ciągle błędnie przechowywuje polecenia głosowe.
    • Nie reaguje, gdy nadasz mu polecenie głosowe.
  • Reaguje w niewłaściwy sposób, gdy wydajem mu polecenie głosowe.
  • Jak mogę kierować mój głos do określonej aplikacji lub polecenia aplikacji?
  • Czy mogę używać głosu do poleceń ramek holograficznych na HoloLens?

Komunikacja

W przypadku aplikacji, które chcą korzystać z dostosowanych opcji przetwarzania danych wejściowych audio dostarczanych przez usługę HoloLens, ważne jest, aby zrozumieć różne kategorie strumieni audio, z których może korzystać aplikacja. Windows 10 obsługuje kilka różnych kategorii strumieni, HoloLens korzysta z trzech z nich, aby umożliwić przetwarzanie niestandardowe w celu zoptymalizowania jakości dźwięku mikrofonu dostosowanej do mowy, komunikacji i innych, które mogą być używane w scenariuszach przechwytywania audio środowiska otoczenia (czyli "kamery").

  • Kategoria AudioCategory_Communications stream jest dostosowana do scenariuszy jakości wywołań i narracji oraz udostępnia klientowi 24-bitowy strumień audio mono o częstotliwości 16 kHz dla głosu użytkownika
  • Kategoria strumienia AudioCategory_Speech jest dostosowana do aparatu mowy HoloLens (Windows) i udostępnia 24-bitowy strumień mono o częstotliwości 16 kHz dla głosu użytkownika. W razie potrzeby ta kategoria może być używana przez aparaty mowy innych firm.
  • Kategoria strumienia AudioCategory_Other jest dostosowana do rejestrowania dźwięku w środowisku otoczenia i udostępnia klientowi 24-bitowy strumień audio stereo 48 kHz.

Całe to przetwarzanie dźwięku jest przyspieszane sprzętowo, co oznacza, że funkcje opróżniają znacznie mniej mocy niż w przypadku tego samego przetwarzania HoloLens CPU. Unikaj uruchamiania innego przetwarzania danych wejściowych audio na procesorze, aby zmaksymalizować czas pracy baterii systemu i korzystać z wbudowanego, odciążego przetwarzania danych wejściowych audio.

Języki

HoloLens 2 obsługuje wiele języków. Pamiętaj, że polecenia mowy będą zawsze uruchamiane w języku wyświetlania systemu, nawet jeśli jest zainstalowanych wiele klawiatur lub jeśli aplikacje próbują utworzyć aparat rozpoznawania mowy w innym języku.

Rozwiązywanie problemów

Jeśli masz problemy z używaniem opcji "select" i "Hey Cortana", spróbuj przesunić się do cichszej przestrzeni, odejmując od źródła szumu lub mówiąc głośniej. Obecnie wszystkie rozpoznawania mowy na komputerach HoloLens są dostrojone i zoptymalizowane specjalnie dla natywnych osób mówiących po Stany Zjednoczone angielskim.

W przypadku wersji Windows Mixed Reality Developer Edition 2017 logika zarządzania audio punktami końcowymi będzie działać prawidłowo (w nieskończoność) po wylogowaniu się i powrocie do komputera po początkowym połączeniu z usługą HMD. Przed pierwszym wylogowaniem/zdarzeniem po zakończeniu działania środowiska WMR OOBE użytkownik mógł doświadczyć różnych problemów z funkcjonalnością dźwięku, od nieuzyskania dźwięku do przełączania bez dźwięku, w zależności od tego, jak system został ustawiony przed podłączeniem urządzenia HMD po raz pierwszy.



Wprowadzanie głosu w zestawie narzędzi MRTK (Mixed Reality Toolkit) dla aparatu Unity

Za pomocą mrTK można łatwo przypisywać polecenia głosowe do dowolnych obiektów. Użyj profilu wprowadzania mowy mrTK, aby zdefiniować słowa kluczowe. Przypisując skrypt SpeechInputHandler, można sprawić, aby dowolny obiekt odpowiadał na słowa kluczowe zdefiniowane w profilu wprowadzania mowy. SpeechInputHandler udostępnia również etykietę potwierdzenia mowy, aby zwiększyć zaufanie użytkownika.


Zobacz też