音声入力Voice input


音声は、HoloLens の主な入力形式の 1 つです。Voice is one of the key forms of input on HoloLens. ハンドジェスチャを使用しなくても、ホログラムに直接コマンドを渡すことができます。It allows you to directly command a hologram without having to use hand gestures. 音声入力は、意図を伝える自然な方法として使用できます。Voice input can be a natural way to communicate your intent. 複雑なインターフェイスを走査するのは、ユーザーが1つのコマンドで入れ子になったメニューを使用できるため、音声は特に便利です。Voice is especially good at traversing complex interfaces, because it lets users cut through nested menus with one command.

音声入力は、他のすべての_ユニバーサル Windows アプリ_で音声をサポートするのと同じエンジンによって機能します。Voice input is powered by the same engine that supports speech in all other Universal Windows Apps. HoloLens では、音声認識は常に [設定] で構成された Windows 表示言語で機能します。On HoloLens, speech recognition will always function in the Windows display language configured in Settings.

音声と宝石Voice and gaze

音声コマンド (ヘッドまたはアイ) を使用する場合は、通常、ターゲットメカニズムとして、カーソルを使用するか (select)、または対象のアプリケーションにコマンドを暗黙的にチャネル化するかを使用します。When using voice commands, (head or eye) gaze is typically used as the targeting mechanism, whether with a cursor ("select") or to implicitly channel your command to an application that you are looking at. このため、どのような場合でも、そのカーソルを表示する必要がない場合があります (「参照してください」と言います)For this, it may not even be required to show any gaze cursor ("see it, say it"). もちろん、一部の音声コマンドでは、"start to start" や "Cortana のこんにちは" など、ターゲットがまったく必要ありません。Of course, some voice commands don't require a target at all, such as "go to start" or "Hey Cortana."

デバイス サポートDevice support

機能Feature HoloLens (第 1 世代)HoloLens (1st gen) HoloLens 2HoloLens 2 イマーシブ ヘッドセットImmersive headsets
音声入力Voice input ✔️✔️ ✔️✔️ ✔️ (マイクを使用)✔️ (with microphone)

"Select" コマンドThe "select" command

HoloLens (第 1 世代)HoloLens (1st gen)

特に音声サポートをアプリに追加しなくても、ユーザーはシステム音声コマンド "select" を指定するだけで、ホログラムをアクティブにすることができます。Even without specifically adding voice support to your app, your users can activate holograms simply by saying the system voice command "select". これは、HoloLens でのエアタップと同じように動作します。また、 hololens clickerの [選択] ボタンを押すか、 Windows Mixed Reality モーションコントローラーでトリガーを押します。This behaves the same as an air tap on HoloLens, pressing the select button on the HoloLens clicker, or pressing the trigger on a Windows Mixed Reality motion controller. サウンドが聞こえ、[選択] というヒントが確認として表示されます。You will hear a sound and see a tooltip with "select" appear as confirmation. "Select" は、低電力キーワード検出アルゴリズムによって有効にされているため、ユーザー側でも、バッテリ寿命の影響を最小限に抑えていつでもいつでも使用できます。"Select" is enabled by a low power keyword detection algorithm so it is always available for you to say at any time with minimal battery life impact, even with your hands at your side.

HoloLens 2HoloLens 2

HoloLens 2 で "選択" 音声コマンドを使用するには、まず、ポインターとして使用するために、最初に見つめカーソルを表示する必要があります。In order to use the "select" voice command in HoloLens 2, you first need to bring up the gaze cursor to use as a pointer. これを起動するためのコマンドは覚えやすいものです。 "select" と言うだけです。The command to bring it up is easy to remember -- just say, "select".

モードを終了するには、空中にタップするか、指でボタンに近づくか、またはシステムジェスチャを使用して、もう一度両手を使用します。To exit the mode, simply use your hands again, either by air tapping, approaching a button with your fingers, or using the system gesture.

イメージ: 音声コマンドを選択に使用するには、[選択] を言います。Image: Say "select" to use the voice command for selection

ユーザーは、[選択] を選択して、音声コマンドを選択に使用できます。

コルタナさんHey Cortana

また、いつでも cortana を立ち上げることができます。You can also say "Hey Cortana" to bring up Cortana at anytime. 自分の質問を続けたり、指示を出したりすることができるようになるまで待つ必要はありません。たとえば、「Cortana について言っていますか?」と言います。You don't have to wait for her to appear to continue asking her your question or giving her an instruction - for example, try saying "Hey Cortana, what's the weather?" 1つの文として。as a single sentence. Cortana とその対処方法の詳細については、For more information about Cortana and what you can do, simply ask her! 「Cortana とはどういうことですか。」と言います。Say "Hey Cortana, what can I say?" 次に、作業と推奨されるコマンドの一覧を取得します。and she'll pull up a list of working and suggested commands. 既に Cortana アプリを使用している場合は、[?] をクリックすることもできます。If you're already in the Cortana app you can also click the ? 同じメニューをプルするためのサイドバーのアイコン。icon on the sidebar to pull up this same menu.

HoloLens 固有のコマンドHoloLens-specific commands

  • 音声操作の項目"What can I say?"
  • ブルームの代わりに [スタート] メニューから [スタート]メニューに移動する"Go to Start" - instead of bloom to get to Start Menu
  • "起動 ""Launch "
  • "ここに移動 ""Move here"
  • "写真を撮る""Take a picture"
  • "記録の開始""Start recording"
  • "記録の停止""Stop recording"
  • "ハンドレイを表示する""Show hand ray"
  • "ハンドレイを隠す""Hide hand ray"
  • 「明るさを上げる」"Increase the brightness"
  • 「明るさを下げる」"Decrease the brightness"
  • "ボリュームを増やす""Increase the volume"
  • "音量を下げる""Decrease the volume"
  • "ミュート" または "ミュート解除""Mute" or "Unmute"
  • "デバイスをシャットダウンする""Shut down the device"
  • "デバイスを再起動する""Restart the device"
  • "スリープ状態に移行""Go to sleep"
  • "どのような時間がかかりますか。""What time is it?"
  • 「どのくらいのバッテリが残っていますか?」"How much battery do I have left?"

「言ってください。"See It, Say It"

HoloLens には、音声入力用の "it it はこれを見る" モデルがあります。ボタンのラベルはユーザーに対して、どのような音声コマンドを伝えることもできます。HoloLens has a "see it, say it" model for voice input, where labels on buttons tell users what voice commands they can say as well. たとえば、HoloLens (第1世代) のアプリウィンドウを見ると、ユーザーはアプリバーに表示される "調整" コマンドを使用して、世界中のアプリの位置を調整することができます。For example, when looking at an app window in HoloLens (1st gen), a user can say the "Adjust" command which they see in the App bar to adjust the position of the app in the world.

イメージ: ユーザーはアプリバーに表示される "調整" コマンドを使用してアプリの位置を調整できます。Image: A user can say the "Adjust" command which they see in the App bar to adjust the position of the app

アプリウィンドウまたはホログラムを見ると、ユーザーはアプリバーに表示される "調整" コマンドを使用して、世界中のアプリの位置を調整することができます。When looking at an app window or hologram, a user can say the "Adjust" command which they see in the App bar to adjust the position of the app in the world

アプリがこの規則に従うと、ユーザーはシステムを制御する方法を簡単に理解できます。When apps follow this rule, users can easily understand what to say to control the system. これを補足するために、HoloLens のボタン (第1世代) で、"音声熟考" というツールヒントが表示されるようになりました。ボタンの音声が有効になっている場合は、2回目の後に表示されます。To reinforce this, while gazing at a button in HoloLens (1st gen), you will see a "voice dwell" tooltip that comes up after a second if the button is voice-enabled and displays the command to speak to "press" it. HoloLens 2 の音声ツールヒントを表示するには、"選択" または "どのように言ってください" (画像を参照) と言って、音声カーソルを表示します。To reveal voice tooltips in HoloLens 2, show the voice cursor by saying "select" or "What can I say" (See image).

イメージ: ボタンの下にコマンドが表示されます。Image: "See it, say it" commands appear below the buttons


迅速なホログラム操作のための音声コマンドVoice commands for fast hologram manipulation

ホログラムを使用して操作を簡単に実行できるように、音声コマンドがいくつかあります。There are a number of voice commands you can say while gazing at a hologram to quickly perform manipulation tasks. これらの音声コマンドは、アプリウィンドウだけでなく、世界中に配置した3D オブジェクトでも動作します。These voice commands work on app windows as well as 3D objects you have placed in the world.

ホログラム操作コマンドHologram manipulation commands

  • Face me
  • 大規模 |用Bigger | Enhance
  • Smaller

HoloLens 2 では、参照している内容についてのコンテキスト情報を暗黙的に提供する、視線との組み合わせでより自然な対話を作成することもできます。On HoloLens 2, you can also create more natural interactions in combination with eye-gaze which implicitly provides contextual information about what you are referring to. たとえば、ホログラムを見て "put this" と言い、どこに配置するかを見て、「ここでは」と言うことができます。For example, you could simply look at a hologram and say "put this" and then look over where you want to place it and say "over here". または、複雑なコンピューター上の holographic の部分を見て、「_これ_に関する詳細情報を提供する」と言います。Or you could look at a holographic part on a complex machine and say: "give me more information about this".

音声コマンドの検出Discovering voice commands

上記の高速操作のコマンドのように、一部のコマンドは非表示にすることができます。Some commands, like the commands for fast manipulation above, can be hidden. 使用できるコマンドの詳細については、オブジェクトを見つめ、「どうしたら言いますか」と言うことができます。To learn about what commands you can use, gaze at an object and say, "what can I say?". 使用可能なコマンドの一覧がポップアップ表示されます。A list of possible commands pops up. また、頭を見つめたカーソルを使用して、前の各ボタンの音声ツールヒントを見たり、表示したりすることもできます。You can also use the head gaze cursor to look around and reveal the voice tooltips for each button in front of you.

完全な一覧が必要な場合は、いつでも [すべてのコマンドを表示] を選択します。If you want a complete list, just say, "Show all commands" anytime.


音声ディクテーションで入力するのではなく、アプリケーションにテキストを入力する方が効率的です。Rather than typing with air taps, voice dictation can be more efficient to enter text into an app. これにより、ユーザーの負担を軽減しながら、入力を大幅に高速化できます。This can greatly accelerate input with less effort for the user.

音声ディクテーションを開始するには、マイクボタンを選択します。Voice dictation starts by selecting the microphone button
音声ディクテーションを開始するには、キーボードのマイクボタンを選択します。Voice dictation starts by selecting the microphone button on the keyboard

Holographic キーボードがアクティブなときはいつでも、入力せずにディクテーションモードに切り替えることができます。Any time the holographic keyboard is active, you can switch to dictation mode instead of typing. 開始するには、テキスト入力ボックスの横にあるマイクを選択します。Select the microphone on the side of the text input box to get started.

音声コマンドをアプリに追加するAdding voice commands to your app

構築するすべてのエクスペリエンスに対して、音声コマンドを加えることをご検討ください。Consider adding voice commands to any experience that you build. 音声は、システムとアプリを制御するための強力かつ便利な方法です。Voice is a powerful and convenient way control the system and apps. ユーザーはさまざまな方言やアクセントで話すので、音声キーワードの適切な選択によって、ユーザーのコマンドが明確に解釈されるようになります。Because users speak with a variety of dialects and accents, proper choice of speech keywords will make sure that your users' commands are interpreted unambiguously.

ベスト プラクティスBest practices

スムーズな音声認識に役立ついくつかのプラクティスを以下に示します。Below are some practices that will aid in smooth speech recognition.

  • 簡潔なコマンドを使用する - 可能なら 2 音節以上から成るキーワードを選択します。Use concise commands - When possible, choose keywords of two or more syllables. 1 音節の単語は、アクセントが異なる人が読み上げると、別の母音が使用されやすくなります。One-syllable words tend to use different vowel sounds when spoken by persons of different accents. 例: "ビデオの再生" は、"現在選択されているビデオを再生する" よりも優れています。Example: "Play video" is better than "Play the currently selected video"
  • 単純な語彙を使用する-例: "show プラカード" よりも "メモの表示" が適しています。Use simple vocabulary - Example: "Show note" is better than "Show placard"
  • コマンドが非破壊的であること - 音声認識コマンドによって実行される可能性のあるすべての操作が非破壊的であり、ユーザーの近くで話している別の人によって誤ってコマンドがトリガーされた場合でも簡単に元に戻せることをご確認ください。Make sure commands are non destructive - Make sure any action that can be taken by a speech command is non destructive and can easily be undone in case another person speaking near the user accidentally triggers a command.
  • 発音が似ているコマンドを避ける - 発音がよく似ている音声認識コマンドを複数登録しないようにします。Avoid similar sounding commands - Avoid registering multiple speech commands that sound very similar. 例: "more Show" と "Show store" は、よく似た発音です。Example: "Show more" and "Show store" can be very similar sounding.
  • 使用していない場合、アプリの登録を解除する - アプリの状態が、特定の音声認識コマンドが有効になる状態ではないなら、それが他のコマンドと混同されないよう、アプリを登録解除することをご検討ください。Unregister your app when not it use - When your app is not in a state in which a particular speech command is valid, consider unregistering it so that other commands are not confused for that one.
  • 別のアクセントによるテスト - 別のアクセントのユーザーによってアプリをテストします。Test with different accents - Test your app with users of different accents.
  • 音声コマンドの一貫性を維持 - 「戻る」で前のページに戻るようになっているなら、ご自分のアプリケーションでもこの動作を維持してください。Maintain voice command consistency - If "Go back" goes to the previous page, maintain this behavior in your applications.
  • システムのコマンドを使用しない - 次の音声コマンドはシステムで予約されています。Avoid using system commands - The following voice commands are reserved for the system. これらのコマンドは、アプリケーションで使用することができません。These should not be used by applications.
    • 「コルタナさん」"Hey Cortana"
    • 「選択」"Select"
    • "スタート画面に進む""Go to start"

音声入力の利点Advantages of voice input

音声入力は、意図を伝える自然な方法です。Voice input is a natural way to communicate our intents. ユーザーがインターフェイスの複数のステップを切り取ることができるので、音声はインターフェイストラバーサルで特に優れています (ユーザーは、アプリの [戻る] ボタンをクリックするのではなく、web ページの閲覧中に "戻る" と言います)。Voice is especially good at interface traversals because it can help users cut through multiple steps of an interface (a user might say "go back" while looking at a webpage, instead of having to go up and hit the back button in the app). この小さな節約には、ユーザーによるエクスペリエンスの認識に対する大きな影響があるため、少量のスーパーパワーが得られます。This small time saving has a powerful emotional effect on user’s perception of the experience and gives them a small amount superpower. 音声の使用は、両手がふさがっているときや、マルチタスク中にも便利な入力方法です。Using voice is also a convenient input method when we have our arms full or are multi-tasking. キーボードでの入力が難しいデバイスでは、音声ディクテーションを使用してテキストを入力する方法が効率的です。On devices where typing on a keyboard is difficult, voice dictation can be an efficient alternative way to input text. 最後に、宝石とジェスチャの精度の範囲が限られている場合は、音声を使用してユーザーの意図を明確にすることができます。Lastly, in some cases when the range of accuracy for gaze and gesture are limited, voice can help to disambiguate the user's intent.

音声使用がユーザーにもたらすメリットHow using voice can benefit the user

  • 時間の短縮 - 最終目的をより効率的にします。Reduces time - it should make the end goal more efficient.
  • 労力の最小化 - タスクをよりスムーズかつ簡単にします。Minimizes effort - it should make tasks more fluid and effortless.
  • 認知負荷の軽減 - 直感的かつ簡単で、覚えるのが容易です。Reduces cognitive load - it's intuitive, easy to learn, and remember.
  • 社会的に受け入れられる - 動作の観点から社会規範に適合するものです。It's socially acceptable - it should fit in with societal norms in terms of behavior.
  • 日常的 - 音声はすぐに習慣的な動作となることができます。It's routine - voice can readily become a habitual behavior.

音声入力の課題Challenges for voice input

音声入力は多くのさまざまなアプリケーションにとって優れていますが、いくつかの課題に直面しています。While voice input is great for a lot of different applications, it also faces several challenges. 音声入力の利点と課題の両方を理解することで、アプリ開発者は、音声入力を使用する方法とタイミング、およびユーザーのエクスペリエンスを向上させることができます。Understanding both the advantages and challenges for voice input enables app developers to make smarter choices for how and when to use voice input and to create a great experience for their users.

連続入力コントロールの音声入力細かい制御はその1つです。Voice input for continuous input control Fine-grained control is one of them. たとえば、ユーザーが音楽アプリでボリュームを変更する場合があります。For example, a user might want to change their volume in their music app. 単に "音を大きくする" ことができますが、ボリュームを作成するためにシステムがどの程度大きくなっているかが明確ではありません。She can simply say "louder", but it's not clear how much louder the system is supposed to make the volume. ユーザーは、"少し大きくする" ようにすることができますが、"少し" は定量化が困難です。The user could say: "Make it a little louder", but "a little" is difficult to quantify. 音声を使用したホログラムの移動またはスケーリングも難しくなります。Moving or scaling holograms with voice is similarly difficult.

音声入力の検出の信頼性音声入力システムの品質と品質が向上しても、音声コマンドが誤って聞こえたり、解釈されたりすることがあります。Reliability of voice input detection While voice input systems become better and better, sometimes they may incorrectly hear and interpret a voice command. 重要なのは、システムがリッスンしているときにユーザーにフィードバックを提供することと、ユーザーを正しく理解するうえで潜在的な問題を明確にするためにシステムを認識することによって、アプリケーションのこの課題に対処することです。The key is to address this challenge in your application by providing feedback to the user when the system is listening and what the system understood to create clarity on potential issues in correctly understanding the user.

共有スペースでの音声入力他のユーザーと共有するスペースでは、音声をソーシャルことができない可能性があります。Voice input in shared spaces Voice may not be socially acceptable in spaces that you share with others. 次に例をいくつか示します。Here are a few examples:

  • ユーザーが他のユーザーを妨害したくない場合があります (たとえば、quiet ライブラリや共有オフィスなど)。The user may not want to disturb others (e.g., in a quiet library or shared office)
  • ユーザーは、公開されていないように見えにくいかもしれません。Users may feel awkward being seen talking to themselves in public,
  • 他のユーザーがリッスンしているときに、個人または機密のメッセージ (パスワードを含む) がディクテーションされることが不快に感じられる可能性があります。A user may feel uncomfortable dictating a personal or confidential message (including passwords) while others are listening

一意または不明な単語の音声入力また、ユーザーがシステムに知られていない単語 (ニックネーム、特定のスラング語、略語など) をディクテーションしている場合にも、音声入力の問題が発生します。Voice input of unique or unknown words Difficulties for voice input also come when users are dictating words that may be unknown to the system, such as nicknames, certain slang words or abbreviations.

音声コマンドの学習最終的な目標はシステムと自然に逆のことですが、多くの場合、アプリは特定の定義済み音声コマンドに依存します。Learning voice commands While the ultimate goal is to naturally converse with your system, often times apps still rely on specific pre-defined voice commands. 音声コマンドの大規模なセットに関連する課題は、ユーザーをオーバーロードすることなくユーザーを教える方法と、ユーザーがそれらを保持できるようにする方法です。A challenge associated with a big set of voice commands is how to teach them without overloading the user and how to help the user to retain them.

音声のフィードバックの状態Voice feedback states

音声が適切に適用されると、ユーザーは自分が何を言えるのかを理解し、システムがそれを正しく認識したという明確なフィードバックを得ます。When Voice is applied properly, the user understands what they can say and get clear feedback the system heard them correctly. こうした 2 つのシグナルにより、ユーザーは音声をメインの入力として使用することに自信を持つことができます。These two signals make the user feel confident in using Voice as a primary input. 下の図は、音声入力が認識されたときにカーソルに何が発生するか、またそれがユーザーにどのように伝わるかを示す図です。Below is a diagram showing what happens to the cursor when voice input is recognized and how it communicates that to the user.

1. 標準のカーソル状態1. Regular cursor state
1. 標準のカーソル状態1. Regular cursor state

2. 音声フィードバックを通知してから、非表示にします。2. Communicates voice feedback and then disappears
2. 音声フィードバックを通知してから、非表示にします。2. Communicates voice feedback and then disappears

番.*3. 通常のカーソルの状態Regular cursor state
3. 通常のカーソル状態に戻ります。3. Returns to regular cursor state

Mixed Reality における「音声」について、ユーザーが知っておくべき重要な事項Top things users should know about "speech" in mixed reality

  • ボタンをターゲットにしながら 「選択」 と言います (ボタンをクリックする場所ならどこでもこれを使用できます)。Say "Select" while targeting a button (you can use this anywhere to click a button).
  • 一部のアプリでは、アクションを実行するためにアプリ バー ボタンのラベル名を言うことができます。You can say the label name of an app bar button in some apps to take an action. たとえば、ユーザーは、アプリを見ながらコマンド「削除」を発話することで、アプリを環境から削除することができます (これにより手動でクリックする手間が省けます)。For example, while looking at an app, a user can say the command "Remove" to remove the app from the world (this saves time from having to click it with your hand).
  • 「コルタナさん」と言うと、Cortana のリスニングを開始することができます。You can initiate Cortana listening by saying "Hey Cortana." 質問をしたり (「コルタナさん、エッフェル塔の高さは?」など)、アプリを開くように指示したり (「コルタナさん、Netflix を開いて」など)、スタート メニューを表示するように指示したり (「コルタナさん、ホームに戻って」など) することができます。You can ask her questions ("Hey Cortana, how tall is the Eiffel tower"), tell her to open an app ("Hey Cortana, open Netflix"), or tell her to bring up the Start Menu ("Hey Cortana, take me home") and more.

音声に関する一般的な質問と問題Common questions and concerns users have about voice

  • 音声操作の項目。What can I say?
  • 音声が正しく認識されているかどうかを確認する方法。How do I know the system heard me correctly?
    • 音声コマンドが継続的に誤認識される。The system keeps getting my voice commands wrong.
    • 音声コマンドに対する反応がない。It doesn’t react when I give it a voice command.
  • 音声コマンドを言ったが、間違った動作になる。It reacts the wrong way when I give it a voice command.
  • 自分の音声のターゲットを特定のアプリやアプリ コマンドにする方法。How do I target my voice to a specific app or app command?
  • HoloLens のホログラフィック フレームから外れたものに音声でコマンドを出せるか。Can I use voice to command things out the holographic frame on HoloLens?


HoloLens が提供するカスタマイズされたオーディオ入力処理オプションを利用する必要があるアプリケーションでは、アプリが使用できるさまざまなオーディオストリームのカテゴリを理解することが重要です。For applications that want to take advantage of the customized audio input processing options provided by HoloLens, it is important to understand the various audio stream categories your app can consume. Windows 10 では、さまざまなストリームカテゴリがサポートされています。 HoloLens では、これらのうちの3つを使用して、音声、通信、およびアンビエント環境のオーディオキャプチャ (つまり "ビデオカメラ") シナリオで使用できるマイクオーディオ品質をカスタム処理によって最適化します。Windows 10 supports several different stream categories and HoloLens makes use of three of these to enable custom processing to optimize the microphone audio quality tailored for speech, communication and other which can be used for ambient environment audio capture (i.e. "camcorder") scenarios.

  • AudioCategory_Communications ストリームカテゴリは、通話の品質とナレーションのシナリオに合わせてカスタマイズされ、クライアントにユーザーの声の 16kHz 24bit mono オーディオストリームを提供します。The AudioCategory_Communications stream category is customized for call quality and narration scenarios and provides the client with a 16kHz 24bit mono audio stream of the user's voice
  • AudioCategory_Speech ストリームカテゴリは、HoloLens (Windows) 音声エンジン用にカスタマイズされており、ユーザーの声の 16kHz 24bit mono ストリームを提供します。The AudioCategory_Speech stream category is customized for the HoloLens (Windows) speech engine and provides it with a 16kHz 24bit mono stream of the user's voice. このカテゴリは、サードパーティの音声エンジンで必要に応じて使用できます。This category can be used by 3rd party speech engines if needed.
  • AudioCategory_Other ストリームカテゴリは、アンビエント環境オーディオ記録用にカスタマイズされており、クライアントには 48 Khz 24 ビットのステレオオーディオストリームが用意されています。The AudioCategory_Other stream category is customized for ambient environment audio recording and provides the client with a 48kHz 24 bit stereo audio stream.

このようなオーディオ処理はすべてハードウェアアクセラレータです。これは、HoloLens CPU で同じ処理が行われた場合と比べて、機能の電力消費が多くなることを意味します。All this audio processing is hardware accelerated which means the features drain a lot less power than if the same processing was done on the HoloLens CPU. システムのバッテリ寿命を最大化し、組み込みのオフロードオーディオ入力処理を活用するために、CPU で他のオーディオ入力処理を実行しないようにします。Avoid running other audio input processing on the CPU to maximize system battery life and take advantage of the built in, offloaded audio input processing.


HoloLens 2 では、複数の言語がサポートされています。HoloLens 2 supports multiple languages. 複数のキーボードがインストールされている場合や、アプリが別の言語で音声認識エンジンを作成しようとした場合でも、音声コマンドは常にシステムの表示言語で実行されることに注意してください。Keep in mind that speech commands will always run in the system's display language even if multiple keyboards are installed or if apps attempt to create a speech recognizer in a different language.


"Select" と "Cortana" を使用して問題が発生している場合は、静かな領域に移動するか、ノイズの発生源から離れるか、音を大きくしてみてください。If you're having any issues using "select" and "Hey Cortana", try moving to a quieter space, turning away from the source of noise, or by speaking louder. 現時点では、HoloLens の音声認識はすべて米国英語のネイティブスピーカーに対して調整および最適化されています。At this time, all speech recognition on HoloLens is tuned and optimized specifically to native speakers of United States English.

Windows Mixed Reality Developer Edition release 2017 では、オーディオエンドポイント管理ロジックは、最初の HMD 接続の後、いったんログアウトして PC デスクトップに戻すと、正常に機能します。For the Windows Mixed Reality Developer Edition release 2017, the audio endpoint management logic will work fine (forever) after logging out and back in to the PC desktop after the initial HMD connection. ユーザーは、WMR OOBE を通過した後に初めてサインアウト/イベントが発生する前に、HMD を初めて接続する前にシステムがどのように設定されているかによって、オーディオの切り替えなしのさまざまなオーディオ機能の問題が発生する可能性があります。Prior to that first sign out/in event after going through WMR OOBE, the user could experience various audio functionality issues ranging from no audio to no audio switching depending on how the system was set up prior to connecting the HMD for the first time.

Unity 用の MRTK (Mixed Reality Toolkit) での音声入力Voice input in MRTK (Mixed Reality Toolkit) for Unity

Mrtk では、任意のオブジェクトに音声コマンドを簡単に割り当てることができます。With MRTK, you can easily assign voice command on any objects. MRTK の音声入力プロファイルを使用して、キーワードを定義します。Use MRTK's Speech Input Profile to define your keywords. SpeechInputHandlerスクリプトを割り当てることにより、音声入力プロファイルで定義されているキーワードにオブジェクトを応答させることができます。By assigning SpeechInputHandler script, you can make any object respond to the keywords defined in the Speech Input Profile. また、SpeechInputHandler は、ユーザーの信頼度を向上させるための音声確認ラベルも提供します。SpeechInputHandler also provides speech confirmation label to improve the user's confidence.

関連項目See also