音声コマンドVoice commanding

音声コマンドを使用する場合、視線入力は通常、ターゲットを設定するメカニズムとして使用されます。ポインターとして (「選択」)、またはアプリケーションにコマンドを送る (「見て発音する」) 目的で使用します。When using voice commands, gaze is typically used as the targeting mechaninism, whether as a pointer ("select") or to direct your command to an application ("see it, say it"). もちろん、音声コマンドの中には、「スタートに移動」や「コルタナさん」のようにターゲットが必要ないものもあります。Of course, some voice commands don't require a target at all, like "go to start" or "Hey, Cortana."

デバイスのサポートDevice support

機能Feature HoloLens (第 1 世代)HoloLens (1st gen)HoloLens 2HoloLens 2 イマーシブ ヘッドセットImmersive headsets
音声コマンドVoice commanding ✔️✔️ ✔️✔️ ✔️ (ヘッドセット付き)✔️ (with headset attached)

音声の使用方法How to use voice

構築するすべてのエクスペリエンスに対して、音声コマンドを加えることをご検討ください。Consider adding voice commands to any experience that you build. 音声は、システムとアプリを制御するための強力かつ便利な方法です。Voice is a powerful and convenient way control the system and apps. ユーザーはさまざまな方言やアクセントで話すので、音声キーワードの適切な選択によって、ユーザーのコマンドが明確に解釈されるようになります。Because users speak with a variety of dialects and accents, proper choice of speech keywords will make sure that your users' commands are interpreted unambiguously.

ベスト プラクティスBest practices

スムーズな音声認識に役立ついくつかのプラクティスを以下に示します。Below are some practices that will aid in smooth speech recognition.

  • 簡潔なコマンドを使用する - 可能なら 2 音節以上から成るキーワードを選択します。Use concise commands - When possible, choose keywords of two or more syllables. 1 音節の単語は、アクセントが異なる人が読み上げると、別の母音が使用されやすくなります。One-syllable words tend to use different vowel sounds when spoken by persons of different accents. 以下に例を示します。「現在選択されているビデオを再生」より「ビデオを再生」の方がよいでしょうExample: "Play video" is better than "Play the currently selected video"
  • シンプルなボキャブラリを使用する - 例:「プラカードの表示」より「メモを表示」の方がよいでしょうUse simple vocabulary - Example: "Show note" is better than "Show placard"
  • コマンドが非破壊的であること - 音声認識コマンドによって実行される可能性のあるすべての操作が非破壊的であり、ユーザーの近くで話している別の人によって誤ってコマンドがトリガーされた場合でも簡単に元に戻せることをご確認ください。Make sure commands are non destructive - Make sure any action that can be taken by a speech command is non destructive and can easily be undone in case another person speaking near the user accidentally triggers a command.
  • 発音が似ているコマンドを避ける - 発音がよく似ている音声認識コマンドを複数登録しないようにします。Avoid similar sounding commands - Avoid registering multiple speech commands that sound very similar. 以下に例を示します。「Show more(詳細の表示)」と「Show store(店舗の表示)」は、発音が非常によく似ている場合があります。Example: "Show more" and "Show store" can be very similar sounding.
  • 使用していない場合、アプリの登録を解除する - アプリの状態が、特定の音声認識コマンドが有効になる状態ではないなら、それが他のコマンドと混同されないよう、アプリを登録解除することをご検討ください。Unregister your app when not it use - When your app is not in a state in which a particular speech command is valid, consider unregistering it so that other commands are not confused for that one.
  • 別のアクセントによるテスト - 別のアクセントのユーザーによってアプリをテストします。Test with different accents - Test your app with users of different accents.
  • 音声コマンドの一貫性を維持 - 「戻る」で前のページに戻るようになっているなら、ご自分のアプリケーションでもこの動作を維持してください。Maintain voice command consistency - If "Go back" goes to the previous page, maintain this behavior in your applications.
  • システムのコマンドを使用しない - 次の音声コマンドはシステムで予約されています。Avoid using system commands - The following voice commands are reserved for the system. これらのコマンドは、アプリケーションで使用することができません。These should not be used by applications.
    • 「コルタナさん」"Hey Cortana"
    • 「選択」"Select"


「選択」と言った場合はいつでも、何であれ視線入力カーソルでポイントされているものがアクティブ化されます。Saying "select" at any time will activate whatever the gaze cursor is pointing at.

注:HoloLens 2 では、まず単語「選択」を発音して、視線入力カーソルを呼び出す必要があります。Note: In HoloLens 2, the gaze cursor needs to first be invoked by saying the word "select". もう一度「選択」と言うとアクティブ化されます。Say, "select" again to activate. 視線入力カーソルを非表示にするには、手を使ってオブジェクトをエアタップまたはタッチするだけです。To hide the gaze cursor, simply use your hands -- airtap or touch an object.

見て発音するSee it, say it

Windows Mixed Reality では「see it, say it (見て発音する)」音声モデルを採用しています。この場合、ボタンのラベルは関連付けられている音声コマンドと同じですWindows Mixed Reality has employed a "see it, say it" voice model where labels on buttons are identical to the associated voice commands. ラベルと音声コマンドの間で不一致がないため、ユーザーはシステムを制御するために何を言うべきかをよりよく理解できます。Because there isn’t any dissonance between the label and the voice command, users can better understand what to say to control the system. これを強化するため、ボタン上でドウェルしている間は、音声対応のボタンを示す "音声ドウェル ヒント" が表示されます。To reinforce this, while dwelling on a button, a "voice dwell tip" appears to communicate which buttons are voice enabled.

「見て発音する」の例 1

「見て発音する」の例 2See it say it example 2
「見て発音する」の例Examples of "see it, say it"

音声の長所Voice's strengths

音声入力は、意図を伝える自然な方法です。Voice input is a natural way to communicate our intents. 音声は特にインターフェイスの横断に適しています。ユーザーがインターフェイスの複数のステップを省略するのに役立つためです (Web ページを見ているときに「戻る」と言えば、ユーザーはアプリの中で上まで行って [戻る] ボタンを押さなくても済みます)。Voice is especially good at interface traversals because it can help users cut through multiple steps of an interface (a user might say "go back" while looking at Web page, instead of having to go up and hit the back button in the app). この小さな時間の節約は、このエクスペリエンスに対するユーザーの認識に強力な感情的効果をもたらすとともに、ユーザーにわずかながら強力な力を与えます。This small time savings has a powerful emotional effect on user’s perception of the experience and gives them a small amount superpower. 音声の使用は、両手がふさがっているときや、マルチタスク中にも便利な入力方法です。Using voice is also a convenient input method when we have our arms full or are multi-tasking. キーボードでの入力が難しいデバイスでは、音声ディクテーションが効率的な入力方法となる場合もあります。On devices where typing on a keyboard is difficult, voice dictation can be an efficient alternative way to input. 最後に、視線入力とジェスチャの精度範囲が限られている場合、音声がユーザーの唯一の信頼できる入力方法になることもあります。Lastly, in some cases when the range of accuracy for gaze and gesture are limited, Voice might be a user’s only trusted method input.

音声使用がユーザーにもたらすメリットHow using voice can benefit the user

  • 時間の短縮 - 最終目的をより効率的にします。Reduces time - it should make the end goal more efficient.
  • 労力の最小化 - タスクをよりスムーズかつ簡単にします。Minimizes effort - it should make tasks more fluid and effortless.
  • 認知負荷の軽減 - 直感的かつ簡単で、覚えるのが容易です。Reduces cognitive load - it's intuitive, easy to learn, and remember.
  • 社会的に受け入れられる - 動作の観点から社会規範に適合するものです。It's socially acceptable - it should fit in with societal norms in terms of behavior.
  • 日常的 - 音声はすぐに習慣的な動作となることができます。It's routine - voice can readily become a habitual behavior.

音声の短所Voice's weaknesses

音声には短所もいくつかあります。Voice also has some weaknesses. 詳細に制御することはその 1 つです。Fine-grained control is one of them. たとえば、ユーザーが「音を大きく」と言っても、どの程度大きくするかは言うことができません。(for example a user might say "louder," but can’t say how much. 「少し」は程度の指定が困難です。"A little" is hard to quantify. 音声では物の移動や拡大縮小も困難です (音声では詳細に制御することができません)。Moving or scaling things with voice is also difficult (voice does not offer the granularity of control). 音声も不完全な場合があります。Voice can also be imperfect. 音声システムでコマンドを誤認識したり、コマンドを聞き落としたりすることもあります。Sometimes a voice system incorrectly hears a command or fails to hear a command. このようなエラーからの回復は、すべてのインターフェイスにおける課題です。Recovering from such errors is a challenge in any interface. 最後に、音声は、公共の場では社会的に受け入れられない場合もあります。Lastly, voice may not be socially acceptable in public places. ユーザーが言うことができない、または言うべきではない言葉もあります。There are some things that users can’t or shouldn’t say. こうした崖があるので、音声はその得意分野でなら使えるということになります。These cliffs allow speech to be used for what it is best at.

音声のフィードバックの状態Voice feedback states

音声が適切に適用されると、ユーザーは自分が何を言えるのかを理解し、システムがそれを正しく認識したという明確なフィードバックを得ます。When Voice is applied properly, the user understands what they can say and get clear feedback the system heard them correctly. こうした 2 つのシグナルにより、ユーザーは音声をメインの入力として使用することに自信を持つことができます。These two signals make the user feel confident in using Voice as a primary input. 下の図は、音声入力が認識されたときにカーソルに何が発生するか、またそれがユーザーにどのように伝わるかを示す図です。Below is a diagram showing what happens to the cursor when voice input is recognized and how it communicates that to the user.

カーソルの音声のフィードバック状態Voice feedback states for cursor
カーソルの音声のフィードバック状態Voice feedback states for cursor

Mixed Reality における「音声」について、ユーザーが知っておくべき重要な事項Top things users should know about "speech" in mixed reality

  • ボタンをターゲットにしながら 「選択」 と言います (ボタンをクリックする場所ならどこでもこれを使用できます)。Say "Select" while targeting a button (you can use this anywhere to click a button).
  • 一部のアプリでは、アクションを実行するためにアプリ バー ボタンのラベル名を言うことができます。You can say the label name of an app bar button in some apps to take an action. たとえば、ユーザーは、アプリを見ながらコマンド「削除」を発話することで、アプリを環境から削除することができます (これにより手動でクリックする手間が省けます)。For example, while looking at an app, a user can say the command "Remove" to remove the app from the world (this saves time from having to click it with your hand).
  • 「コルタナさん」と言うと、Cortana のリスニングを開始することができます。You can initiate Cortana listening by saying "Hey Cortana." 質問をしたり (「コルタナさん、エッフェル塔の高さは?」など)、アプリを開くように指示したり (「コルタナさん、Netflix を開いて」など)、スタート メニューを表示するように指示したり (「コルタナさん、ホームに戻って」など) することができます。You can ask her questions ("Hey Cortana, how tall is the Eiffel tower"), tell her to open an app ("Hey Cortana, open Netflix"), or tell her to bring up the Start Menu ("Hey Cortana, take me home") and more.

音声に関する一般的な質問と問題Common questions and concerns users have about voice

  • 音声操作の項目。What can I say?
  • 音声が正しく認識されているかどうかを確認する方法。How do I know the system heard me correctly?
    • 音声コマンドが継続的に誤認識される。The system keeps getting my voice commands wrong.
    • 音声コマンドに対する反応がない。It doesn’t react when I give it a voice command.
  • 音声コマンドを言ったが、間違った動作になる。It reacts the wrong way when I give it a voice command.
  • 自分の音声のターゲットを特定のアプリやアプリ コマンドにする方法。How do I target my voice to a specific app or app command?
  • HoloLens のホログラフィック フレームから外れたものに音声でコマンドを出せるか。Can I use voice to command things out the holographic frame on HoloLens?

関連項目See also