トレーニング
モジュール
Mixed Reality プロジェクトに Azure AI サービスを追加する - Training
このコースでは、Hololens2 アプリケーションに統合することによる Azure 音声サービスの使用について説明します。 お使いのプロジェクトを HoloLens に展開することも可能です。
このブラウザーはサポートされなくなりました。
Microsoft Edge にアップグレードすると、最新の機能、セキュリティ更新プログラム、およびテクニカル サポートを利用できます。
音声は、HoloLens の主な入力形式の 1 つです。 音声を使うと、手のジェスチャを使用せずに、ホログラムに直接コマンドを実行できます。 音声入力は、意図を伝える自然な方法として使用できます。 音声は、複雑なインターフェイスの走査に特に優れています。入れ子になったメニューをユーザーが 1 つのコマンドで通過できるためです。
音声入力には、すべてのユニバーサル Windows アプリで音声をサポートしているのと同一のエンジが利用されています。 HoloLens では、音声認識はデバイスの設定で構成された Windows の表示言語で常に機能します。
音声コマンドを使用しているときは、カーソルを使用して "選択" する場合も、見ているアプリケーションにコマンドをチャネル処理する場合も、頭または目の視線入力が一般的なターゲット設定メカニズムです。 視線入力カーソルを表示する必要がない場合もあります ("見て発音する")。 音声コマンドの中には、「スタートに移動」や「コルタナさん」のようにターゲットが必要ないものもあります。
機能 | HoloLens (第 1 世代) | HoloLens 2 | イマーシブ ヘッドセット |
音声入力 | ✔️ | ✔️ | ✔️ (マイク付き) |
HoloLens (第 1 世代)
アプリに音声サポートを追加しなくても、システム音声コマンドの「選択」を言うだけで、ユーザーはホログラムをアクティブ化することができます。 これは、HoloLens でのエア タップ、HoloLens クリッカーでの [選択] ボタン押下、Windows Mixed Reality モーション コントローラーのトリガー押下と同じように動作します。 サウンドが鳴り、「選択」というツールヒントが確認として表示されます。 「選択」は、省電力キーワード検出アルゴリズムによって有効になります。つまり、電池寿命への影響を最小限に抑えた状態でいつでも言うことができます。 両手を脇に降ろした状態で「選択」と言うこともできます。
HoloLens 2
HoloLens 2 で「選択」音声コマンドを使用するには、まず、視線入力カーソルをポインターとして起動する必要があります。 起動するためのコマンドは簡単に覚えられます。「選択」と言うだけです。
このモードを終了するには、再び手を使用します。エア タップして、指をボタンに近づけるか、システム ジェスチャを使用します。
画像: 「選択」と言って、選択のための音声コマンドを使用します
「コルタナさん」と言うと、いつでも Cortana を起動できます。 表示されるまで待つ必要はなく、続けて質問を尋ねたり、指示を与えることができます。 たとえば、「コルタナさん、天気はどうですか?」と 1 文で言ってみてください。 Cortana の詳細や何ができるかについては、Cortana に尋ねてください。 「コルタナさん、何を言えばいいですか?」と言うと、作業コマンドと推奨コマンドの一覧を教えてくれます。 既に Cortana アプリが起動されている場合は、サイドバーの [?] アイコンを選択するとこれと同じメニューが表示されます。
HoloLens 固有のコマンド
HoloLens には、音声入力のための "見て発音する" モデルがあり、ボタンのラベルによって、ユーザーが使用できる音声コマンドがわかります。 たとえば、HoloLens (第 1 世代) のアプリ ウィンドウを見て、ユーザーは「調整」コマンドを発音して環境でのアプリの位置を調整できます。
画像: ユーザーは、アプリ バーに表示される「調整」コマンドを発音して、アプリの位置を調整できます
アプリがこの規則に従うと、システムを制御するために何と言えばいいかをユーザーが簡単に理解できます。 HoloLens (第 1 世代) でボタンを見つめると、"音声ドウェル" ヒントが表示されます。これは、ボタンが音声対応の場合に 1 秒後に現れ、ボタンを "押す" ために発音するコマンドが表示されます。 HoloLens 2 で音声ヒントを表示するには、「選択」または「何を言えばいいですか」と言って音声カーソルを表示します (画像を参照してください)。
画像: "見て発音する" コマンドがボタンの下に表示されます
ホログラムを見つめながら言うことで、タスクをすばやく操作できる音声コマンドが多数あります。 これらの音声コマンドは、環境に配置したアプリ ウィンドウと 3D オブジェクトに対して機能します。
ホログラム操作コマンド
HoloLens 2 では、目の視線入力と組み合わせることで、さらに自然な対話式操作を実現することができます (目の視線入力によって、何を指しているかというコンテキスト情報が暗黙に提供されます)。 たとえば、ホログラムを見ながら「これを置く」と言ってから、置きたい場所を見て、「こちらに」と言うことができます。 あるいは、複雑な機械のホログラフィックのパーツを見て、「これについて詳細情報を教えて」と言うことができます。
上記の高速操作用のコマンドなど、一部のコマンドは非表示にできます。 使用できるコマンドを知りたい場合は、オブジェクトを見て、「何を言えばいいですか?」と言います。 使用可能なコマンドの一覧が表示されます。 また、頭の視線入力のカーソルを使用して、周囲を見渡し、目の前の各ボタンの音声ヒントを表示することもできます。
完全な一覧が必要な場合は、いつでも、「すべてのコマンドを表示する」と言うだけです。
アプリにテキストを入力するには、エア タップで入力するよりも、音声ディクテーションの方が効率的です。 これにより、ユーザーの労力を減らして入力にかかる時間を大幅に短縮できます。
キーボード上のマイクのボタンを選択すると音声ディクテーションが開始します
ホログラフィック キーボードがアクティブな場合はいつでも、タイプからディクテーション モードに切り替えることができます。 開始するには、テキスト入力ボックスの横にあるマイクを選択します。
構築するすべてのエクスペリエンスに対して、音声コマンドを加えることをご検討ください。 音声は、システムとアプリを制御するための強力かつ便利な方法です。 ユーザーはさまざまな方言やアクセントで話すため、音声キーワードを適切に選択することで、ユーザーのコマンドが明確に解釈されるようになります。
スムーズな音声認識に役立ついくつかのプラクティスを以下に示します。
音声入力は、意図を伝える自然な方法です。 音声を使用すると、インターフェイスの複数のステップを通過することができるため、特にインターフェイスの走査に適しています。 Web ページを見ているとき、ユーザーはアプリで上に移動して [戻る] ボタンをクリックする必要はなく、代わりに 「戻る」と言うことができます。 この短い時間の節約は、このエクスペリエンスに対するユーザーの認識に強力な感情的効果をもたらすとともに、ユーザーにわずかながら超能力を与えます。 音声の使用は、両手がふさがっているときや、マルチタスク中にも便利な入力方法です。 キーボードでの入力が難しいデバイスでは、音声ディクテーションがテキストの効率的な入力方法となる場合があります。 また、視線入力やジェスチャの精度の範囲が限られるケースでは、音声を使用してユーザーの意図を明確にすることができます。
音声使用がユーザーにもたらすメリット
音声入力は多様なアプリケーションで役立ちますが、いくつかの課題もあります。 アプリ開発者は、音声入力の利点と課題の両方を理解することで、音声入力を使用する方法や場合を適切に選択できるようになり、ユーザーのために優れたエクスペリエンスを作成できます。
連続入力制御での音声入力 きめ細かい制御はその 1 つです。 たとえば、ユーザーが音楽アプリの音量を変えようとする場合があります。 「もっと大きく」と言うことはできますが、システムがどれくらい音量を大きくすればよいかがはっきりしません。 ユーザーは「少し大きく」と言うこともできますが、「少し」を定量化するのは困難です。 音声を使用したホログラムの移動またはスケーリングも同様に困難です。
音声入力検出の信頼性 音声入力システムはどんどん向上していますが、音声入力の聞き取りや解釈が間違う場合もあります。 重要なのは、アプリケーションの課題に対処することです。 システムがリッスンしているときにユーザーにフィードバックを提供します。システムが何を理解したかによって、ユーザーの音声の理解に関する潜在的な問題が明らかになります。
共有スペースでの音声入力 他の人と共有するスペースでは音声が社会的に受け入れられない場合があります。 次に例をいくつか示します。
固有の語または不明な語の音声入力 音声入力の難しさは、ニックネーム、特定のスラング、省略形のように、ユーザーが話す言葉がシステムにとってわからない場合にも現れます。
音声コマンドの学習 最終的な目標はシステムと自然に会話することですが、多くの場合、アプリは事前定義された音声コマンドにまだ依存しています。 多数の音声コマンドのセットに伴う課題は、ユーザーにとって過大な負担とならない学習方法とユーザーが忘れないようにする方法です。
音声が適切に適用されると、ユーザーは自分が何を言えるのかを理解し、システムがそれを正しく認識したという明確なフィードバックを得ます。 こうした 2 つのシグナルにより、ユーザーは音声をメインの入力として使用することに自信を持つことができます。 下の図は、音声入力が認識されたときにカーソルに何が発生するか、またそれがユーザーにどのように伝わるかを示す図です。
1. カーソルの通常の状態
2. 音声のフィードバックを伝えてから消える
3. カーソルの通常の状態に戻る
HoloLens で提供されるカスタマイズされた音声入力処理オプションを利用するアプリケーションの場合は、アプリで使用できるさまざまなオーディオ ストリーム カテゴリを理解することが重要です。 Windows 10 によっていくつかの異なるストリーム カテゴリがサポートされており、HoloLens ではそのうち 3 つを利用して、音声、通信、その他 (アンビエント環境のオーディオ キャプチャ (つまり "カムコーダー") のシナリオで使用できる) に合わせてマイクのオーディオ品質を最適化するためのカスタム処理を有効にしています。
このようなオーディオ処理はすべてハードウェアによって促進されます。つまり、同じ処理が HoloLens CPU で処理される場合に比べて、機能によって使用される電力が大幅に少なくなります。 他のオーディオ入力処理の CPU での実行を回避して、システムの電池の寿命を延ばし、組み込みのオフロード オーディオ入力処理を利用してください。
HoloLens 2 では複数の言語がサポートされます。 複数のキーボードがインストールされている場合や、アプリが別の言語の音声認識エンジンを作成しようとする場合でも、音声コマンドは常にシステムの表示言語で実行されることに注意してください。
「選択」や「コルタナさん」を使用するときに問題が生じた場合は、静かな場所に移動したり、騒音の発生源とは異なる方向に向きを変えたり、話す声を大きくしたりしてみてください。 現時点では、HoloLens でのすべての音声認識は、英語 (米国) のネイティブ スピーカーに合わせてチューニングおよび最適化されています。
Windows Mixed Reality Developer Edition リリース 2017 では、オーディオ エンドポイント管理ロジックは、最初の HMD 接続の後で、PC デスクトップからログアウトしてログインすると、正常に (永続的に) 機能します。 WMR OOBE が行われた後でサインアウト/インをしないと、ユーザーは、オーディオなしや、オーディオの切り替えなど、さまざまなオーディオ機能の問題を経験する可能性があります。これは、最初に HMD に接続する前のシステムの設定によって異なります。
MRTK を使用すると、あらゆるオブジェクトに音声コマンドを簡単に割り当てることができます。 MRTK の音声入力プロファイルを使用してキーワードを定義します。 SpeechInputHandler スクリプトを割り当てることで、任意のオブジェクトが音声入力プロファイルに定義したキーワードに応答するようにできます。 SpeechInputHandler によって、ユーザーの信頼度を上げる音声確認ラベルも提供されます。
トレーニング
モジュール
Mixed Reality プロジェクトに Azure AI サービスを追加する - Training
このコースでは、Hololens2 アプリケーションに統合することによる Azure 音声サービスの使用について説明します。 お使いのプロジェクトを HoloLens に展開することも可能です。