Mixed reality アプリケーションでサウンドを使用する方法How to use sound in mixed-reality applications

サウンドを使用して、ユーザーのアプリケーション状態のメンタルモデルを通知し、補強することができます。You can use sound to inform and reinforce the user's mental model of application state. 必要に応じて spatialization を使用して、mixed reality の世界にサウンドを配置します。Use spatialization, when appropriate, to place sounds in the mixed-reality world. この方法で聴覚とビジュアルを接続すると、相互作用の直感的な性質が高まり、ユーザーの信頼度が向上します。When you connect the auditory and the visual in this way, you deepen the intuitive nature of interactions and increase user confidence.

サウンドを追加するタイミングWhen to add sounds

混合現実のアプリケーションでは、tactile インターフェイスがないため、多くの場合、2D アプリよりもサウンドが必要になります。Mixed-reality applications often have a greater need for sound than 2D apps, because of their lack of a tactile interface. ユーザーに通知したり、対話を補強したりするときに、サウンドを追加します。Add sounds when they inform the user or reinforce interactions.

通知と補強Inform and reinforce

  • 通知など、ユーザーによって開始されていないイベントについては、音を使用して、変更が発生したことをユーザーに通知します。For events that aren't initiated by the user, such as notifications, use sound to inform the user that a change occurred.
  • 相互作用には複数の段階があります。Interactions may have several stages. 音を使用してステージの遷移を補強します。Use sound to reinforce stage transitions.

相互作用、イベント、および推奨されるサウンド特性の次の例を参照してください。See the following examples of interactions, events, and suggested sound characteristics.

演習ガイドExercise restraint

オーディオ情報の容量に制限はありません。Users don't have an unlimited capacity for audio information.

  • 各サウンドは、特定の重要な情報を伝達します。Each sound should communicate specific, valuable information.
  • アプリがサウンドを再生してユーザーに通知するときに、他のサウンドの音量を一時的に下げます。When your app plays a sound to inform the user, temporarily reduce the volume of other sounds.
  • ボタンをポイントしたときのサウンド (次の情報を参照) については、待ち時間を追加して、音が過剰にトリガーされないようにします。For button hover sounds (see the following information), add a time delay to prevent excessive sound triggering.

サウンドだけに依存しないDon't rely solely on sounds

よく使用されるサウンドは、ユーザーにとって価値があります。Sounds that are used well are valuable to your users. ただし、サウンドがオフになっている場合でもアプリケーションが使用可能であることを確認してください。But make sure your application is usable even with the sound turned off.

  • ユーザーの聴覚が不自由になっている可能性があります。Users may be hearing impaired.
  • アプリケーションは、大いな環境で使用できます。Your application may be used in a loud environment.
  • ユーザーには、プライバシーに関する考慮事項や、デバイスオーディオを無効にするその他の理由が考えられます。Users may have privacy concerns or other reasons to disable device audio.

相互作用を sonify する方法How to sonify interactions

混合現実の対話型には、ジェスチャ、直接操作、音声などがあります。Interaction types in mixed reality include gesture, direct manipulation, and voice. 次の推奨される特性を使用して、これらのインタラクションのサウンドを選択または設計します。Use the following suggested characteristics to select or design sounds for these interactions.

ジェスチャの相互作用Gesture interactions

Mixed reality では、ユーザーはマウスを使用してボタンを操作できます。In mixed reality, users may interact with buttons by using a mouse. ボタンの操作は、通常、ユーザーがボタンをクリックするのではなく、ユーザーが操作をキャンセルできるようにしたときに発生します。Button actions generally occur when the user releases rather than presses the button to give the user a chance to cancel the interaction. サウンドを使用して、これらのステージを補強します。Use sounds to reinforce these stages. 離れた場所にあるボタンをユーザーがターゲットとして使用できるようにするには、ポインターをポイントするサウンドの使用も検討してください。To assist users in targeting distant buttons, also consider using a pointer-hover sound.

  • ボタン-enter キーを押すと、tactile の "クリック" が短くなります。Button-press sounds should be a short, tactile "click."
    例: MRTK_ButtonPress .wavExample: MRTK_ButtonPress.wav
  • ボタン-"押されていない" サウンドは、同様の tactile 感を持つ必要があります。Button-"unpress" sounds should have a similar tactile feel. 押されたサウンドよりも高いピッチで、完了の意味がわかります。A higher pitch than the press sound reinforces the sense of completion.
    例: MRTK_ButtonUnpress .wavExample: MRTK_ButtonUnpress.wav
  • ホバーサウンドの場合は、低周波数の thud やバンプなど、微妙で脅威のないサウンドを使用することを検討してください。For hover sounds, consider using a subtle and non-threatening sound, such as a low-frequency thud or bump.

直接操作Direct manipulation

HoloLens 2 では、独自の追跡はユーザーインターフェイス要素の直接操作をサポートしています。On HoloLens 2, articulated hand tracking supports direct manipulation of user-interface elements. 他の物理的なフィードバックがない場合は、音が重要になります。Sounds are important when there's no other physical feedback.

キーストロークの一番下に到達したときにユーザーが他の情報を取得しないため、直接操作では ボタンの押下 音が重要になります。A button press sound is important in direct manipulation because the user doesn't get any other indication when they reach the bottom of the key stroke. キー移動のサウンドインジケーターは、小、軽度、occluded にすることができます。Sound indicators of key travel can be small, subtle, and occluded. ジェスチャの対話と同様に、ボタンを押すと、クリックのような短い tactile サウンドが表示されます。As with gesture interactions, button presses should get a short, tactile sound like a click. Unpresses は、同じようなクリック音を持つ必要がありますが、ピッチが発生します。Unpresses should have a similar click sound but with raised pitch.

グラブまたはリリースアクションを視覚的に確認することは困難です。It's difficult to visually confirm a grab or release action. 多くの場合、ユーザーの手は視覚効果の高い方法であり、ハードハンドオブジェクトには "グラブ" という実際の視覚的な類似性がありません。The user's hand will often be in the way of any visual effect, and hard-bodied objects lack a real-world visual analogue of "grabbing." サウンドは、成功したグラブとリリースの相互作用を効果的に伝えることができます。Sounds can effectively communicate successful grab and release interactions.

  • グラブアクションには、オブジェクトの周りを閉じる指の概念を evokes する、やや muffled な短い tactile サウンドが必要です。Grab actions should have a short, somewhat-muffled tactile sound that evokes the idea of fingers closing around an object. また、"whoosh" 音が発生して、手の動きを知らせる音が出てくることもあります。Sometimes there's also a "whoosh" sound that leads up to the grabbing sound to communicate the motion of the hand.
    例: MRTK_Move_Start .wavExample: MRTK_Move_Start.wav
  • リリースアクションは、同様の短いサウンドと tactile サウンドを取得する必要があります。Release actions should get a similarly short and tactile sound. 通常は、グラブ音と逆の順序で、オブジェクトが所定の位置にあることを通知する "whoosh" に影響を与えます。It's usually lower pitched than the grab sound and in reverse order, with an impact and then a "whoosh" to communicate that the object is settling into place.
    例: MRTK_Move_End .wavExample: MRTK_Move_End.wav

描画 の相互作用は、ユーザーの手の動きによってボリュームが決定される、永続的なループサウンドを取得する必要があります。A drawing interaction should get a persistent, looping sound whose volume is determined by the movement of the user's hand. ユーザーの手が、すぐに手を移動するときには、静かである必要があります。It should be silent when the user's hand is still and loudest when the hand is moving quickly.

音声操作Voice interactions

音声のやり取りには、微妙な視覚要素があることがよくあります。Voice interactions often have subtle visual elements. 音を使用して、対話段階を補強します。Use sounds to reinforce interaction stages. より多くの色調音を使用して、ジェスチャや直接操作サウンドと区別することができます。You may want to use more-tonal sounds to distinguish them from gesture and direct-manipulation sounds.

  • 音声コマンドの確認には、正の音を 使用しますUse a positive-sounding tone for voice command confirmations. 増加している色調と主な音楽の間隔は効果的です。Rising tones and major musical intervals are effective.
  • 音声コマンドの エラー には、より短い、正の音で聞こえない音を使用します。Use a shorter, less-positive-sounding tone for voice command failures. 負の音は避けてください。Avoid negative sounds. 代わりに、percussive のニュートラルサウンドを使用して、アプリケーションが相互作用から移動していることを通知します。Instead, use a more percussive, neutral sound to communicate that the application is moving on from the interaction.
  • アプリケーションにウェイクワードが含まれている場合は、デバイスが リッスンを開始 するときに、短時間で緩やかに使用します。If your application has a wake word, use a short, gentle tone when the device starts listening. アプリケーション リッスンしている間に、微妙なループサウンドを使用します。Use a subtle looping sound while the application is listening.

通知Notifications

通知は、アプリケーションの状態の変化や、ユーザーによって開始されていないその他のイベント (プロセスの完了、メッセージ、通話など) を伝えます。Notifications communicate application-state changes and other events that aren't initiated by the user, such as process completions, messages, and phone calls.

Mixed reality では、オブジェクトがユーザーのビューのフィールドから移動する場合があります。In mixed reality, objects sometimes move out of the user's field of view. オブジェクトの種類と動き速度に依存する spatialized サウンドを使用して、 アニメーションオブジェクト を移動します。Accompany moving animated objects with a spatialized sound that depends on the object type and speed of motion.

  • これは、アニメーションの最後に spatialized サウンドを再生して、オブジェクトの新しい位置をユーザーに通知するのに役立ちます。It helps to play a spatialized sound at the end of an animation to inform the user of the object's new position.
  • 段階的な移動では、移動中の "whoosh" サウンドを使用して、ユーザーがオブジェクトを追跡できます。For gradual movements, a "whoosh" sound during movement helps the user track the object.

メッセージ通知 音は繰り返し発生する可能性があります。連続している場合もあります。Message notification sounds may be heard repeatedly, sometimes in quick succession. 重要なのは、これらのユーザーが目立たないこと、または直射音が聞こえないことです。It's important that they doesn't stand out or sound harsh. 中間範囲の正の色調音が有効になります。Mid-range positive tonal sounds are effective.

  • 着信音の音声は、携帯電話の着信音と同様の品質を持つ必要があります。Incoming-call sounds should have similar qualities to a cell phone ringtone. これらは通常、ユーザーが通話に応答するまで再生されるミュージックフレーズをループします。These are usually looping musical phrases that play until the user answers the call.
  • 音声通信の接続と切断には、短時間の色調音が必要です。Voice communication connection and disconnection should have a short, tonal sound. 接続が成功したことを示すには、接続サウンドが正の音である必要があります。The connection sound should be a positive tone to indicate a successful connection. 切断音は、呼び出しの完了を示すニュートラルサウンドである必要があります。The disconnection sound should be a neutral sound to indicate completion of the call.

Spatialization の処理Handle spatialization

Spatialization は、ステレオヘッドホンまたはスピーカーを使用して、mixed reality の世界にサウンドを置きます。Spatialization uses stereo headphones or speakers to place sounds in the mixed-reality world.

Spatialize する音Which sounds to spatialize

空間位置を持つイベントに関連付けられている場合は、サウンドを spatialized する必要があります。A sound should be spatialized when it's associated with an event that has a spatial location. これには、UI、埋めを行う AI 音声、および視覚的インジケーターが含まれます。This includes UI, embodied AI voices, and visual indicators.

Spatialize ユーザーインターフェイス の要素を使用して、ユーザーの sonic "space" をまとめします。これは、ユーザーが聞く音声音の数を制限することによって行います。Spatialize user interface elements to help declutter the user's sonic "space" by limiting the number of stereo sounds that they hear. オーディオフィードバックが spatialized されると、タッチ、グラブ、解放などの操作の相互作用がより自然になります。Manipulation interactions such as touching, grabbing, and releasing feel more natural when audio feedback is spatialized. これらの要素の距離の減衰に関する次の情報を考慮してください。Consider the following information about distance attenuation for these elements.

視覚インジケーター を Spatialize し、表示 されていないときにユーザーにわかりやすく表示します。Spatialize visual indicators and embodied AI voices to intuitively inform users when these things are outside the field of view.

これに対して、spatialization の FACELESS AI 音声 や、空間位置が明確に定義されていないその他の要素については避けてください。In contrast, avoid spatialization for faceless AI voices and other elements that lack a well-defined spatial location. 関連するビジュアル要素のない Spatialization は、ユーザーが見つけられない視覚的な要素があると考えることができないようにします。Spatialization without a related visual element can distract users into thinking there's a visual element that they can't find.

Spatialization には、いくつかの CPU コストが伴います。Spatialization does come with some CPU cost. 多くのアプリケーションは同時に最大で2つのサウンドを再生しています。Many applications have at most two sounds playing simultaneously. この場合、spatialization のコストはごくわずかです。The cost of spatialization in that case is likely negligible. MRTK のフレームレートモニターを使用して、spatialization を追加した場合の影響を判断できます。You can use the MRTK frame rate monitor to judge the impact of adding spatialization.

距離ベースの減衰を適用するタイミングと方法When and how to apply distance-based attenuation

物理的な世界では、遠く離れている音はより静かです。In the physical world, sounds that are farther away are quieter. オーディオエンジンは、ソースの距離に基づいてこの減衰をモデル化できます。Your audio engine can model this attenuation based on the source distance. 関連情報を通信するときは、距離ベースの減衰を使用します。Use distance-based attenuation when it communicates relevant information.

視覚的なインジケーター、アニメーション化された ホログラム、およびその他の情報音への距離は、通常、ユーザーに関連します。The distances to visual indicators, animated holograms, and other informative sounds are usually relevant to the user. 距離ベースの減衰を使用して、手掛かりを直感的に提供します。Use distance-based attenuation to intuitively provide cues.

各ソースの減衰曲線を、mixed reality ワールドの空間のサイズに合わせて調整します。Adjust the attenuation curve for each source to fit the size of your mixed-reality world's spaces. オーディオエンジンの既定の曲線は、多くの場合、非常に大きい (最大ハーフ kilometer) スペース用です。Your audio engine's default curve is often meant for very large (up to half-kilometer) spaces.

ボタンアクションとその他の対話 の段階的な段階 を補強する音は、減衰が適用されないようにします。Sounds that reinforce the progressive stages of button actions and other interactions shouldn't get attenuation applied. これらのサウンドの強化された効果は、通常、ボタンへの距離を伝えるよりも重要です。The reinforcing effects of these sounds are generally more important than communicating the distance to the button. 多くのボタンをクリックすると連続して表示される場合もありますが、特にキーボードでは混乱が生じる可能性があります。Variations can be distracting, especially with keyboards, when many button clicks may be heard in succession.

使用する spatialization テクノロジWhich spatialization technology to use

ヘッドホンまたは HoloLens スピーカーでは、head 関連の転送関数 (HRTF) ベースの spatialization テクノロジを使用します。With headphones or the HoloLens speakers, use head-related transfer function (HRTF)-based spatialization technologies. これらのテクノロジは、物理的な世界でのヘッドの周りにおけるサウンド伝達をモデル化します。These technologies model the sound propagation around the head in the physical world. サウンドソースが1のヘッドの向こう側にある場合でも、サウンドは減衰と遅延によって遠くの耳に伝達されます。Even when a sound source is on the far side of one's head, sound propagates to the distant ear with some attenuation and delay. これに対して、スピーカーパンは減衰にのみ依存し、サウンドが右側にあるときは左の耳に合計の減衰を適用します (逆の場合もあります)。Speaker panning, in contrast, relies only on attenuation and applies total attenuation in the left ear when sounds are on the right side (and vice-versa). この手法は、"通常の聴覚" リスナーでは不快になる可能性があり、1つの耳で聴覚に障害があるリスナーではアクセスできません。This technique can be uncomfortable for "normal hearing" listeners and inaccessible for listeners who have hearing impairment in one ear.

次のステップNext steps