Mixed Reality アプリケーションでのサウンドの使用Using Sound in Mixed Reality Applications

サウンドを使用して、ユーザーのアプリケーション状態のメンタルモデルを通知し、補強します。Use sound to inform and reinforce the user's mental model of application state. 必要に応じて spatialization を使用して、サウンドを混合世界に配置します。Use spatialization, when appropriate, to place sounds into the mixed world. この方法で聴覚とビジュアルを接続することで、多くの相互作用を直感的に deepens し、ユーザーの信頼度を高めることができます。Connecting the auditory and the visual in this way deepens the intuitive nature of many interactions and leads to increased user confidence.


サウンドを追加するタイミングWhen should I add sounds?

混合現実アプリケーションでは、物理インターフェイスがないため、多くの場合、2D 画面のアプリケーションよりも音が大きくなります。Mixed reality applications often have a greater need for sounds than applications on a 2D screen, due to the lack of a physical interface. ユーザーに通知する場合や、対話を補強する場合は、サウンドを追加する必要があります。Sounds should be added when they inform the user or reinforce interactions.

通知と補強Inform and reinforce

  • 通知など、ユーザーによって開始されていないイベントについては、変更が発生したことをユーザーに通知するためにサウンドを追加することを検討してください。For events not initiated by the user, such as notifications, consider adding sounds to inform the user that a change occurred.
  • 相互作用には複数の段階があります。Interactions may have several stages. ステージの遷移を補強するには、サウンドを使用することを検討してください。Consider using sounds to reinforce stage transitions.

相互作用、イベント、および推奨されるサウンド特性の例については、以下を参照してください。See below for examples of interactions, events, and suggested sound characteristics.

演習ガイドExercise restraint

ユーザーは、オーディオ情報に対して無制限の容量を使用できません。Users don't have an unlimited capacity for audio information:

  • 各サウンドは、特定の重要な情報を伝達します。Each sound should communicate a specific, valuable pieces of information
  • ユーザーに通知することを意図したサウンドを再生する場合は、一時的に他のサウンドの音量を下げるWhen playing sounds meant to inform the user, temporarily reduce the volume of other sounds
  • ボタンをポイントしたときのサウンド (下記参照) では、音が過剰にトリガーされないように遅延時間を追加します。For button hover sounds (see below), add a time delay to prevent excessive triggering of sounds

サウンドだけに依存しないDon't rely solely on sounds

サウンドは、ユーザーが音声を聞くことはできますが、サウンドがオフの場合でもアプリケーションが使用可能であることを確認しておくと便利です。Sounds used well will be valuable when your users can hear them, but ensure your application is usable even with the sound off.

  • ユーザーの聴覚が不自由である可能性があるUsers may be hearing impaired
  • アプリケーションは、大きな環境で使用できます。Your application may be used in a loud environment
  • ユーザーは、デバイスオーディオを無効にするためのプライバシーまたはその他の理由を持っている可能性があります。Users may have privacy or other reasons to disable the device audio

相互作用を sonify するにはどうすればよいですか。How should I sonify interactions?

混合現実の対話型には、ジェスチャ、直接操作、音声などがあります。Interaction types in mixed reality include gesture, direct manipulation, and voice. 次の推奨される特性を使用して、これらのインタラクションのサウンドを選択または設計します。Use the following suggested characteristics to select or design sounds for these interactions.

ジェスチャの相互作用Gesture interactions

Mixed reality では、ユーザーはカーソルを使用してボタンを操作できます。In mixed reality, users can interact with buttons using a cursor. ボタンの操作は、通常、ユーザーがボタンを押したときではなくボタンを離したときに実行され、ユーザーが操作をキャンセルできるようにします。Button actions are generally performed when the user has released the button, rather than when it has been pressed, to allow the user a chance to cancel the interaction. サウンドを使用して、これらのステージを補強します。Use sounds to reinforce these stages. また、離れた場所にあるボタンをユーザーがターゲットにできるようにするには、カーソルをポイントする音を使用することを検討してください。Also, to assist users in targeting distant buttons, consider using a cursor hover sound.

  • ボタンを押す音には、短い tactile のクリックが必要です。Button press sounds should have a short, tactile click. 例: MRTK_ButtonPressExample: MRTK_ButtonPress.wav
  • ボタンの押されていない音には、同様の tactile 感が必要です。Button unpress sounds should have a similar tactile feel. ピッチと押されたピッチを持つと、完了の意味がわかります。Having a raised pitch versus the press sound reinforces the sense of completion. 例: MRTK_ButtonUnpressExample: MRTK_ButtonUnpress.wav
  • ホバーサウンドの場合は、低周波数の thud やバンプなど、微妙で脅威のないサウンドを使用することを検討してください。For hover sounds, consider using a subtle and non-threatening sound such as a low-frequency thud or bump.

直接操作Direct manipulation

HoloLens 2 では、独自の追跡はユーザーインターフェイス要素の直接操作をサポートしています。On HoloLens 2, articulated hand tracking supports direct manipulation of user interface elements. サウンドは、物理的なフィードバックがない場合の重要な交換です。Sounds are important replacements for the lack of physical feedback.

ユーザーがキー移動の一番下に到達したことを物理的に示すことがないため、直接操作ではボタンの押下音が重要です。A button press sound is important in direct manipulation because the user lacks physical indication of when they've reached the bottom of the key travel. キー移動の視覚的なインジケーターは、小規模、軽度、occluded になることがあります。Visual indicators of key travel can be small, subtle, and occluded. ジェスチャによる対話と同様に、ボタンを押すには、tactile のような短い音が必要です。また、押されていない場合は、[ピッチ] をクリックした場合と同様のクリックが発生します。As with gesture interactions, button presses should have a short, tactile sound like a click, and unpresses should have a similar click with raised pitch.

直接操作でグラブまたはリリースを確認することは、視覚的に通信するのは困難です。Confirming a grab or release in direct manipulation is difficult to communicate visually. 多くの場合、ユーザーの手は視覚効果の高い方法であり、ハードハンドオブジェクトには "グラブ" という実際の視覚的な類似性がありません。The user's hand will often be in the way of any visual effect, and hard-bodied objects lack a real-world visual analogue of "grabbing". これに対し、サウンドは、成功したグラブとリリースの相互作用を効果的に伝えることができます。In contrast, sounds can effectively communicate successful grab and release interactions.

  • グラブアクションには、オブジェクトの周りを閉じる指の概念を evokes する、少し muffled tactile サウンドが必要です。Grab actions should have a short, somewhat muffled tactile sound that evokes the idea of fingers closing around an object. 場合によっては、音が出たときの動きを通知する音が "whoosh" サウンドによって示されることもあります。Sometimes this is accompanied by a "whoosh" sound leading up to the impact of the sound to communicate the motion of the hand when grabbing. 例: MRTK_Move_StartExample: MRTK_Move_Start.wav
  • リリースアクションには同様の短いサウンドと tactile サウンドが必要です。通常は、グラブのサウンドと逆の順序で、影響を与え、"whoosh" によってオブジェクトが所定の位置に向かっていることを通知します。Release actions should have a similarly short and tactile sound, usually pitched down from the grab sound and in a reverse order in time, having an impact and then a "whoosh" to communicate the object settling into place. 例: MRTK_Move_EndExample: MRTK_Move_End.wav

描画の相互作用には、ユーザーの手の動きによってボリュームが制御される、ループした永続的なサウンドが必要です。また、ユーザーの手が出てきたときには、完全に無音になっています。A drawing interaction should have a looping, persistent sound that has its volume controlled by the movement of the user's hand, with it being completely silent when the user's hand is still, and at its maximum volume when the user's hand is moving quickly.

音声操作Voice interactions

音声のやり取りには、微妙な視覚要素があることがよくあります。Voice interactions often have subtle visual elements. サウンドを使用して相互作用ステージを補強します。Reinforce the interaction stages using sounds. ジェスチャや直接操作サウンドと区別するために、より多くの色調音を選択することを検討してください。Consider choosing more tonal sounds to distinguish them from gesture and direct manipulation sounds.

  • 音声コマンドの確認には、正の音を使用しますUse a positive-sounding tone for voice command confirmations. この時点では、増加している色調と主な音楽の間隔が効果的です。Rising tones and major musical intervals are effective at this.
  • 音声コマンドのエラーに対して、より短い、負でない音の調子を使用します。Use a shorter, less-positive sounding tone for voice command failure. 負の音は避けてください。代わりに、percussive のニュートラルサウンドを使用して、アプリケーションが相互作用から移動していることを伝えます。Avoid negative sounds; instead, use a more percussive, neutral sound to communicate the application is moving on from the interaction.
  • アプリケーションでウェイクワードを使用している場合は、デバイスがリッスンを開始したときに短時間で、すぐに聞こえ、アプリケーションがリッスンしている間は微妙なループサウンドを使用します。If your application uses a wake word, use a short, gentle tone when the device has started listening, and a subtle looping sound while the application listens.

通知Notifications

通知は、アプリケーションの状態の変化や、ユーザーによって開始されていないその他のイベント (プロセスの完了、メッセージ、呼び出しなど) を伝えます。Notifications communicate application state changes and other events not initiated by the user, such as process completions, messages, and calls.

Mixed reality では、移動するオブジェクトをユーザーのビューのフィールドから移動できます。In mixed reality, objects that move can move out of the user's field of view. アニメーション化されたオブジェクトには、オブジェクトとモーションの速度に依存する spatialized サウンドが付属しています。Accompany animated objects with a spatialized sound that depends on the object and speed of motion.

  • また、アニメーションの最後に spatialized サウンドを再生して、新しい位置をユーザーに通知することもできます。It also helps to play a spatialized sound at the end of an animation to inform the user of the new position
  • 段階的な移動では、移動中に "whoosh" サウンドを使用すると、ユーザーがオブジェクトを追跡できます。For gradual movements, a "whoosh" sound during movement will help the user track the object

多くの場合、メッセージ通知は数回通知されます。また、場合によっては、連続して発生することもあります。Message notifications will most likely be heard several times, and sometimes in quick succession. 非常に注意してください。または、過酷なことはありません。It's important that it doesn't stand out or sound harsh. ここでは、中間範囲の正の色調音が効果的です。Mid-range positive tonal sounds are effective here.

  • 呼び出しは、携帯電話の着信音と同様の品質を持つ必要があります。Calls should have similar qualities to a cell phone ringtone. これらは通常、ユーザーが通話に応答するまで再生されるミュージックフレーズをループします。These are usually looping musical phrases that play until the user has answered the call.
  • 音声通信の接続と切断には、短時間の色調音が必要です。Voice communication connection and disconnection should have a short, tonal sound. 接続サウンドには、接続が成功したことを示す正の音が必要です。また、切断音は、呼び出しの完了を示すニュートラルサウンドである必要があります。The connection sound should have a positive tone, indicating the successful connection, while the disconnection sound should be a neutral sound indicating completion of the call.

SpatializationSpatialization

Spatialization は、ステレオヘッドホンまたはスピーカーを使用して、混合世界にサウンドを配置します。Spatialization uses stereo headphones or speakers to place sounds into the mixed world.

どのようなサウンドを spatialize ばよいでしょうか。Which sounds should I spatialize?

空間位置を持つイベントに関連付けられている場合は、サウンドを spatialized する必要があります。A sound should be spatialized when it's associated with an event that has a spatial location. これには、UI、埋めを行う AI 音声、および視覚的インジケーターが含まれます。This includes UI, embodied AI voices, and visual indicators.

Spatializingユーザーインターフェイス要素は、ヘッドにロックされているステレオサウンドの数を制限することで、ユーザーの sonic "space" をまとめするのに役立ちます。Spatializing user interface elements helps declutter the user's sonic "space" by limiting the number of stereo sounds locked to their heads. 特に直接操作の対話では、音声フィードバックが spatialized されると、タッチ、グラブ、および解放がより自然になります。Especially in direct manipulation interactions, touching, grabbing, and releasing feels more natural when audio feedback is spatialized. ただし、これらの要素の距離の減衰については、以下を参照してください。However, see below regarding distance attenuation for these elements.

Spatializing の視覚的なインジケーターと埋めを行う AI の音声は、ユーザーがビューのフィールドの外部にあるときに、直感的にユーザーに通知します。Spatializing visual indicators and embodied AI voices intuitively informs users when they are outside the field of view.

これに対して、 faceless AI の音声と、適切に定義された空間の場所を持たないその他の要素の spatialization は避けてください。In contrast, avoid spatialization for faceless AI voices, and other elements without a well-defined spatial location. 関連するビジュアル要素のない Spatialization は、ユーザーが見つけられない視覚的な要素があると考えることができないようにします。Spatialization without a related visual element can distract users into thinking there is a visual element that they can't find.

Spatialization を追加すると、CPU コストが発生します。Adding spatialization will come with some CPU cost. 多くのアプリケーションは同時に2つのサウンドを再生します。Many applications will have, at most, two sounds playing simultaneously. この場合、spatialization のコストはごくわずかです。The cost of spatialization in that case can be negligible. MRTK のフレームレートモニターを使用して、spatialization を追加した場合の影響を判断できます。You can use the MRTK frame rate monitor to judge the impact of adding spatialization.

距離ベースの減衰を適用するタイミングと方法When and how should I apply distance-based attenuation?

物理的な世界では、遠く離れている音はより静かです。In the physical world, sounds that are farther away are quieter. オーディオエンジンは、ソースの距離に基づいてこの減衰をモデル化できます。Your audio engine can model this attenuation based on the source distance. 関連情報を通信するときは、距離ベースの減衰を使用します。Use distance-based attenuation when it communicates relevant information.

視覚的なインジケーター、アニメーション化されたホログラム、およびその他の情報音への距離は、通常、ユーザーに関連します。The distances to visual indicators, animated holograms, and other informative sounds are usually relevant to the user. 距離ベースの減衰を使用して、このキューを直感的に提供します。Use distance-based attenuation to intuitively provide this cue.

  • 各ソースの減衰曲線を、混合ワールドスペースのサイズに合わせて調整します。Adjust the attenuation curve for each source to fit the size of your mixed world spaces. オーディオエンジンの既定の曲線は、多くの場合、非常に大きい (最大ハーフ kilometer) スペース用です。Your audio engine's default curve is often meant for very large (up to half-kilometer) spaces.

ボタンやその他の対話の段階的な段階を補強する音は、減衰が適用されないようにする必要があります。Sounds that reinforce the progressive stages of buttons and other interactions shouldn't have attenuation applied. これらのサウンドの強化された効果は、通常、ボタンへの距離を伝えるよりも重要です。The reinforcing effects of these sounds are generally more important than communicating the distance to the button. バリエーションは、特にキーボードを使用すると、多くのボタンのクリックが連続して聞こえます。Variations can be distracting, especially with keyboards, where many button clicks will be heard in succession.

どの spatialization テクノロジを使用すればよいでしょうか。Which spatialization technology should I use?

ヘッドホンまたは HoloLens スピーカーを使用する場合は、HRTF (head 関連の転送関数) ベースの spatialization テクノロジを使用します。When using headphones or the HoloLens speakers, use HRTF (head-related transfer function)-based spatialization technologies. これらは、物理的な世界でのヘッドの周りにおけるサウンド伝達をモデル化します。They model the sound propagation around the head in the physical world. サウンドソースが一番上にある場合でも、サウンドは減衰と遅延によって遠くの耳に伝達されます。Even when a sound source is far on one side of the head, sound propagates to the distant ear with some attenuation and delay. これに対して、スピーカーパンは減衰にのみ依存し、サウンドが右側にあるときは左の耳に合計の減衰を適用します (逆の場合もあります)。Speaker panning, in contrast, relies only on attenuation, and applies total attenuation in the left ear when sounds are on the right side (and vice-versa). これは、通常の聴覚のリスナーでは不快になる可能性があり、1つの耳で聴覚障害があるリスナーにはアクセスできません。This can be uncomfortable for normal-hearing listeners, and inaccessible for listeners with hearing impairment in one ear.

次のステップNext steps