立体音響Spatial sound

オブジェクトが目に見えなくなったときに、私たちが何をしているのかを確認する方法の1つは、サウンドを使用することです。When objects are out of our line of sight, one of the ways that we can perceive what's going on around us is through sound. Windows Mixed Reality では、音声エンジンは、方向、距離、および環境シミュレーションを使用して3D サウンドをシミュレートすることによって、mixed reality の aural コンポーネントを提供します。In Windows Mixed Reality, the audio engine provides the aural component of the mixed-reality experience by simulating 3D sound using direction, distance, and environmental simulations. アプリケーションで空間サウンドを使用すると、開発者はユーザーに対して3次元空間 (球) でサウンドを convincingly ことができます。Using spatial sound in an application allows developers to convincingly place sounds in a 3 dimensional space (sphere) all around the user. これらのサウンドは、実際の物理オブジェクトまたはユーザーの周囲の混合現実ホログラムからのものであるように見えます。Those sounds will then seem as if they were coming from real physical objects or the mixed reality holograms in the user's surroundings. ホログラムが光の付いたオブジェクトであり、音がかかることがあるので、サウンドコンポーネントは、believable を増やし、よりイマーシブなエクスペリエンスを作成するために、地面のホログラムに役立ちます。Given that holograms are objects made of light and sometimes sound, the sound component helps ground holograms making them more believable and creating a more immersive experience.

ホログラムは、ユーザーの宝石が指している場所でのみ視覚的に表示できますが、アプリのサウンドはすべての方向から取得できます。上、下、背後、その他この機能を使用すると、現在ユーザーの表示に含まれていない可能性があるオブジェクトに注意を促すことができます。Although holograms can only appear visually where the user's gaze is pointing, your app's sound can come from all directions; above, below, behind, to the side, etc. You can use this feature to draw attention to an object that might not currently be in the user's view. ユーザーは、混合現実の世界でソースから emanating されるような音を感じることができます。A user can perceive sounds to be emanating from a source in the mixed-reality world. たとえば、ユーザーがオブジェクトに近づいたり、オブジェクトに近づいたりすると、ボリュームが増加します。For example, as the user gets closer to an object or the object gets closer to them, the volume increases. 同様に、オブジェクトがユーザーの周りを移動する場合や、その逆の場合は、空間サウンドによって、サウンドがオブジェクトから直接送られるようになります。Similarly, as objects move around a user, or vice versa, spatial sounds give the illusion that sounds are coming directly from the object.


デバイスのサポートDevice support

機能Feature HoloLens (第 1 世代)HoloLens (1st gen) HoloLens 2HoloLens 2 イマーシブ ヘッドセットImmersive headsets
立体音響Spatial sound ✔️✔️ ✔️✔️ ✔️ (ヘッドフォンあり)✔️ (with headphones)

認識された場所とサウンドの距離をシミュレートするSimulating the perceived location and distance of sounds

サウンドが耳の両方に到達したかを分析することで、脳は、サウンドを生成するオブジェクトの距離と方向を決定します。By analyzing how sound reaches both our ears, our brain determines the distance and direction of the object emitting the sound. HRTF (または Head 関連の転送関数) は、ポイントの地点からの耳の反応を特徴付けるスペクトル応答をモデル化することで、この相互作用をシミュレートします。An HRTF (or Head Related Transfer Function) simulates this interaction by modeling the spectral response that characterizes how an ear receives sound from a point in space. 空間オーディオエンジンでは、カスタマイズされた HRTFs を使用して、mixed reality エクスペリエンスを拡張し、さまざまな方向や距離からのサウンドをシミュレートします。The spatial audio engine uses personalized HRTFs to expand the mixed reality experience, and simulate sounds that are coming from various directions and distances.


左または右のオーディオ (azimuth) のキューは、各 ear でサウンドが到着したときの違いに起因します。Left or right audio (azimuth) cues originate from differences in the time sound arrives at each ear. 上下のキューは、外側の ear 図形 (pinnae) によって生成されたスペクトル変化から発生します。Up and down cues originate from spectral changes produced by the outer ear shape (pinnae). オーディオの発信元を指定することにより、システムは、耳に異なる時刻に到着したサウンドのエクスペリエンスをシミュレートできます。By designating where audio is coming from, the system can simulate the experience of sound arriving at different times to our ears. HoloLens では、azimuth spatialization はパーソナル化されていますが、昇格のシミュレーションは平均 anthropometrics のセットに基づいていることに注意してください。Note that on HoloLens, while azimuth spatialization is personalized, the simulation of elevation is based on an average set of anthropometrics. したがって、昇格の精度は azimuth の精度よりも正確ではない可能性があります。Thus, elevation accuracy may be less accurate than azimuth accuracy.

サウンドの特性は、それらが存在する環境によっても変わります。The characteristics of sounds also change based on the environment in which they exist. たとえば、岩穴で叫んを使用すると、音声が壁、床、および雲に出、エコー効果が作成されます。For instance, shouting in a cave will cause your voice to bounce off the walls, floors, and ceilings, creating an echo effect. 空間サウンドの部屋モデル設定は、特定のオーディオ環境でサウンドを配置するために、これらの反射を再現します。The room model setting of spatial sound reproduces these reflections to place sounds in a particular audio environment. この設定を使用すると、ユーザーの実際の場所を一致させて、よりイマーシブなオーディオエクスペリエンスを作成することができます。You can use this setting to match the user's actual location for simulation of sounds in that space to create a more immersive audio experience.

空間サウンドの統合Integrating spatial sound

混合現実の一般的な原則は、ユーザーの物理的な世界または仮想環境での最先端のホログラムであるため、ホログラムからのほとんどのサウンドは spatialized にする必要があります。Because the general principle of mixed reality is to ground holograms in the user's physical world or virtual environment, most sounds from holograms should be spatialized. HoloLens では、自然に CPU とメモリの予算に関する考慮事項がありますが、CPU の使用率が 12% 未満 (4 つのコアのうちの 70%) を使用して、10-12 の空間サウンド音声を使用できます。On HoloLens, there are naturally CPU and memory budget considerations, but you can use 10-12 spatial sound voices there while using less than ~12% of the CPU (~70% of one of the four cores). 空間サウンドの音声の推奨される用途は次のとおりです。Recommended use for spatial sound voices include:

  • (特にビュー外の) オブジェクトを見つめています。Gaze Mixing (highlighting objects, particularly when out of view). ホログラムにユーザーの注意が必要な場合は、そのホログラムでサウンドを再生します (例: 仮想 dog ほえ)。When a hologram needs a user's attention, play a sound on that hologram (e.g. have a virtual dog bark). これにより、ユーザーは、表示されていないホログラムを見つけることができます。This helps the user to find the hologram when it is not in view.
  • Audio Haptics (touchless 相互作用のためのリアクティブオーディオ)。Audio Haptics (reactive audio for touchless interactions). たとえば、ユーザーの手や運動コントローラーがジェスチャフレームを入力して終了したときに音を鳴らします。For example, play a sound when the user's hand or motion controller enters and exits the gesture frame. または、ユーザーがホログラムを選択したときに音を鳴らします。Or play a sound when the user selects a hologram.
  • Immersion (ユーザーを囲むアンビエントサウンド)。Immersion (ambient sounds surrounding the user).

また、標準のステレオサウンドと空間サウンドをブレンドすると、現実的な環境を作成するのに効果的な場合があることに注意してください。ステレオサウンドは、反射 (距離の手掛かり) は、ノイズの多い環境では聞こえにくいことがあります。It is also important to note that while blending standard stereo sounds with spatial sound can be effective in creating realistic environments, the stereo sounds should be relatively quiet to leave room for the subtle aspects of spatial sound, such as reflections (distance cues) that can be difficult to hear in a noisy environment.

Windows の空間サウンドエンジンでは、再生用に 48 k サンプルレートのみがサポートされています。Windows' spatial sound engine only supports a 48k sample rate for playback. Unity などのほとんどのミドルウェアでは、サウンドファイルはサポートされている形式に自動的に変換されますが、Windows Audio Api を直接使用する場合は、コンテンツの形式を、その効果でサポートされている形式に一致させることができます。Most middleware, such as Unity, will automatically convert sound files into the supported format, but when using Windows Audio APIs directly please match the format of the content to the format supported by the effect.

関連項目See also