Speech Devices とは

Speech Service は、さまざまなデバイスやオーディオ ソースと連携します。 デバイスで利用可能な既定のオーディオ処理を使用できます。 それ以外の場合、Speech SDK には、Speech サービスで適切に動作するように設計された高度なオーディオ処理アルゴリズムを使用するためのオプションがあります。 ノイズの抑制、エコー キャンセレーション、ビームフォーミング、残響除去によって、正確な遠距離音声認識が提供されます。

オーディオ処理

オーディオ処理は、オーディオのストリームに適用される拡張機能であり、音質を向上させます。 一般的な機能強化の例としては、自動ゲイン制御 (AGC)、ノイズ抑制、音響エコー キャンセル (AEC) があります。 Speech SDK は Microsoft Audio Stack (MAS) を統合し、任意のアプリケーションまたは製品が入力オーディオでオーディオ処理機能を使用できるようにしています。

マイク配列の推奨事項

Speech SDK は、Microsoft の推奨ガイドラインに従って設計されたマイク配列で最適に動作します。 詳細については、マイク配列の推奨事項に関するページを参照してください。

デバイス開発キット

Speech SDK は、専用の開発キットやさまざまなマイク アレイの構成に対応するように設計されています。 たとえば、次のいずれかの Azure 開発キットを使用できます。

  • Azure Percept DK には、事前に構成された音声プロセッサと 4 つのマイクの線形配列が含まれています。 Azure AI サービスの支援を受けて、音声コマンド、キーワード認識、および遠距離音声を使用できます。
  • Azure Kinect DK は、高度な AI センサーを採用した、先進的な Azure AI Vision と音声モデルを構築するための空間コンピューティング開発者キットです。 複数のモードが用意されているオールインワンの小型デバイスとして、深度センサー、空間マイク配列とビデオ カメラ、および方位センサーを備えています。

次のステップ