共用方式為


音訊處理

Microsoft Audio Stack 是針對語音處理案例優化的一組增強功能。 這包括關鍵詞辨識和語音辨識等範例。 它是由在輸入音訊號上運作的各種增強功能/元件所組成:

  • 雜訊抑制 - 降低背景雜訊層級。
  • 梁形 - 當地語系化聲音的來源,並使用多個麥克風優化音訊號。
  • Dereverberation - 減少環境中的表面聲音反射。
  • 聲場回音取消 - 在麥克風輸入為使用中時隱藏裝置播放的音訊。
  • 自動增益控制 - 動態調整人員的語音等級,以考慮軟喇叭、長距離或非自變數麥克風。

Block diagram of Microsoft Audio Stack's enhancements.

不同的案例和使用案例可能需要不同的優化,以影響音訊處理堆疊的行為。 例如,在電話等電信案例中,在處理之後,在音訊號中可以接受輕微失真。 這是因為人類可以繼續以高精確度了解語音。 然而,一個人在回聲中聽到自己的聲音是不可接受的和破壞性的。 這與語音處理案例形成鮮明對比,其中扭曲的音訊可能會對機器學習語音辨識模型的精確度造成負面影響,但可以接受有輕微的迴音剩餘程度。

處理會在使用語音 SDK 的本機完整執行。 不會將音訊數據串流至 Microsoft 的雲端服務,以供 Microsoft 音訊堆棧處理。 唯一的例外是對話轉譯服務,其中原始音訊會傳送至 Microsoft 的雲端服務進行處理。

Microsoft Audio Stack 也提供各種 Microsoft 產品:

  • Windows - Microsoft Audio Stack 是使用語音音訊類別時的預設語音處理管線。
  • Microsoft Teams 顯示裝置和 Microsoft Teams 會議室裝置 - Microsoft Teams 顯示裝置和 Teams 會議室裝置會使用 Microsoft 音訊堆疊,以使用 Cortana 啟用高品質的免持聽筒語音體驗。

語音 SDK 整合

語音 SDK 整合 Microsoft Audio Stack (MAS),允許任何應用程式或產品在其輸入音訊上使用其音訊處理功能。 透過語音 SDK 提供的一些主要 Microsoft Audio Stack 功能包括:

  • 即時麥克風輸入和檔案輸入 - Microsoft 音訊堆疊處理可以套用至即時麥克風輸入、串流和檔案型輸入。
  • 選擇增強功能 - 為了完全控制您的案例,SDK 可讓您停用個別的增強功能,例如德維埃、噪音抑制、自動增益控制和聲場回音取消。 例如,如果您的案例不包含必須從輸入音訊隱藏的轉譯輸出音訊,您可以選擇停用聲場回音取消。
  • 自定義麥克風幾何 - SDK 可讓您提供自己的自定義麥克風幾何資訊,除了支援線性雙麥克風、線性四麥克風和圓形 7 麥克風數位等預設幾何之外,您還可以提供自己的自定義麥克風幾何資訊(請參閱麥克風數位建議中支援的預設幾何的詳細資訊)。
  • 梁形角度 - 可以提供特定的梁形角度 ,以優化源自預先決定位置的音訊輸入,相對於麥克風。

使用 Microsoft 音訊堆疊的最低需求

Microsoft Audio Stack 可供任何符合下列需求的產品或應用程式使用:

  • 原始音訊 - Microsoft 音訊堆疊需要原始 (未處理) 音訊作為輸入,以產生最佳結果。 提供已經處理的音訊會限制音訊堆疊在高品質執行增強功能的能力。
  • 麥克風幾何 - 需要裝置上每個麥克風的幾何資訊,才能正確執行 Microsoft 音訊堆疊所提供的所有增強功能。 資訊包括麥克風數目、其實體排列和座標。 最多支援16個輸入麥克風通道。
  • 回送或參考音訊 - 代表裝置播放音訊的音訊 通道,必須執行聲場迴音取消。
  • 輸入格式 - Microsoft Audio Stack 針對 16 kHz 整數倍數的取樣率支援向下取樣。 需要最小取樣率為 16 kHz。 此外,支援下列格式:32 位 IEEE 小端浮點數、32 位小 endian signed int、24 位小 endian signed int、16 位小結束符號 int 和 8 位帶正負號 int。

下一步

使用語音 SDK 進行音訊處理