什麼是說話者辨識?

說話者辨識可協助判斷誰在音訊剪輯中說話。 服務可以使用語音生物測量,藉由其獨特的語音特性來驗證和識別說話者。

您可以為單一說話者提供音訊訓練數據,其會根據說話者語音的獨特特性來建立註冊配置檔。 然後,您可以針對此配置檔交叉檢查音訊語音範例,以確認說話者是同一個人(說話者驗證)。 您也可以針對一 已註冊的說話者配置檔交叉檢查音訊語音範例,以查看它是否符合群組中的任何配置檔(說話者識別)。

重要

Microsoft 會限制說話者辨識的存取權。 您可以透過 Azure AI 服務說話者辨識限制存取權檢閱來申請存取權。 如需詳細資訊,請參閱 說話者辨識的有限存取。

說話者驗證

說話者驗證可簡化使用複雜密碼或自由格式語音輸入來驗證已註冊說話者身分識別的程式。 例如,您可以在通話中心或無聯繫人設備存取中將它用於客戶身分識別驗證。

說話者驗證如何運作?

下列流程圖提供其運作方式的視覺效果:

Flowchart that shows how speaker verification works.

說話者驗證可以是文字相依或與文字無關。 與文字相關的 驗證表示說話者必須選擇註冊和驗證階段期間要使用的相同複雜密碼。 與文字無關 的驗證表示說話者可以在註冊和驗證片語中使用日常語言說話。

針對與文字相關的驗證,說話者的語音會透過從一組預先定義的片語說出複雜密碼來註冊。 語音功能會從音訊錄製擷取,以形成唯一的語音簽章,而且也會辨識所選擇的複雜密碼。 一起,語音簽章和複雜密碼會用來驗證說話者。

非文字限定驗證除了一開始用來啟用註冊的啟用片語之外,並不會限制說話者在註冊期間所說的內容。 它沒有任何要驗證音頻樣本的限制,因為它只會擷取語音功能來評分相似度。

API 不是用來判斷音訊是來自實時人員,還是來自已註冊說話者的模仿或錄製。

說話者辨識

說話者辨識可協助您在一組已註冊的說話者中判斷不明說話者的身分識別。 說話者識別可讓您將語音屬性設為個別說話者,並解除鎖定多個說話者案例的價值,例如:

  • 支援遠端會議生產力的解決方案。
  • 建置多用戶裝置個人化。

說話者識別如何運作?

說話者識別的註冊與文字無關。 除了一開始用來啟用註冊的啟用片語之外,並不會限制說話者在音訊中所說的內容。 與說話者驗證類似,說話者的語音會記錄在註冊階段,並擷取語音功能以形成唯一的語音簽章。 在識別階段中,輸入語音範例會與指定的已註冊語音清單進行比較(每個要求最多 50 個)。

資料安全性及隱私權

說話者註冊數據會儲存在安全的系統中,包括註冊的語音音訊和語音簽章功能。 只有在升級演算法時,才會使用註冊的語音音訊,而且需要再次擷取功能。 服務不會保留語音錄製或擷取的語音功能,這些功能會在辨識階段傳送至服務。

您可以控制應該保留資料的時間長度。 您可以透過 API 呼叫,為個別說話者建立、更新及刪除註冊數據。 刪除訂閱時,也會刪除與訂用帳戶相關聯的所有說話者註冊數據。

和所有 Azure AI 服務資源一樣,使用說話者辨識功能的開發人員必須了解 Microsoft 對於客戶資料的政策。 您應該確定您已從使用者收到適當的許可權。 您可以在說話者辨識的數據和隱私權中找到更多詳細數據。 如需詳細資訊,請參閱 Microsoft 信任中心的 Azure AI 服務頁面

常見問題和解決方案

問題 解決方案
我最有可能使用說話者辨識的情況為何? 良好的範例包括來電中心客戶驗證、語音型患者簽入、會議轉譯,以及多使用者裝置個人化。
識別和驗證之間的差異為何? 識別是偵測說話者群組中哪個成員的程式。 驗證是確認說話者符合已知已註冊語音的行為。
支援哪些語言? 請參閱 說話者辨識語言支援
支援哪些 Azure 區域? 請參閱 說話者辨識區域支援
支援哪種音訊格式? Mono 16 位,16 kHz PCM 編碼的 WAV。
您是否可以多次註冊一個喇叭? 是,對於與文字相關的驗證,您最多可以註冊演講者 50 次。 針對與文字無關的驗證或說話者識別,您可以註冊最多 300 秒的音訊。
哪些數據會儲存在 Azure 中? 註冊音訊會儲存在服務中,直到刪除語音配置檔為止。 辨識音訊範例不會保留或儲存。

負責 AI

AI 系統不僅包含技術,也包含使用它的人員、受其影響的人員,以及其部署所在的環境。 閱讀透明度資訊,了解在系統中負責任 AI 的使用和部署資訊。

下一步