什麼是自定義語音?
透過自訂語音,您可以評估及改善應用程式和產品的語音辨識精確度。 自訂語音模型可用於即時語音轉換文字、語音翻譯和批次謄寫。
開箱即用的語音辨識功能運用通用語言模型作為基礎模型。這個功能是以 Microsoft 擁有的資料定型,且能夠反映常用的口語語言。 基礎模型會預先定型,其中包含代表各種常見網域的方言和注音符號。 當您提出語音辨識要求時,預設會使用每個 支持語言 的最新基底模型。 基礎模型在大部分的語音辨識案例中運作良好。
自定義模型可用來增強基底模型,藉由提供文字數據來定型模型,以改善應用程式特有的領域特定詞彙的辨識。 它也可以藉由提供音訊數據與參考轉譯,來改善應用程式特定音訊條件的辨識。
當數據遵循模式時,您也可以使用結構化文字來定型模型、指定自定義發音,以及使用自定義反向文字正規化、自定義重寫和自定義粗話篩選來自定義顯示文字格式。
如何運作?
透過自訂語音,您可以上傳自己的數據、測試及定型自定義模型、比較模型之間的精確度,以及將模型部署至自定義端點。
以下是上圖所示步驟順序的詳細資訊:
- 建立項目 並選擇模型。 使用您在 Azure 入口網站 中建立的語音資源。 如果您使用音訊數據來定型自定義模型,請選擇具有專用硬體的語音資源區域來定型音訊數據。 如需詳細資訊,請參閱 regions 數據表中的腳註。
- 上傳測試數據。 上傳測試資料以評估您應用程式、工具和產品的語音轉換文字供應項目。
- 測試辨識品質。 使用 Speech Studio 播放上傳的音訊,並檢查測試數據的語音辨識品質。
- 以量化方式測試模型。 評估及提高語音轉換文字模型的精確度。 語音服務會提供以量化方式執行的字詞錯誤率 (WER),以便您判斷是否需要其他定型。
- 定型模型。 提供書面文字記錄和相關文字,以及對應的音訊數據。 在定型前後測試模型是選擇性的,但建議使用。
注意
您需支付自定義語音模型使用量和 端點裝載的費用。 如果基底模型是在 2023 年 10 月 1 日和更新版本建立的,您也將需支付自定義語音模型定型的費用。 如果基底模型是在 2023 年 10 月之前建立的,則不會向您收取定型費用。 如需詳細資訊,請參閱語音轉換文字 3.2 移轉指南中的 Azure AI 語音定價和適應費用一節。
- 部署模型。 一旦您滿意測試結果,請將模型部署至自定義端點。 除了批次轉譯之外,您必須部署自定義端點以使用自定義語音模型。
提示
裝載的部署端點不需要搭配 Batch 轉譯 API 使用自定義語音。 如果自訂語音模型僅用於批次謄寫,則可以節省資源。 如需詳細資訊,請參閱 語音服務定價。
負責 AI
AI 系統不僅包含技術,也包含使用它的人員、受其影響的人員,以及其部署所在的環境。 閱讀透明度資訊,了解在系統中負責任 AI 的使用和部署資訊。