什麼是文字轉換語音？

發行項
01/23/2024

在此概觀中，您將了解語音服務的文字轉換語音功能的優點和功能，這是 Azure AI 服務的一部分。

文字到語音轉換可讓您的應用程式、工具或裝置將文字轉換成像合成語音一樣的人。文字轉換語音功能也稱為語音合成。使用人類，例如現成的神經語音，或建立您產品或品牌特有的自定義神經語音。如需支援語音、語言和地區設定的完整清單，請參閱語音服務的語言和語音支援。

核心功能

文字轉換語音包括下列功能：

功能	摘要	示範
預先建置的神經語音（在定價頁面上稱為類神經）	非常自然的現成聲音。建立 Azure 帳戶和語音服務訂用帳戶，然後使用語音 SDK 或瀏覽語音 Studio 入口網站，然後選取預先建置的神經語音以開始使用。檢查定價詳細數據。	請參閱語音資源庫，並依照您的商務需求決定合適的語音。
自定義神經語音（定價頁面上稱為自定義類神經）	輕鬆使用的自助式功能，可建立自然品牌語音，且存取權有限，以供負責任使用。建立 Azure 帳戶和語音服務訂用帳戶（具有 S0 層），並套用以使用自定義神經功能。授與存取權之後，請流覽 Speech Studio 入口網站，然後選取 [自定義語音 ] 以開始使用。檢查定價詳細數據。	檢查語音範例。

深入了解神經文字轉換語音功能

文字到語音轉換會使用深度神經網路，使計算機的聲音幾乎與人的錄音不區分。具有清楚的字組清晰度，神經文字轉換語音大幅降低使用者與 AI 系統互動時的聆聽疲勞。

口語中壓力和調音的模式稱為音調。傳統文字到語音系統會將音序細分為獨立模型所控管的不同語言分析和原音預測步驟。這可能導致悶熱的嗡嗡聲合成。

以下是語音服務中神經文字轉換語音功能的詳細資訊，以及如何克服傳統文字轉換語音系統的限制：

即時語音合成：使用語音 SDK 或 REST API，使用預建的神經語音或自訂神經語音進行文字轉換語音。
長音訊的非同步合成：使用批次合成 API (預覽)，以非同步方式合成超過 10 分鐘的文字轉換語音檔案 (例如有聲書或演講)。不同於透過語音 SDK 或語音轉換文字 REST API 所執行的合成，回應不會即時傳回。預期要求會以異步方式傳送、回應會輪詢，並在服務可供使用時下載合成音訊。
預先建置的神經語音：Microsoft 類神經文字到語音功能會使用深度神經網路來克服傳統語音合成在口語中壓力和語調的限制。 Prosody 預測和語音合成同時發生，這會產生更流暢和自然的輸出。每個預先建置的神經語音模型可在 24 kHz 和高逼真度 48 kHz 取得。您可以使用神經語音來：
- 讓與聊天機器人和語音助理互動更自然且更具吸引力。
- 將電子書等數位文字轉換成音訊書籍。
- 增強汽車內導航系統。
如需平臺類神經語音的完整清單，請參閱語音服務的語言和語音支援。
使用 SSML 微調文字到語音輸出：語音合成標記語言（SSML）是以 XML 為基礎的標記語言，用來自定義文字到語音輸出。透過 SSML，您可以調整音調、新增暫停、改善發音、變更說話速率、調整音量，以及將多個語音屬性設為單一檔。

您可以使用 SSML 來定義自己的詞典，或切換至不同的說話樣式。透過多語系語音，您也可以透過 SSML 調整口語。若要微調案例的語音輸出，請參閱使用音訊內容建立工具改善語音合成標記語言和語音合成的合成。
Visemes：Visemes 是觀察語音的關鍵姿勢，包括嘴唇、下巴和舌頭在產生特定音素時的位置。 Visemes 與語音和音素有很強的關聯性。

藉由在語音 SDK 中使用 viseme 事件，您可以產生臉部動畫數據。此數據可用來在唇讀通訊、教育、娛樂和客戶服務中以動畫顯示臉部。 Viseme 目前僅支援 en-US （US English）神經語音。

注意

我們計劃在 2024 年淘汰傳統 / 標準語音和非神經自定義語音。之後，我們將不再支持它們。

如果您的應用程式、工具或產品使用任何標準語音和自訂語音，您必須移轉至類神經版本。如需詳細資訊，請參閱遷移至神經語音。

開始使用

若要開始使用文字轉換語音，請參閱快速入門。文字轉換語音可透過語音 SDK、REST API 和語音 CLI 取得。

提示

若要使用無程式碼方法來進行文字轉換語音，請嘗試 Speech Studio 中的音訊內容建立工具。

範例指令碼

您可以在 GitHub 上取得文字轉換語音的範例程式碼。這些範例涵蓋最受歡迎的程式設計語言中的文字轉換語音：

自定義神經語音

除了預先建置的神經語音之外，您還可以建立並微調您產品或品牌特有的自定義神經語音。開始使用只需要一些音訊檔案和相關聯的轉譯。如需詳細資訊，請參閱開始使用自定義神經語音。

定價注意事項

可計費字元

使用文字轉換語音功能時，轉換成語音的每個字元都會計費，包括標點符號。雖然 SSML 檔本身無法計費，但用來調整文字轉換成語音方式的選擇性元素，例如語音和音調，會算作可計費字元。以下是可計費項目的清單：

在要求的 SSML 本文中傳遞至文字轉換語音功能的文字
SSML 格式的要求本文文字欄位中的所有標記，但和 <speak><voice> 標記除外
字母、標點符號、空格、索引標籤、標記和所有空格符
Unicode 中定義的每一個字碼點

如需詳細資訊，請參閱語音服務定價。

重要

每個漢字都會計算為兩個字元進行計費，包括日文中使用的漢字、韓文中使用的漢字，或用於其他語言的漢字。

自定義神經語音的模型定型和裝載時間

自定義神經語音定型和裝載都是以小時計算，每秒計費。如需計費單價，請參閱語音服務定價。

自定義神經語音（CNV）定型時間是由「計算小時」測量（測量機器運行時間的單位）。一般而言，在訓練語音模型時，兩個運算工作會平行執行。因此，計算的計算時數超過實際定型時間。平均而言，定型自訂神經語音精簡版語音只需不到 1 個計算時數；而對於自訂神經語音專業版，定型單一樣式語音通常需要 20 到 40 個計算時數，訓練多樣式語音則需約 90 個計算時數。 CNV 定型時間的計費上限為 96 個計算時數。因此，如果語音模型是以 98 個計算時數來定型，則只會向您收取 96 個計算時數的費用。

自定義神經語音（CNV）端點裝載是以實際時間（小時）來測量。每個端點的裝載時間 (小時) 是在每天 00:00 UTC 時計算前 24 小時的時間。例如，如果端點已在第一天使用 24 小時，則會在第二天以 00：00 UTC 計費 24 小時。如果端點在當天新建立或暫停，則會針對其累積運行時間計費，直到第二天 00：00 UTC 為止。如果端點目前未裝載，則不會計費。除了每天 00:00 UTC 的每日計算之外，在刪除或暫停端點時也會立即觸發計費。例如，針對在 12 月 1 日 08:00 UTC 所建立的端點，裝載小時會在 12 月 2 日 00:00 UTC 和 12 月 3 日 00:00 UTC，將會分別計算為 16 小時和 24 小時。如果使用者在 12 月 3 日 16:30 UTC 暫停裝載端點，則會計算 12 月 3 日 00:00 至 16:30 UTC (16.5 小時) 的持續時間，以進行計費。

參考文件

負責 AI

AI 系統不僅包含技術，也包含使用它的人員、受其影響的人員，以及其部署所在的環境。閱讀透明度資訊，了解在系統中負責任 AI 的使用和部署資訊。