Share via


什麼是 OpenAI 文字到語音轉換語音?

如同 Azure AI 語音語音,OpenAI 文字到語音轉換會提供高品質的語音合成,以將書面文字轉換成自然語音語音。 這可解除鎖定各種沉浸式和互動式用戶體驗的可能性。

OpenAI 文字到語音轉換語音可透過兩個模型變體取得: NeuralNeuralHD

  • Neural:針對延遲最低的即時使用案例優化,但質量低於 NeuralHD
  • NeuralHD:已針對品質優化。

如需 Azure OpenAI Studio 和 Speech Studio 中 OpenAI 語音的示範,請檢視此 簡介影片

Azure AI 服務中的語音轉換文字

您可能會問:如果我想要使用 OpenAI 文字語音語音,我應該透過 Azure OpenAI 服務或透過 Azure AI 語音使用它嗎? 引導我使用一個或另一個案例的案例為何?

每個語音模型都提供不同的特性和功能,讓您選擇最符合您特定需求的語音模型。 您想要瞭解 Azure AI 服務中可用文字到語音語音之間的選項和差異。

您可以在 Azure AI 服務中選擇下列文字到語音語音:

透過 Azure OpenAI 服務或透過 Azure AI 語音開啟 AI 文字到語音轉換語音?

如果您想要使用 OpenAI 文字到語音轉換語音,您可以選擇要透過 Azure OpenAI 或透過 Azure AI 語音加以使用。 不論是哪一種情況,語音合成結果都相同。

以下是在 Azure OpenAI 服務和 Azure AI 語音中 OpenAI 文字到語音語音與語音語音之間的功能比較。

功能 Azure OpenAI 服務 (OpenAI 語音) Azure AI 語音 (OpenAI 語音) Azure AI 語音語音
區域 美國中北部、瑞典中部 美國中北部、瑞典中部 可在數十個區域中使用。 請參閱區域清單
語音品種 6 6 超過 400 個
多語系語音號碼 6 6 14
語言涵蓋範圍上限 57 57 77
語音合成標記語言 (SSML) 支援 不支援 支援 SSML 元素的子集。 支援 Azure AI 語音中完整的 SSML 集合。
開發選項 REST API 語音 SDK、語音 CLI、REST API 語音 SDK、語音 CLI、REST API
部署選項 僅限雲端 僅限雲端 雲端、內嵌、混合式和容器。
即時或批次合成 即時 即時和批次合成 即時和批次合成
延遲 大於 500 毫秒 大於 500 毫秒 小於 300 毫秒
合成音訊的取樣率 24 kHz 8、16、24 和 48 kHz 8、16、24 和 48 kHz
語音輸出音訊格式 opus、mp3、aac、flac opus、mp3、pcm、truesilk opus、mp3、pcm、truesilk

Azure AI 語音中有其他功能和功能,不適用於 OpenAI 語音。 例如:

Azure AI 語音中 OpenAI 文字到語音轉換語音支援的 SSML 元素

具有輸入文字的語音合成標記語言 (SSML) 會決定文字到語音輸出的結構、內容和其他特性。 例如,您可以使用 SSML 來定義段落、句子、中斷或暫停或靜音。 您可以使用書籤或 viseme 等事件標籤來換行文字,以供應用程式稍後處理。

下表概述 OpenAI 文字對 Azure AI 語音中語音轉換語音所支援的語音合成標記語言 (SSML) 元素。 OpenAI 語音僅支援下列 SSML 捲標子集。 如需詳細資訊,請參閱 SSML 檔結構和事件

SSML 元素名稱 描述
<speak> 括住要說出的整個內容。 它是 SSML 檔的根元素。
<voice> 指定用於文字到語音輸出的語音。
<sub> 指出別名屬性的文字值應該發音,而不是元素的封閉式文字。
<say-as> 指出元素文字的內容類型,例如數位或日期。

除了 之外interpret-as="name"interpret-as這個元素都支援所有屬性值。 例如, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> 支援 ,但 <say-as interpret-as="name">ED</say-as> 不受支援。 如需詳細資訊,請參閱 使用SSML發音。
<s> 表示句子。
<lang> 指出您希望神經語音說話之語言的預設地區設定。
<break> 使用 來覆寫文字之間中斷或暫停的默認行為。

下一步