自定義神經語音的定型數據

發行項
01/22/2024

當您準備好為應用程式建立自訂文字轉換語音的語音時，第一個步驟是收集音訊錄製和相關聯的腳本，以開始定型語音模型。語音服務會使用此數據來建立經過微調的唯一語音，以符合錄音中的語音。定型語音之後，您就可以開始在應用程式中合成語音。

提示

若要為生產環境建立語音，建議您使用專業錄音室和語音人才。如需詳細資訊，請參閱錄製語音範例以建立自定義神經語音。

定型數據類型

語音訓練數據集包含音訊錄製，以及具有相關聯轉譯的文本檔。每個音訊檔案都應該包含單一語句（單一句子或對話系統的單一回合），且長度小於 15 秒。

在某些情況下，您可能尚未準備好正確的數據集。您可以使用可用的音訊檔案、簡短或冗長，搭配文字記錄或不使用文字記錄來測試自定義神經語音定型。

下表列出資料類型，以及如何使用這些資料類型來建立自訂文字轉換語音語音模型。

資料類型	描述	使用時機	需要額外的處理
個別語句 + 比對文字記錄	音訊檔案（.wav）的集合（.zip）作為個別語句。每個音訊檔案的長度應為 15 秒或更少，與格式化的文字記錄配對（.txt）。	具有相符文字記錄的專業錄製	準備好進行訓練。
長音訊 + 文字記錄	長、未分割音訊檔案的集合（.zip）（.wav或.mp3，最多超過 20 秒，最多 1000 個音訊檔案），與包含所有口語文字的集合（.zip）配對。	您有音訊檔案和相符的文字記錄，但不會分割成語句。	分割（使用批次轉譯）。視需要進行音訊格式轉換。
只限音訊（預覽）	音訊檔案的集合（.zip）（.wav或.mp3，最多 1000 個音訊檔案）沒有文字記錄。	您只有可用的音訊檔案，沒有文字記錄。	分割 + 文字記錄產生（使用批次轉譯）。視需要進行音訊格式轉換。

檔案應該依類型分組至數據集，並上傳為 zip 檔案。每個數據集只能包含單一數據類型。

注意

每個訂用帳戶允許匯入的數據集數目上限是標準訂用帳戶（S0）使用者的 500 個 zip 檔案。

個別語句 + 比對文字記錄

您可以透過兩種方式準備個別語句的錄製和相符的文字記錄。撰寫腳本並讓語音人才讀取，或使用公開提供的音訊並將它轉譯為文字。如果您執行後者，請編輯音訊檔案中的不多聲，例如「um」和其他填充音效、口吃、嗶啃啃嘱的字組或誤判。

若要產生良好的語音模型，請使用高品質的麥克風，在安靜的房間里建立錄音。一致的音量、說話率、說話音調和表達方式是不可或缺的。

如需數據格式範例，請參閱 GitHub 上的範例定型集。範例定型集包含範例腳本和相關聯的音訊。

個別語句的音訊數據 + 比對文字記錄

每個音訊檔案都應該包含單一語句（單一句子或對話系統的單一回合），長度少於15秒。所有檔案都必須使用相同的口語。不支援多國語言自訂文字轉換語音的語音，但是中英文雙語除外。每個音訊檔案都必須有擴展名為.wav的唯一檔名。

準備音訊時，請遵循這些指導方針。

屬性	值
File format	RIFF （.wav），分組成.zip檔案
File name	Windows OS 支援的檔名字符，擴展名為 .wav。不允許字元 `\ / : * ? " < > \\|` 。它不能以空格開頭或結尾，而且不能以點開頭。不允許重複的檔名。
取樣率	當您建立自定義神經語音時，需要 24,000 Hz。
樣本格式	PCM，至少 16 位
音訊長度	短於15秒
封存格式	.zip
封存大小上限	2048 MB

注意

自定義神經語音的預設取樣率為 24,000 Hz。取樣率低於 16,000 Hz 的音訊檔案將會遭到拒絕。如果.zip檔案包含不同取樣率的.wav檔案，則只會匯入等於或高於16,000 Hz的檔案。取樣率高於 16,000 Hz 且低於 24,000 Hz 的音訊檔案將會向上取樣至 24,000 Hz，以定型神經語音。建議您針對定型數據使用 24,000 Hz 的取樣率。

個別語句的轉譯數據 + 比對文字記錄

轉譯檔案是純文本檔案。使用這些指導方針來準備轉譯。

屬性	值
File format	純文字 (.txt)
編碼格式	ANSI、ASCII、UTF-8、UTF-8-BOM、UTF-16-LE 或 UTF-16-BE。對於 zh-CN，不支援 ANSI 和 ASCII 編碼。
每一行的語句數目	一 - 轉譯檔案的每一行都應該包含其中一個音訊檔案的名稱，後面接著對應的轉譯。您必須使用索引標籤（\t）來分隔檔名和轉譯。
檔案大小上限	2048 MB

以下是一個.txt檔案中語句如何組織文字記錄的範例：

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

重要的是，文字記錄是對應音訊的 100% 準確轉譯。文字記錄中的錯誤會在訓練期間造成質量損失。

長音訊 + 文字記錄（預覽）

注意

對於長音訊 + 文字記錄（預覽），僅支援這些語言：中文（普通話、簡體）、英文（印度）、英文（英國）、英文（美國）、法文（法國）、德文（德國）、義大利文（義大利）、日文（日本）、葡萄牙文（巴西）和西班牙文（墨西哥）。

在某些情況下，您可能沒有可用的區段音訊。 Speech Studio 可協助您分割長音訊檔案，並建立轉譯。長音訊分割服務會使用語音轉換文字的批次轉譯 API 功能。

在分割處理期間，您的音訊檔案和文字記錄也會傳送至自定義語音服務，以精簡辨識模型，以便改善數據的精確度。此程式期間不會保留任何數據。分割完成後，只會儲存分割的語句及其對應文字記錄，以供下載和定型。

注意

這項服務將依您的語音轉文字訂用帳戶使用量向您收費。只有標準（S0）語音資源才支援長音訊分割服務。

長音訊 + 文字記錄的音訊數據

準備音訊以進行分割時，請遵循這些指導方針。

屬性	值
File format	RIFF （.wav）或 .mp3，分組成.zip檔案
File name	Windows OS 支援的檔名字符，擴展名為 .wav。不允許字元 `\ / : * ? " < > \\|` 。它不能以空格開頭或結尾，而且不能以點開頭。不允許重複的檔名。
取樣率	當您建立自定義神經語音時，需要 24,000 Hz。
樣本格式	RIFF（.wav）:P CM，至少16位。 mp3：至少 256 KBps 位速率。
音訊長度	超過20秒
封存格式	.zip
封存大小上限	2048 MB，最多包含1000個音訊檔案

注意

自定義神經語音的預設取樣率為 24,000 Hz。取樣率低於 16,000 Hz 的音訊檔案將會遭到拒絕。取樣率高於 16,000 Hz 且低於 24,000 Hz 的音訊檔案將會向上取樣至 24,000 Hz，以定型神經語音。建議您針對定型數據使用 24,000 Hz 的取樣率。

所有音訊檔案都應該分組到 zip 檔案中。將.wav檔案和.mp3檔案放入相同的 zip 檔案是可以的。例如，您可以在相同的 zip 檔案中上傳名為 'kingstory.wav' 的 45 秒音訊檔案和名為 'queenstory.mp3' 的 200 秒長音訊檔案。處理之後，所有.mp3檔案都會轉換成.wav格式。

長音訊 + 文字記錄的轉譯數據

文字記錄必須備妥此表格所列的規格。每個音訊檔案都必須與文字記錄相符。

屬性	值
File format	純文本（.txt），分組成.zip
File name	使用與相符音訊檔案相同的名稱
編碼格式	ANSI、ASCII、UTF-8、UTF-8-BOM、UTF-16-LE 或 UTF-16-BE。對於 zh-CN，不支援 ANSI 和 ASCII 編碼。
每一行的語句數目	無限制
檔案大小上限	2048 MB

此數據類型中的所有文字記錄檔案都應該分組為 zip 檔案。例如，您可以在相同的 zip 檔案中上傳名為 'kingstory.wav' 的 45 秒音訊檔案和名為 'queenstory.mp3' 的 200 秒長音訊檔案。您必須上傳另一個 zip 檔案，其中包含對應的兩個文字記錄，一個名為 'kingstory.txt'，另一個名為 'queenstory.txt'。在每個純文字檔案中，您會提供相符音訊的完整正確轉譯。

成功上傳數據集之後，我們會協助您根據提供的文字記錄，將音訊檔案分割成語句。您可以藉由下載資料集來檢查分段語句和相符的文字記錄。唯一標識碼會自動指派給分段語句。請務必確定您提供的文字記錄正確 100%。文字記錄中的錯誤可以降低音訊分割期間的精確度，並在稍後的訓練階段進一步引入質量損失。

只限音訊（預覽）

注意

針對僅限音訊（預覽），僅支援這些語言：中文（普通話、簡體）、英文（印度）、英文（英國）、英文（美國）、法文（法國）、德文（德國）、義大利文（義大利）、日文（日本）、葡萄牙文（巴西）和西班牙文（墨西哥）。

如果您沒有音訊錄製的轉譯，請使用 [僅限 音訊] 選項來上傳您的數據。我們的系統可協助您分割和轉譯音訊檔案。請記住，此服務會向您向語音轉文字訂用帳戶使用量收費。

準備音訊時，請遵循這些指導方針。

注意

長音訊分割服務將利用語音轉換文字的批次謄寫功能，這項功能只支援標準訂用帳戶 (S0) 使用者。

屬性	值
File format	RIFF （.wav）或 .mp3，分組成.zip檔案
File name	Windows OS 支援的檔名字符，擴展名為 .wav。不允許字元 `\ / : * ? " < > \\|` 。它不能以空格開頭或結尾，而且不能以點開頭。不允許重複的檔名。
取樣率	當您建立自定義神經語音時，需要 24,000 Hz。
樣本格式	RIFF（.wav）:P CM，至少16位 mp3：至少 256 KBps 位速率。
音訊長度	無限制
封存格式	.zip
封存大小上限	2048 MB，最多包含1000個音訊檔案

注意

自定義神經語音的預設取樣率為 24,000 Hz。取樣率高於 16,000 Hz 且低於 24,000 Hz 的音訊檔案將會向上取樣至 24,000 Hz，以定型神經語音。建議您針對定型數據使用 24,000 Hz 的取樣率。

所有音訊檔案都應該分組到 zip 檔案中。成功上傳數據集之後，語音服務可協助您根據語音批次轉譯服務，將音訊檔案分割成語句。唯一標識碼會自動指派給分段語句。比對文字記錄是透過語音辨識產生的。處理之後，所有.mp3檔案都會轉換成.wav格式。您可以藉由下載資料集來檢查分段語句和相符的文字記錄。

Share via

自定義神經語音的定型數據

定型數據類型

個別語句 + 比對文字記錄

個別語句的音訊數據 + 比對文字記錄

個別語句的轉譯數據 + 比對文字記錄

長音訊 + 文字記錄（預覽）

長音訊 + 文字記錄的音訊數據

長音訊 + 文字記錄的轉譯數據

只限音訊（預覽）

下一步

其他資源

Share via

自定義神經語音的定型數據

定型數據類型

個別語句 + 比對文字記錄

個別語句的音訊數據 + 比對文字記錄

個別語句的轉譯數據 + 比對文字記錄

長音訊 + 文字記錄 （預覽）

長音訊 + 文字記錄的音訊數據

長音訊 + 文字記錄的轉譯數據

只限音訊 （預覽）

下一步

其他資源

長音訊 + 文字記錄（預覽）

只限音訊（預覽）