自定義神經語音的定型數據
當您準備好為應用程式建立自訂文字轉換語音的語音時,第一個步驟是收集音訊錄製和相關聯的腳本,以開始定型語音模型。 語音服務會使用此數據來建立經過微調的唯一語音,以符合錄音中的語音。 定型語音之後,您就可以開始在應用程式中合成語音。
提示
若要為生產環境建立語音,建議您使用專業錄音室和語音人才。 如需詳細資訊,請參閱 錄製語音範例以建立自定義神經語音。
定型數據類型
語音訓練數據集包含音訊錄製,以及具有相關聯轉譯的文本檔。 每個音訊檔案都應該包含單一語句(單一句子或對話系統的單一回合),且長度小於 15 秒。
在某些情況下,您可能尚未準備好正確的數據集。 您可以使用可用的音訊檔案、簡短或冗長,搭配文字記錄或不使用文字記錄來測試自定義神經語音定型。
下表列出資料類型,以及如何使用這些資料類型來建立自訂文字轉換語音語音模型。
資料類型 | 描述 | 使用時機 | 需要額外的處理 |
---|---|---|---|
個別語句 + 比對文字記錄 | 音訊檔案 (.wav) 的集合 (.zip) 作為個別語句。 每個音訊檔案的長度應為 15 秒或更少,與格式化的文字記錄配對(.txt)。 | 具有相符文字記錄的專業錄製 | 準備好進行訓練。 |
長音訊 + 文字記錄 | 長、未分割音訊檔案的集合(.zip)(.wav或.mp3,最多超過 20 秒,最多 1000 個音訊檔案),與包含所有口語文字的集合(.zip)配對。 | 您有音訊檔案和相符的文字記錄,但不會分割成語句。 | 分割(使用批次轉譯)。 視需要進行音訊格式轉換。 |
只限音訊 (預覽) | 音訊檔案的集合(.zip)(.wav或.mp3,最多 1000 個音訊檔案)沒有文字記錄。 | 您只有可用的音訊檔案,沒有文字記錄。 | 分割 + 文字記錄產生 (使用批次轉譯)。 視需要進行音訊格式轉換。 |
檔案應該依類型分組至數據集,並上傳為 zip 檔案。 每個數據集只能包含單一數據類型。
注意
每個訂用帳戶允許匯入的數據集數目上限是標準訂用帳戶 (S0) 使用者的 500 個 zip 檔案。
個別語句 + 比對文字記錄
您可以透過兩種方式準備個別語句的錄製和相符的文字記錄。 撰寫腳本並讓語音人才讀取,或使用公開提供的音訊並將它轉譯為文字。 如果您執行後者,請編輯音訊檔案中的不多聲,例如 「um」 和其他填充音效、口吃、嗶啃啃嘱的字組或誤判。
若要產生良好的語音模型,請使用高品質的麥克風,在安靜的房間里建立錄音。 一致的音量、說話率、說話音調和表達方式是不可或缺的。
如需數據格式範例,請參閱 GitHub 上的範例定型集。 範例定型集包含範例腳本和相關聯的音訊。
個別語句的音訊數據 + 比對文字記錄
每個音訊檔案都應該包含單一語句(單一句子或對話系統的單一回合),長度少於15秒。 所有檔案都必須使用相同的口語。 不支援多國語言自訂文字轉換語音的語音,但是中英文雙語除外。 每個音訊檔案都必須有擴展名為.wav的唯一檔名。
準備音訊時,請遵循這些指導方針。
屬性 | 值 |
---|---|
File format | RIFF (.wav),分組成.zip檔案 |
File name | Windows OS 支援的檔名字符,擴展名為 .wav。 不允許字元 \ / : * ? " < > \| 。 它不能以空格開頭或結尾,而且不能以點開頭。 不允許重複的檔名。 |
取樣率 | 當您建立自定義神經語音時,需要 24,000 Hz。 |
樣本格式 | PCM,至少 16 位 |
音訊長度 | 短於15秒 |
封存格式 | .zip |
封存大小上限 | 2048 MB |
注意
自定義神經語音的預設取樣率為 24,000 Hz。 取樣率低於 16,000 Hz 的音訊檔案將會遭到拒絕。 如果.zip檔案包含不同取樣率的.wav檔案,則只會匯入等於或高於16,000 Hz的檔案。 取樣率高於 16,000 Hz 且低於 24,000 Hz 的音訊檔案將會向上取樣至 24,000 Hz,以定型神經語音。 建議您針對定型數據使用 24,000 Hz 的取樣率。
個別語句的轉譯數據 + 比對文字記錄
轉譯檔案是純文本檔案。 使用這些指導方針來準備轉譯。
屬性 | 值 |
---|---|
File format | 純文字 (.txt) |
編碼格式 | ANSI、ASCII、UTF-8、UTF-8-BOM、UTF-16-LE 或 UTF-16-BE。 對於 zh-CN,不支援 ANSI 和 ASCII 編碼。 |
每一行的語句數目 | 一 - 轉 譯檔案的每一行都應該包含其中一個音訊檔案的名稱,後面接著對應的轉譯。 您必須使用索引標籤 (\t) 來分隔檔名和轉譯。 |
檔案大小上限 | 2048 MB |
以下是一個.txt檔案中語句如何組織文字記錄的範例:
0000000001[tab] This is the waistline, and it's falling.
0000000002[tab] We have trouble scoring.
0000000003[tab] It was Janet Maslin.
重要的是,文字記錄是對應音訊的 100% 準確轉譯。 文字記錄中的錯誤會在訓練期間造成質量損失。
長音訊 + 文字記錄 (預覽)
注意
對於長音訊 + 文字記錄(預覽),僅支援這些語言:中文(普通話、簡體)、英文(印度)、英文(英國)、英文(美國)、法文(法國)、德文(德國)、義大利文(義大利)、日文(日本)、葡萄牙文(巴西)和西班牙文(墨西哥)。
在某些情況下,您可能沒有可用的區段音訊。 Speech Studio 可協助您分割長音訊檔案,並建立轉譯。 長音訊分割服務會使用 語音轉換文字的批次轉譯 API 功能。
在分割處理期間,您的音訊檔案和文字記錄也會傳送至自定義語音服務,以精簡辨識模型,以便改善數據的精確度。 此程式期間不會保留任何數據。 分割完成後,只會儲存分割的語句及其對應文字記錄,以供下載和定型。
注意
這項服務將依您的語音轉文字訂用帳戶使用量向您收費。 只有標準 (S0) 語音資源才支援長音訊分割服務。
長音訊 + 文字記錄的音訊數據
準備音訊以進行分割時,請遵循這些指導方針。
屬性 | 值 |
---|---|
File format | RIFF (.wav) 或 .mp3,分組成.zip檔案 |
File name | Windows OS 支援的檔名字符,擴展名為 .wav。 不允許字元 \ / : * ? " < > \| 。 它不能以空格開頭或結尾,而且不能以點開頭。 不允許重複的檔名。 |
取樣率 | 當您建立自定義神經語音時,需要 24,000 Hz。 |
樣本格式 | RIFF(.wav):P CM,至少16位。 mp3:至少 256 KBps 位速率。 |
音訊長度 | 超過20秒 |
封存格式 | .zip |
封存大小上限 | 2048 MB,最多包含1000個音訊檔案 |
注意
自定義神經語音的預設取樣率為 24,000 Hz。 取樣率低於 16,000 Hz 的音訊檔案將會遭到拒絕。 取樣率高於 16,000 Hz 且低於 24,000 Hz 的音訊檔案將會向上取樣至 24,000 Hz,以定型神經語音。 建議您針對定型數據使用 24,000 Hz 的取樣率。
所有音訊檔案都應該分組到 zip 檔案中。 將.wav檔案和.mp3檔案放入相同的 zip 檔案是可以的。 例如,您可以在相同的 zip 檔案中上傳名為 'kingstory.wav' 的 45 秒音訊檔案和名為 'queenstory.mp3' 的 200 秒長音訊檔案。 處理之後,所有.mp3檔案都會轉換成.wav格式。
長音訊 + 文字記錄的轉譯數據
文字記錄必須備妥此表格所列的規格。 每個音訊檔案都必須與文字記錄相符。
屬性 | 值 |
---|---|
File format | 純文本 (.txt),分組成.zip |
File name | 使用與相符音訊檔案相同的名稱 |
編碼格式 | ANSI、ASCII、UTF-8、UTF-8-BOM、UTF-16-LE 或 UTF-16-BE。 對於 zh-CN,不支援 ANSI 和 ASCII 編碼。 |
每一行的語句數目 | 無限制 |
檔案大小上限 | 2048 MB |
此數據類型中的所有文字記錄檔案都應該分組為 zip 檔案。 例如,您可以在相同的 zip 檔案中上傳名為 'kingstory.wav' 的 45 秒音訊檔案和名為 'queenstory.mp3' 的 200 秒長音訊檔案。 您必須上傳另一個 zip 檔案,其中包含對應的兩個文字記錄,一個名為 'kingstory.txt',另一個名為 'queenstory.txt'。 在每個純文字檔案中,您會提供相符音訊的完整正確轉譯。
成功上傳數據集之後,我們會協助您根據提供的文字記錄,將音訊檔案分割成語句。 您可以藉由下載資料集來檢查分段語句和相符的文字記錄。 唯一標識碼會自動指派給分段語句。 請務必確定您提供的文字記錄正確 100%。 文字記錄中的錯誤可以降低音訊分割期間的精確度,並在稍後的訓練階段進一步引入質量損失。
只限音訊 (預覽)
注意
針對僅限音訊(預覽),僅支援這些語言:中文(普通話、簡體)、英文(印度)、英文(英國)、英文(美國)、法文(法國)、德文(德國)、義大利文(義大利)、日文(日本)、葡萄牙文(巴西)和西班牙文(墨西哥)。
如果您沒有音訊錄製的轉譯,請使用 [僅限 音訊] 選項來上傳您的數據。 我們的系統可協助您分割和轉譯音訊檔案。 請記住,此服務會向您向語音轉文字訂用帳戶使用量收費。
準備音訊時,請遵循這些指導方針。
注意
長音訊分割服務將利用語音轉換文字的批次謄寫功能,這項功能只支援標準訂用帳戶 (S0) 使用者。
屬性 | 值 |
---|---|
File format | RIFF (.wav) 或 .mp3,分組成.zip檔案 |
File name | Windows OS 支援的檔名字符,擴展名為 .wav。 不允許字元 \ / : * ? " < > \| 。 它不能以空格開頭或結尾,而且不能以點開頭。 不允許重複的檔名。 |
取樣率 | 當您建立自定義神經語音時,需要 24,000 Hz。 |
樣本格式 | RIFF(.wav):P CM,至少16位 mp3:至少 256 KBps 位速率。 |
音訊長度 | 無限制 |
封存格式 | .zip |
封存大小上限 | 2048 MB,最多包含1000個音訊檔案 |
注意
自定義神經語音的預設取樣率為 24,000 Hz。 取樣率高於 16,000 Hz 且低於 24,000 Hz 的音訊檔案將會向上取樣至 24,000 Hz,以定型神經語音。 建議您針對定型數據使用 24,000 Hz 的取樣率。
所有音訊檔案都應該分組到 zip 檔案中。 成功上傳數據集之後,語音服務可協助您根據語音批次轉譯服務,將音訊檔案分割成語句。 唯一標識碼會自動指派給分段語句。 比對文字記錄是透過語音辨識產生的。 處理之後,所有.mp3檔案都會轉換成.wav格式。 您可以藉由下載資料集來檢查分段語句和相符的文字記錄。