錄製自定義神經語音的語音範例

發行項
01/23/2024

本文提供您準備高品質語音範例的指示，以使用自定義神經語音 Pro 專案建立專業語音模型。

從頭開始建立高品質的生產自定義神經語音並不是一項隨意的工作。自定義神經語音的核心元件是人類語音的大量音訊樣本集合。這些錄音品質很高，這一點非常重要。選擇具有製作這類錄音經驗的語音人才，並使用專業設備由錄音工程師錄製。

不過，在您可以製作這些錄製之前，您需要腳本：語音人才會說出這些文字來建立音訊範例。

許多小型但重要的細節會進入建立專業語音錄製。本指南是一個程式藍圖，可協助您取得良好且一致的結果。

準備高品質語音資料的祕訣

高度自然的自定義神經語音取決於數個因素，例如訓練數據的品質和大小。

定型資料的品質是主要因素。例如，在相同的定型集中，一致的音量、說話速率、說話音調和說話樣式是建立高品質自訂神經語音不可或缺的。您也應該避免錄製中的背景雜訊，並確定腳本和錄製相符。若要確保資料的品質，您必須遵循腳本選取準則和錄製需求。

關於定型資料的大小，在大部分情況下，您可以使用 500 個表達來建置合理的自訂神經語音。根據我們的測試，在大多數語言中新增更多訓練數據並不一定能改善語音本身的自然性（使用 MOS 分數進行測試），但是，隨著更多涵蓋更多文字實例的訓練數據，您更有可能降低語音語音不滿意部分的比例，例如故障。若要聽聽語音音效的不滿意部分，請參閱 GitHub 範例。

在某些情況下，您可能會想要具有獨特特性的語音角色。例如，卡通角色需要具有特殊說話風格的聲音，或具有動態語調的聲音。針對這類情況，建議您至少準備 1000 個 (最好是 2000 個) 表達，並在專業錄製工作室中加以錄製。若要深入瞭解如何改善語音模型的品質，請參閱使用自定義神經語音的特性和限制。

語音錄製角色

自定義神經語音錄製專案中有四個基本角色：

角色	目的
語音人才	此人的聲音構成了自定義神經語音的基礎。
錄製工程師	監督錄製的技術層面，並操作錄音設備。
主管	準備劇本並指導語音人才的表現。
編輯器	完成音訊檔案，並準備上傳至Speech Studio

個人可以填滿多個角色。本指南假設您正在填補導演角色，並雇用語音人才和錄音工程師。如果您想要自行製作錄製內容，本文包含錄製工程師角色的一些資訊。在錄製會話之後，才需要編輯器角色。同時，導演或錄音工程師可以填補這個角色。

選擇您的語音人才

具有配音經驗的演員，配音工作，宣佈或新聞閱讀使良好的配音人才。選擇你喜歡的自然聲音的配音人才。可以創造獨特的“字元”聲音，但大多數天才更難一致地執行它們，而努力可能會導致語音緊張。選擇語音人才的最重要因素是一致性。相同語音樣式的錄音應該都聽起來像在同一天在同一個房間。您可以透過良好的錄製作法和工程來達到這個理想。

您的語音天賦必須能夠用一致的速率、音量水準、音調和音調來表達。他們也需要能夠控制他們的音調變化，情感效果和語音禮儀。錄音語音樣本比其他類型的語音工作更胖，因此大多數語音人才每天只能錄製兩到三個小時。將會話限制為每週三或四天，並盡可能關閉一天。

請與您的語音人才合作，開發一個角色，定義自定義神經語音的整體聲音和情感音調，以確保找出該角色的“中性”聲音。您可以定義角色的說話風格，並要求您的語音人才以與您想要的樣式產生共鳴的方式閱讀腳本。

例如，具有自然樂觀個性的人物，即使他們中立地說話，也會有樂觀情緒。然而，這種個性特徵應該是微妙和一致的。聽現有聲音的閱讀內容，瞭解您的目標是什麼。

提示

通常，您會想要擁有您製作的錄音。您的語音人才應該適合專案的工作僱用合同。

建立腳本

任何自定義神經錄音會話的起點是腳本，其中包含由您的語音天才說出的語句。「語句」一詞同時包含完整句子和較短的片語語。建置自定義神經語音至少需要 300 個錄製的語句作為定型數據。

腳本中的語句可以來自任何地方：虛構、非虛構、語音記錄、新聞報導，以及列印格式中可用的任何其他內容。如需潛在法律問題的簡短討論，請參閱一節。您也可以撰寫自己的文字。

您的語句不需要來自相同的來源、相同的來源類型，或彼此有任何關係。不過，如果您在語音應用程式中使用設定片語（例如「您已成功登入」），請務必將它們包含在您的腳本中。它為您的自定義神經聲音提供了更好的機會，以很好地表達這些片語。

我們建議錄製腳本同時包含一般句子和領域特定句子。例如，如果您打算記錄 2,000 個句子，其中 1,000 個可能是一般句子，其中另外 1,000 個可能是來自目標網域的句子或應用程式的使用案例。

我們會針對每個語言提供「一般」、「聊天」和「客戶服務」網域中的範例腳本，以協助您準備錄製腳本。您可以直接使用這些 Microsoft 共用腳本來錄製，或使用這些腳本作為建立您自己的參考。

腳本選取準則

以下是您可以遵循的一些一般指導方針，為自定義神經語音定型建立良好的主體（錄製的音訊樣本）。

平衡腳本以涵蓋網域中的不同句子類型，包括語句、問題、驚嘆號、長句子和短句子。

每個句子都應該包含四個字到 30 個單字，而且腳本中不應包含重複的句子。
如需如何平衡不同的句子類型，請參閱下表：

句子類型	涵蓋範圍
語句句子	語句句子應該是 70-80% 的腳本。
問題句子	問題句子應該大約是網域腳本的 10%-20%，包括 5%-10% 的上升和 5%-10% 的音調下降。
驚嘆號句子	驚嘆號句子應該大約是腳本的 10%-20%。
簡短單字/片語	簡短的單字/片語組腳本應該大約是語句總數的10%，每個案例有5到7個單字。

注意

短字/片語應該以逗號分隔。他們有助於提醒你的語音天才在閱讀時短暫地暫停。

最佳做法包括：

語音部分的平衡涵蓋範圍，例如動詞、名詞、形容詞等等。
發音的平衡涵蓋範圍。包括 A 到 Z 的所有字母，讓文字轉換語音引擎學習如何以您的風格來發音每個字母。
可讀取、可理解、常識腳本供說話者閱讀。
避免字組/片組太多類似的模式，例如“easy” 和 “easy”。
在所有句子類型中包含不同類型的數位：位址、單位、電話、數量、日期等等。
如果這是您自定義神經語音將讀取的內容，請包含拼字句子。例如，「Apple 的拼字是 P P L E」。

請勿將多個句子放入一行/一個語句中。以語句分隔每一行。
請確定句子是乾淨的。一般而言，不要包含太多非標準字組，例如數位或縮寫，因為它們很難閱讀。某些應用程式可能需要讀取許多數位或縮略字。在這些情況下，您可以包含這些單字，但以口語形式正規化。

以下是一些最佳做法，例如：
- 對於具有縮寫的行，而不是 “BTW”，請以「順便」撰寫。
- 如果是數位行，而不是 “911”，請寫入 “nine one one one”。
- 對於縮寫的行，而不是 “ABC”，請撰寫 “A B C”。
如此一來，請確定您的語音天才以預期的方式發音這些單詞。讓您的腳本和錄製在定型程式期間保持相符。
您的腳本應該包含許多不同的單字和句子，其中包含不同類型的句子長度、結構和情緒。
請仔細檢查文稿是否有錯誤。如果可能的話，請讓其他人檢查它。當您以語音天才執行文稿時，您可能會遇到更多錯誤。

語音人才腳本與訓練腳本之間的差異

定型腳本與語音人才腳本不同，特別是針對包含數位、符號、縮寫、日期和時間的腳本。為配音人才準備的腳本必須遵循原生閱讀慣例，例如 50% 和 $45。用於定型的腳本必須正規化，以符合錄音，例如 50% 和 45 美元。

注意

我們提供 GitHub 上語音人才的一些範例腳本。若要使用範例腳本進行訓練，您必須先根據語音人才的錄製來正規化這些腳本，再上傳檔案。

下表顯示語音人才的腳本與定型標準化腳本之間的差異。

類別	語音人才腳本範例	定型文稿範例（標準化）
數字	123	一百二十三
符號	50%	百分之五十
縮寫	儘快	儘快
日期和時間	3 月 3 日下午 5：00	三月三日下午五時

腳本的一般缺陷

腳本品質不佳可能會對訓練結果造成負面影響。若要達到高品質的訓練結果，請務必避免瑕疵。

文稿瑕疵通常分為下列類別：

類別	範例
毫無意義的內容。	“無色綠色的想法瘋狂地睡覺。
未完成的句子。	- “這是我的最後一個前夕”（沒有主題，沒有具體意義） - “他們已經很有趣（最後沒有引號，這不是完整的句子）
句子中的錯字。	- 以小寫開頭 - 如有需要，不結束標點符號 - 拼字錯誤 - 缺乏標點符號：最後沒有句點符號（新聞標題除外） - 以符號結尾，但逗號、問題、驚嘆號除外 - 格式錯誤，例如： - 45$ （應為 45 美元） - 文字/標點符號之間沒有空格或多餘的空間
以類似的格式重複，每個模式各有一個足夠。	- “現在在紐約下午1點” - “現在在紐約下午 2 點” - “現在在紐約下午 3 點” - “現在在西雅圖下午 1 點” - 「現在下午1點在華盛頓特區。
不常見的外文字：腳本中只能接受常用的外文文字。	在英語中，一個在一般演講中可能會使用法語單詞“假”，但像“硬幣拉公牛”這樣的法語表達式並不常見。
Emoji 或任何其他不常見的符號

文本格式

腳本可在錄製會話期間使用，因此您可以設定任何容易使用的方式。分別建立Speech Studio所需的文字檔。

基本文稿格式包含三個資料列：

語句的數目，從 1 開始。編號可讓您輕鬆地讓工作室中的每個人都參考特定的語句（“讓我們再試一次 356 號）。您可以使用 Microsoft Word 段落編號功能自動編號數據表的數據列。
空白數據行，您可以在其中撰寫每個語句的時數或時間代碼，以協助您在完成的錄製中找到它。
語句本身的文字。

Sample script

注意

大部分工作室在稱為「採用」的簡短片段中記錄。每個採用通常包含10到24個語句。只要注意到取得數位就足以在稍後找到語句。如果您要在偏好製作較長錄製的工作室中錄製，您會想要改為記下時間程序代碼。工作室會有突出的時間顯示。

在每個數據列後面保留足夠的空間，以寫入筆記。請確定頁面之間不會分割任何語句。編號頁面，並在紙張的一邊列印您的腳本。

列印三份劇本：一份用於配音員、一份用於錄音工程師，另一份用於導演（您）。使用紙張剪輯而不是主食：經驗豐富的語音藝術家會分隔頁面，以避免在頁面翻轉時發出噪音。

語音人才聲明

若要定型神經語音，您必須建立語音人才配置檔，其中包含語音人才同意使用語音數據來定型自定義語音模型的音訊檔案。準備錄製文稿時，請確定您包含語句句子。

法務

根據著作權法，演員閱讀著作權文本可能是作品作者應賠償的表演。最終產品自定義神經語音無法辨識此效能。即便如此，針對此目的使用著作權作品的合法性還不夠完善。 Microsoft 無法就此問題提供法律建議;諮詢您自己的法律顧問。

幸運的是，可以完全避免這些問題。您可以在沒有權限或授權的情況下使用許多文字來源。

文字來源	描述
CMU 北極主體	從版權外作品中選取的約1100句話，專門用於語音合成專案。一個很好的起點。
不再運作在著作權下	通常可在 1923 年之前發行。對於英語，古滕貝格專案提供了數以萬計的此類作品。您可能會想要專注於較新的作品，因為語言更接近現代英語。
政府工作	美國政府創作的作品在美國中不受版權保護，不過政府可以在其他國家/地區聲稱著作權。
公用網域	著作權明確公開或專用於公用網域的作品。某些司法管轄區可能無法完全放棄著作權。
寬鬆授權的運作方式	根據 Creative Commons 或 GNU 免費文件授權（GFDL）等授權散發的作品。維琪百科使用 GFDL。不過，某些授權可能會對可能會影響建立自定義神經語音模型的授權內容效能施加限制，因此請仔細閱讀授權。

錄製您的腳本

在專門從事語音工作的專業錄音室錄製您的腳本。他們有一個錄音亭，正確的設備，以及正確的人操作它。不建議在錄製時輕取。

請與工作室的錄音工程師討論您的專案，並聽取他們的意見。錄製應該幾乎沒有或沒有動態範圍壓縮（最多 4：1）。音訊必須保持一致的音量和高訊號與雜訊比率，同時沒有不必要的音效。

錄製需求

若要達到高品質的訓練結果，請在錄製或數據準備期間遵循下列需求：

清晰且發音良好
自然速度：音訊檔案之間沒有太慢或太快。
適當的音量、音序和中斷：穩定在相同句子或句子之間，正確中斷標點符號。
錄製期間沒有噪音
調整您的角色設計
沒有錯誤的輔色：適合目標設計
沒有錯誤的發音

您可以參考下列規格，以準備音訊範例作為最佳做法。

屬性	值
File format	*.wav、Mono
取樣率	24 KHz
樣本格式	16 位，PCM
尖峰磁碟區層級	-3 dB 至 -6 dB
信噪比	> 35 dB
沉默	- 在開始和結束時應該有一些沉默（建議 100 毫秒），但不超過 200 毫秒 - 單字或片語 < 之間的無聲 -30 dB - 最後一句話說 <完后在波中沉默 - 60 dB
環境雜訊或回音	- 在說 < -70 dB 之前，波開始時的噪音水準

注意

您可以以較高的取樣率和位深度錄製，例如，格式為48 KHz24位PCM。在自定義神經語音定型期間，我們會自動將其取樣為 24 KHz 16 位 PCM。

較高的訊號與雜訊比率（SNR）表示音訊中的雜訊較低。在專業工作室錄製，您通常可以達到 35+ SNR。具有低於 20 之 SNR 的音訊，可能會導致您產生的語音出現明顯的噪音。

請考慮以低發音分數或不良訊號與雜訊比率重新錄製任何語句。如果您無法重新記錄，請考慮從數據中排除這些語句。

一般音訊錯誤

針對高品質的訓練結果，強烈建議您避免音訊錯誤。音訊錯誤通常位於下列類別內：

音訊檔名不符合腳本標識碼。
WAR 檔案的格式無效，無法讀取。
音訊取樣率低於 16 KHz。建議針對高品質的神經語音，.wav檔案取樣率等於或高於 24 KHz。
磁碟區尖峰不在 -3 dB（最大磁碟區 70% 的 70%）到 -6 dB（50%）的範圍內。
電壓溢位：超聲波在尖峰值切割，因此無法完成。
錄製的無訊息部分無法清除;您可以聽到聲音，例如環境噪音、嘴聲和回聲。

例如，下列音訊包含語音之間的環境雜訊。

下列範例包含DC位移或回應的徵兆。
整體音量太低。如果磁碟區低於 -18 dB，您的資料會標記為問題（最大磁碟區 10%）。請確定所有音訊檔案都應該在相同音量層級上保持一致。
在第一個單字或最後一個字之後沒有沉默。此外，開始或結束無聲不應超過 200 毫秒或小於 100 毫秒。

親自動手做

如果你想自己製作錄音，而不是進入錄音室，這裡有一個簡短的入門。由於家庭錄音和播客的興起，在線找到良好的錄音建議和資源比以往更容易。

您的「錄音亭」應該是一個小房間，沒有明顯的回音或「房間音調」。。它應該盡可能安靜和和諧。牆壁上的Drapes可以用來減少回聲和中和或“死”房間的聲音。

使用高品質的錄音室壓縮器麥克風（簡稱“麥克風”）來錄製語音。 Sennheiser、AKG，甚至更新的 Zoom 麥克風都能產生良好的效果。您可以購買麥克風，或從當地音像租賃公司租用麥克風。尋找具有USB介面的介面。這種類型的麥克風可方便地將麥克風元素、預取樣和類比對數位轉換器結合成一個套件，簡化勾點。

您也可以使用類比麥克風。許多出租屋提供以語音角色而聞名的「老式」麥克風。專業類比齒輪使用平衡的 XLR 連接器，而不是消費設備中使用的 1/4 英寸插頭。如果您進行類比，您也需要具有這些連接器的 preamp 和電腦音訊介面。

將麥克風安裝在月臺或繁榮上，並在麥克風前安裝流行篩選器，以消除“p” 和 “b” 等“p” 和 “b” 等“多聲”的噪音。有些麥克風隨附懸架，可將它們與站台中的振動隔離，這很有説明。

語音人才必須與麥克風保持一致距離。使用地板上的磁帶來標記他們應該站在何處。如果人才更喜歡坐著，請特別小心監視麥克風距離，避免椅子噪音。

使用月臺來保存腳本。避免將月臺傾斜，使其可以反映麥克風的聲音。

操作錄音設備的人—錄音工程師—應該位於與天才分開的房間里，用某種方式與錄音亭中的人才交談（ 脫口電路）。

錄製應該包含盡可能少的噪音，目標是 -80 dB。

仔細聆聽「展臺」中沉默的錄音，找出任何噪音來自何處，並消除原因。常見的噪音來源是空氣通風口、螢光燈鎮流器、附近道路的交通，以及設備風扇（即使是筆記本計算機也可能有風扇）。麥克風和纜線可以從附近的 AC 線路中取回電噪音，通常是嗡嗡聲或嗡嗡聲。嗡嗡聲也可能由 地面迴圈造成，這是由設備插入一個以上的電路所造成。

提示

在某些情況下，您可能可以使用均衡器或減少雜訊軟體外掛程式來協助從錄音中移除雜訊，不過最好是將其停止在其來源。

設定層級，以便使用大部分可用的動態範圍數字錄製，而不需要過度取用。這表示將音訊設為大聲，但不會如此響亮，以至於它變得扭曲。下圖顯示良好錄製的超聲波範例：

A good recording waveform

在這裡，大部分的範圍（高度）都會使用，但訊號的最高尖峰不會到達視窗的頂端或底部。您也可以看到錄製中的無聲大約是一條薄水平線，表示低雜訊地板。此錄製具有可接受的動態範圍和訊號與雜訊比率。

視您使用的麥克風而定，透過高品質的音訊介面或USB埠直接錄製到電腦。針對類比，請讓音訊鏈結保持簡單：麥克風、預取樣、音訊介面、計算機。您可以每月以合理的成本授權 Avid Pro Tools 和 Adobe Audition 。如果您的預算非常緊張，請嘗試免費的膽量。

在 44.1 KHz 16 位單聲道（CD 品質）或更好時錄製。如果您的設備支援，目前最先進的是48 KHz24位。您將先將音訊取樣到 24 KHz 16 位，再將其提交至 Speech Studio。不過，在需要編輯的情況下，必須有高品質的原始錄製。

在理想情況下，讓不同的人擔任導演、工程師和人才的角色。不要試著自己做這一切。在捏合中，一個人可以是導演和工程師。

會話之前

若要避免浪費錄音室時間，請在錄製會話之前，使用您的語音天才執行腳本。雖然語音人才熟悉文字，但他們可以澄清任何不熟悉的單詞的發音。

注意

大多數錄音室都會在錄音室提供腳本的電子顯示。在此情況下，請將您的執行筆記直接輸入腳本的檔。不過，您仍會希望檔副本在會話期間記下筆記。大多數工程師也會想要一個硬本。如果電腦關閉，您仍然希望第三個列印的複本作為人才的備份。

你的語音天才可能會問您想要在語句中強調哪一個詞（“操作字”）。告訴他們，你想要一個自然閱讀，沒有特彆強調。合成語音時可以新增強調;它不應該是原始錄製的一部分。

引導人才明確地發音文字。腳本的每一個字都應該以寫入的形式發音。聲音不應該省略或泥漿在一起，就像在隨意的演講中很常見， 除非他們在腳本中以這種方式撰寫。

寫入的文字	不想要的休閒發音
永遠不會放棄你	永遠不會放棄你
有四個燈	有四個燈
今天天氣如何	今天天氣如何
向我的小朋友打招呼	向我莉莉的朋友打招呼

人才不應該* 在單字之間新增不同的暫停。句子仍然應該自然流動，即使聽起來有點正式。這種精細的區別可能需要練習才能正確。

錄製工作階段

在會話開頭建立一般語句的參考錄製或 比對檔案 。要求人才在每一頁左右重複這一行。每次，都會比較新的錄製與參考。這種做法有助於人才在音量、節奏、音調和調音中保持一致。同時，工程師可以使用比對檔案作為聲音層級和整體一致性的參考。

當您在休息或另一天繼續錄製時，比對檔案特別重要。為天賦打幾次，讓他們每次重複它，直到他們匹配得很好。

若要記錄具有特定樣式的主體，請仔細選擇展示所需樣式的腳本。在錄製期間，確保語音人才在音量、節奏、音調和音調中保持一致，以達到體現預期風格的錄音。

指導你的才華，在每句話之前暫停一會兒。在語句之間記錄幾秒鐘的沉默。每次出現單字時，應該以相同的方式發音，並考慮內容。例如，以動詞表示的「record」與「record」不同的是名詞。

錄製大約五秒的沉默，然後第一次錄製以捕捉“房間音調”。這種做法可協助Speech Studio補償錄音中的噪音。

提示

你需要捕捉的只是語音天賦，所以你可以製作一個單聲（單聲道）錄音只是他們的臺詞。不過，如果您在立體聲中錄製，您可以使用第二個通道來錄製控制室中的閒聊，以擷取特定線路的討論或採用。從上傳至 Speech Studio 的版本中移除此曲目。

用耳機密切聆聽配音員的表現。你正在尋找好但自然的聽寫，正確的發音，和缺乏不必要的聲音。請毫不猶豫地要求您的天才重新錄製不符合這些標準的語句。

提示

如果您使用大量的語句，單一語句可能不會對產生的自定義神經語音有明顯的影響。只要記下問題的任何語句、將其從數據集中排除，以及查看自定義神經語音的顯示方式，可能更方便。您隨時可以回到工作室，稍後再錄製遺漏的範例。

請記下腳本上針對每個語句所花的時間碼或時間。要求工程師在錄製的元數據或提示工作表中標記每個語句。

定期休息，並提供飲料，以説明你的語音人才保持他們的聲音良好的狀態。

會話之後

新式錄音室會在電腦上執行。在會話結束時，您會收到一或多個音訊檔案，而不是磁帶。這些檔案可能是CD品質的WAV或AIFF格式（44.1 KHz 16位）或更高版本。 24 KHz 16 位是常見且理想的。自定義神經語音的預設取樣率為 24 KHz。建議您針對定型數據使用 24 KHz 的取樣率。通常不需要較高的取樣率，例如 96 KHz。

Speech Studio 要求每個提供的語句都位於自己的檔案中。 Studio 所傳遞的每個音訊檔案都包含多個語句。因此，製作後的主要工作是分割錄音，並準備提交。錄製工程師可能會將標記放在檔案中（或提供個別的提示工作表），以指出每個語句的開始位置。

使用您的筆記來尋找您想要的確切取用，然後使用聲音編輯公用程式，例如 Avid Pro Tools、 Adobe Audition 或免費的 Audacity，將每個語句複製到新的檔案中。

仔細聆聽每個檔案。在這個階段，您可以編輯您在錄製期間錯過的小型垃圾聲音，就像一行前輕微的嘴唇嘮叨，但請小心不要移除任何實際的語音。如果您無法修正檔案，請將其從數據集中移除，並請注意您已這麼做。

將每個檔案轉換成 16 位，並在儲存之前取樣率為 24 KHz，如果您錄製了工作室聊天，請移除第二個通道。以WAV格式儲存每個檔案，並使用腳本中的語句號碼命名檔案。

最後，建立文字記錄，讓每個 WAV 檔案與對應語句的文字版本產生關聯。訓練您的語音模型包含所需格式的詳細數據。您可以直接從文稿複製文字。然後建立 WAV 檔案和文字文字記錄的 Zip 檔案。

將原始錄製封存到安全的地方，以防您稍後需要它們。也請保留您的腳本和附註。

下一步

您已準備好上傳錄製內容，並建立您的自定義神經語音。

定型語音模型