如何建立人為標記的轉譯

發行項
01/22/2024

人為標記的轉譯是音訊檔案的逐字轉譯。您可以使用人為標記的轉譯來改善辨識精確度，尤其是在文字遭到刪除或取代不正確時。本指南可協助您建立高品質的轉譯。

需要大量謄寫數據樣本，才能改善辨識。我們建議提供 1 到 20 小時的音訊數據。語音服務會使用最多 20 小時的音訊進行訓練。本指南有美式英文、中文和德文地區設定的章節。

所有 WAV 檔案的轉錄內容皆應包含在單一純文字檔案中 (.txt or .tsv)。轉譯檔案的每一行都包含其中一個音訊檔案的名稱，後面接著對應的轉譯。檔名和轉譯會以索引標籤（\t）分隔。

例如：

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

文字轉譯會正規化，讓系統可以處理這些文字。不過，您必須先執行一些重要的正規化，才能上傳數據集。

英文和普通話以外的語言人類標記轉譯，必須是以位元組順序標記編碼的UTF-8。如需其他地區設定轉譯需求，請參閱下列各節。

zh-TW

只有使用 ASCII 字元，才能以純文字形式提供英文音訊的人工標記轉譯。避免使用 Latin-1 或 Unicode 標點符號字元。從文字處理應用程式複製文字或從網頁擷取數據時，通常會不小心新增這些字元。如果存在這些字元，請務必使用適當的 ASCII 替代來更新它們。

以下是一些範例：

要避免的字元	Substitution	備註
“Hello world”	"Hello world"	開頭和結尾引號會以適當的 ASCII 字元取代。
約翰的一天	約翰的一天	單引號會取代為適當的 ASCII 字元。
很好— 不，太好了！	太好了，不，太好了！	em dash 會以兩個連字元取代。

美式英文的文字正規化

文字正規化是將文字轉換成定型模型時所使用的一致格式。不過，某些正規化規則會自動套用至文字，不過，當您準備人工標記的轉譯數據時，建議您使用這些指導方針：

用文字寫出縮寫。
以單字寫出非標準數值字串（例如會計詞彙）。
非字母字元或混合英數位元應轉譯為發音。
不應編輯發音為單字的縮寫（例如“雷達”、“鐳射”、“RAM”或“北約”）。
寫出發音為個別字母的縮寫，每個字母都以空格分隔。
如果您使用音訊，將數位轉譯為符合音訊的文字（例如，“101”可以發音為“一哦一”或“一百一個”。
避免重複字元、單字或單字群組三次以上，例如「是是是」。語音服務可能會卸除具有這類重複的行。

以下是您應該在轉譯上執行的一些正規化範例：

Original text	正規化後的文字（人類）
布魯斯·橫幅博士	布魯斯醫生橫幅
詹姆斯·邦德，007	詹姆斯·邦德，雙哦七
Ke$ha	Kesha
2x4 的長度	兩到四個多久
會議從下午 1 點到 3 點舉行	會議從下午一到三點
我的血型是 O+	我的血型是 O 陽性
水是 H20	水是 H 2 O
Play OU812 by Van Halen	播放 O U 8 1 2 由范海倫
具有 BOM 的 UTF-8	U T F 8 與 BOM
成本 $3.14	成本為314

下列正規化規則會自動套用至轉譯：

使用小寫字母。
拿掉單字內單引號以外的所有標點符號。
將數字展開成單字/口語形式，例如美元金額。

以下是自動在轉譯上自動執行的一些正規化範例：

Original text	正規化後的文字（自動）
“聖牛！	聖牛說蝙蝠俠
“什麼？	什麼說蝙蝠俠的側邊克羅賓
去取得 -em！	go get em
我雙關節	我雙關節
104 埃爾姆街	一哦四埃爾姆街
微調為 102.7	微調到一哦二分七
Pi 大約 3.14	pi 大約三分一四

de-DE

德文音頻的人類標記轉譯必須是以位元組順序標記編碼的 UTF-8。

德文文字正規化

將小數點寫入為 “，”，而不是 “.”。
將時間分隔符寫入為 “：” 而非 “”。（例如：12：00 Uhr）。
不會取代「ca.」等縮寫。我們建議您使用完整的口語形式。
移除四個主要數學運算子（+、-、*和 /）。我們建議以書面形式取代它們：「加號」、「減號」、“mal”和“geteilt”。
比較運算子會移除（=、 <、和 >）。建議使用「gleich」、“kleiner als” 和 “grösser als” 取代它們。
以書面形式寫分數，例如 3/4（例如：“drei viertel”，而不是 3/4）。
以「Euro」的書面形式取代「€」符號。

以下是您應該在轉譯上執行的一些正規化範例：

Original text	用戶正規化后的文字	系統正規化后的文字
Es ist 12.23 Uhr	Es ist 12：23 Uhr	es ist zwölf uhr drei und zwanzig uhr
{12.45}	{12,45}	zwölf komma vier fünf
2 + 3 - 4	2 加 3 減 4	zwei plus drei 減去維爾

下列正規化規則會自動套用至轉譯：

針對所有文字使用小寫字母。
拿掉所有標點符號，包括各種類型的引號（“test”、“test'、”test“和 «test» 都沒問題）。
捨棄此集合中任何特殊字元的數據列： ¢ ¦ ± ª © ª ！ ® ー μ × ÿ Ø.
將數位擴大為口語形式，包括美元或歐元金額。
只接受、o 和您的 umlauts。其他則由「th」取代或捨棄。

以下是自動在轉譯上自動執行的一些正規化範例：

Original text	正規化后的文字
法蘭克福環	法蘭克福環
•Eine Frage！	eine frage
Wir、haben	wir haben

ja-JP

在日文（ja-JP）中，每個句子的長度上限為 90 個字元。會捨棄具有較長句子的行。若要新增較長的文字，請在之間插入句點。

zh-CN

中文音訊的人類標記轉譯必須是以位元組順序標記編碼的UTF-8。避免使用半角標點符號字元。當您在文字處理程式中準備數據，或從網頁擷取數據時，可能會不小心包含這些字元。如果這些字元存在，請務必使用適當的全角替代來更新它們。

以下是一些範例：

要避免的字元	Substitution	備註
“你好”	“你好”	開頭和結尾引號會以適當的字元取代。
需要什麼説明？	需要什麼説明？	問號會以適當的字元取代。

中文文字正規化

用文字寫出縮寫。
以口語形式寫出數值字串。

以下是您應該在轉譯上執行的一些正規化範例：

Original text	正規化后的文字
我今年 21	我今年二十一
3 號樓 504	三號樓五零四

下列正規化規則會自動套用至轉譯：

拿掉所有標點符號。
將數字展開為口語形式。
將全角字母轉換為半角字母。
針對所有英文單字使用大寫字母。

以下是自動轉譯正規化的一些範例：

Original text	正規化后的文字
3.1415	三點一四一五
¥ 3.5	三元五角
w f y z	W F Y Z
1992 年 8 月 8 日	一九九二年八月八日
你吃飯了嗎？	你吃飯了嗎
下午 5：00 的航班	下午五點的航班
我今年21歲	我今年二十一歲

如何建立人為標記的轉譯

zh-TW

美式英文的文字正規化

de-DE

德文文字正規化

ja-JP

zh-CN

中文文字正規化

後續步驟

其他資源