如何建立人為標記的轉譯

人為標記的轉譯是音訊檔案的逐字轉譯。 您可以使用人為標記的轉譯來改善辨識精確度,尤其是在文字遭到刪除或取代不正確時。 本指南可協助您建立高品質的轉譯。

需要大量謄寫數據樣本,才能改善辨識。 我們建議提供 1 到 20 小時的音訊數據。 語音服務會使用最多 20 小時的音訊進行訓練。 本指南有美式英文、中文和德文地區設定的章節。

所有 WAV 檔案的轉錄內容皆應包含在單一純文字檔案中 (.txt or .tsv)。 轉譯檔案的每一行都包含其中一個音訊檔案的名稱,後面接著對應的轉譯。 檔名和轉譯會以索引標籤 (\t) 分隔。

例如:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

文字轉譯會正規化,讓系統可以處理這些文字。 不過,您必須先執行一些重要的正規化,才能上傳數據集。

英文和普通話以外的語言人類標記轉譯,必須是以位元組順序標記編碼的UTF-8。 如需其他地區設定轉譯需求,請參閱下列各節。

zh-TW

只有使用 ASCII 字元,才能以純文字形式提供英文音訊的人工標記轉譯。 避免使用 Latin-1 或 Unicode 標點符號字元。 從文字處理應用程式複製文字或從網頁擷取數據時,通常會不小心新增這些字元。 如果存在這些字元,請務必使用適當的 ASCII 替代來更新它們。

以下是一些範例:

要避免的字元 Substitution 備註
“Hello world” "Hello world" 開頭和結尾引號會以適當的 ASCII 字元取代。
約翰的一天 約翰的一天 單引號會取代為適當的 ASCII 字元。
很好— 不, 太好了! 太好了,不,太好了! em dash 會以兩個連字元取代。

美式英文的文字正規化

文字正規化是將文字轉換成定型模型時所使用的一致格式。 不過,某些正規化規則會自動套用至文字,不過,當您準備人工標記的轉譯數據時,建議您使用這些指導方針:

  • 用文字寫出縮寫。
  • 以單字寫出非標準數值字串(例如會計詞彙)。
  • 非字母字元或混合英數位元應轉譯為發音。
  • 不應編輯發音為單字的縮寫(例如“雷達”、“鐳射”、“RAM”或“北約”)。
  • 寫出發音為個別字母的縮寫,每個字母都以空格分隔。
  • 如果您使用音訊,將數位轉譯為符合音訊的文字(例如,“101”可以發音為“一哦一”或“一百一個”。
  • 避免重複字元、單字或單字群組三次以上,例如「是是是」。 語音服務可能會卸除具有這類重複的行。

以下是您應該在轉譯上執行的一些正規化範例:

Original text 正規化後的文字 (人類)
布魯斯·橫幅博士 布魯斯醫生橫幅
詹姆斯·邦德,007 詹姆斯·邦德,雙哦七
Ke$ha Kesha
2x4 的長度 兩到四個多久
會議從下午 1 點到 3 點舉行 會議從下午一到三點
我的血型是 O+ 我的血型是 O 陽性
水是 H20 水是 H 2 O
Play OU812 by Van Halen 播放 O U 8 1 2 由范海倫
具有 BOM 的 UTF-8 U T F 8 與 BOM
成本 $3.14 成本為314

下列正規化規則會自動套用至轉譯:

  • 使用小寫字母。
  • 拿掉單字內單引號以外的所有標點符號。
  • 將數字展開成單字/口語形式,例如美元金額。

以下是自動在轉譯上自動執行的一些正規化範例:

Original text 正規化後的文字 (自動)
“聖牛! 聖牛說蝙蝠俠
“什麼? 什麼說蝙蝠俠的側邊克羅賓
去取得 -em! go get em
我雙關節 我雙關節
104 埃爾姆街 一哦四埃爾姆街
微調為 102.7 微調到一哦二分七
Pi 大約 3.14 pi 大約三分一四

de-DE

德文音頻的人類標記轉譯必須是以位元組順序標記編碼的 UTF-8。

德文文字正規化

文字正規化是將文字轉換成定型模型時所使用的一致格式。 不過,某些正規化規則會自動套用至文字,不過,當您準備人工標記的轉譯數據時,建議您使用這些指導方針:

  • 將小數點寫入為 “,”,而不是 “.”。
  • 將時間分隔符寫入為 “:” 而非 “”。(例如:12:00 Uhr)。
  • 不會取代 「ca.」 等縮寫。 我們建議您使用完整的口語形式。
  • 移除四個主要數學運算子 (+、-、*和 /) 。 我們建議以書面形式取代它們:「加號」、「減號」、“mal”和“geteilt”。
  • 比較運算子會移除 (=、 <、 和 >)。 建議使用 「gleich」、“kleiner als” 和 “grösser als” 取代它們。
  • 以書面形式寫分數,例如 3/4(例如:“drei viertel”,而不是 3/4)。
  • 以 「Euro」 的書面形式取代 「€」 符號。

以下是您應該在轉譯上執行的一些正規化範例:

Original text 用戶正規化后的文字 系統正規化后的文字
Es ist 12.23 Uhr Es ist 12:23 Uhr es ist zwölf uhr drei und zwanzig uhr
{12.45} {12,45} zwölf komma vier fünf
2 + 3 - 4 2 加 3 減 4 zwei plus drei 減去維爾

下列正規化規則會自動套用至轉譯:

  • 針對所有文字使用小寫字母。
  • 拿掉所有標點符號,包括各種類型的引號(“test”、“test'、”test“和 «test» 都沒問題)。
  • 捨棄此集合中任何特殊字元的數據列: ¢ ¦ ± ª © ª ! ® ー μ × ÿ Ø.
  • 將數位擴大為口語形式,包括美元或歐元金額。
  • 只接受 、o 和您的 umlauts。 其他則由 「th」 取代或捨棄。

以下是自動在轉譯上自動執行的一些正規化範例:

Original text 正規化后的文字
法蘭克福環 法蘭克福環
•Eine Frage! eine frage
Wir、haben wir haben

ja-JP

在日文 (ja-JP) 中,每個句子的長度上限為 90 個字元。 會捨棄具有較長句子的行。 若要新增較長的文字,請在 之間插入句點。

zh-CN

中文音訊的人類標記轉譯必須是以位元組順序標記編碼的UTF-8。 避免使用半角標點符號字元。 當您在文字處理程式中準備數據,或從網頁擷取數據時,可能會不小心包含這些字元。 如果這些字元存在,請務必使用適當的全角替代來更新它們。

以下是一些範例:

要避免的字元 Substitution 備註
“你好” “你好” 開頭和結尾引號會以適當的字元取代。
需要什麼説明? 需要什麼説明? 問號會以適當的字元取代。

中文文字正規化

文字正規化是將文字轉換成定型模型時所使用的一致格式。 不過,某些正規化規則會自動套用至文字,不過,當您準備人工標記的轉譯數據時,建議您使用這些指導方針:

  • 用文字寫出縮寫。
  • 以口語形式寫出數值字串。

以下是您應該在轉譯上執行的一些正規化範例:

Original text 正規化后的文字
我今年 21 我今年二十一
3 號樓 504 三號 樓 五 零 四

下列正規化規則會自動套用至轉譯:

  • 拿掉所有標點符號。
  • 將數字展開為口語形式。
  • 將全角字母轉換為半角字母。
  • 針對所有英文單字使用大寫字母。

以下是自動轉譯正規化的一些範例:

Original text 正規化后的文字
3.1415 三 點 一 四 一 五
¥ 3.5 三 元 五 角
w f y z W F Y Z
1992 年 8 月 8 日 一九 九 二 年 八 月 八 日
你吃飯了嗎? 你 吃飯 了 嗎
下午 5:00 的航班 下午 五點 的航班
我今年21歲 我 今年二十 一 歲

後續步驟