如何建立人為標記的轉譯
人為標記的轉譯是音訊檔案的逐字轉譯。 您可以使用人為標記的轉譯來改善辨識精確度,尤其是在文字遭到刪除或取代不正確時。 本指南可協助您建立高品質的轉譯。
需要大量謄寫數據樣本,才能改善辨識。 我們建議提供 1 到 20 小時的音訊數據。 語音服務會使用最多 20 小時的音訊進行訓練。 本指南有美式英文、中文和德文地區設定的章節。
所有 WAV 檔案的轉錄內容皆應包含在單一純文字檔案中 (.txt or .tsv)。 轉譯檔案的每一行都包含其中一個音訊檔案的名稱,後面接著對應的轉譯。 檔名和轉譯會以索引標籤 (\t
) 分隔。
例如:
speech01.wav speech recognition is awesome
speech02.wav the quick brown fox jumped all over the place
speech03.wav the lazy dog was not amused
文字轉譯會正規化,讓系統可以處理這些文字。 不過,您必須先執行一些重要的正規化,才能上傳數據集。
英文和普通話以外的語言人類標記轉譯,必須是以位元組順序標記編碼的UTF-8。 如需其他地區設定轉譯需求,請參閱下列各節。
zh-TW
只有使用 ASCII 字元,才能以純文字形式提供英文音訊的人工標記轉譯。 避免使用 Latin-1 或 Unicode 標點符號字元。 從文字處理應用程式複製文字或從網頁擷取數據時,通常會不小心新增這些字元。 如果存在這些字元,請務必使用適當的 ASCII 替代來更新它們。
以下是一些範例:
要避免的字元 | Substitution | 備註 |
---|---|---|
“Hello world” | "Hello world" | 開頭和結尾引號會以適當的 ASCII 字元取代。 |
約翰的一天 | 約翰的一天 | 單引號會取代為適當的 ASCII 字元。 |
很好— 不, 太好了! | 太好了,不,太好了! | em dash 會以兩個連字元取代。 |
美式英文的文字正規化
文字正規化是將文字轉換成定型模型時所使用的一致格式。 不過,某些正規化規則會自動套用至文字,不過,當您準備人工標記的轉譯數據時,建議您使用這些指導方針:
- 用文字寫出縮寫。
- 以單字寫出非標準數值字串(例如會計詞彙)。
- 非字母字元或混合英數位元應轉譯為發音。
- 不應編輯發音為單字的縮寫(例如“雷達”、“鐳射”、“RAM”或“北約”)。
- 寫出發音為個別字母的縮寫,每個字母都以空格分隔。
- 如果您使用音訊,將數位轉譯為符合音訊的文字(例如,“101”可以發音為“一哦一”或“一百一個”。
- 避免重複字元、單字或單字群組三次以上,例如「是是是」。 語音服務可能會卸除具有這類重複的行。
以下是您應該在轉譯上執行的一些正規化範例:
Original text | 正規化後的文字 (人類) |
---|---|
布魯斯·橫幅博士 | 布魯斯醫生橫幅 |
詹姆斯·邦德,007 | 詹姆斯·邦德,雙哦七 |
Ke$ha | Kesha |
2x4 的長度 | 兩到四個多久 |
會議從下午 1 點到 3 點舉行 | 會議從下午一到三點 |
我的血型是 O+ | 我的血型是 O 陽性 |
水是 H20 | 水是 H 2 O |
Play OU812 by Van Halen | 播放 O U 8 1 2 由范海倫 |
具有 BOM 的 UTF-8 | U T F 8 與 BOM |
成本 $3.14 | 成本為314 |
下列正規化規則會自動套用至轉譯:
- 使用小寫字母。
- 拿掉單字內單引號以外的所有標點符號。
- 將數字展開成單字/口語形式,例如美元金額。
以下是自動在轉譯上自動執行的一些正規化範例:
Original text | 正規化後的文字 (自動) |
---|---|
“聖牛! | 聖牛說蝙蝠俠 |
“什麼? | 什麼說蝙蝠俠的側邊克羅賓 |
去取得 -em! | go get em |
我雙關節 | 我雙關節 |
104 埃爾姆街 | 一哦四埃爾姆街 |
微調為 102.7 | 微調到一哦二分七 |
Pi 大約 3.14 | pi 大約三分一四 |
de-DE
德文音頻的人類標記轉譯必須是以位元組順序標記編碼的 UTF-8。
德文文字正規化
文字正規化是將文字轉換成定型模型時所使用的一致格式。 不過,某些正規化規則會自動套用至文字,不過,當您準備人工標記的轉譯數據時,建議您使用這些指導方針:
- 將小數點寫入為 “,”,而不是 “.”。
- 將時間分隔符寫入為 “:” 而非 “”。(例如:12:00 Uhr)。
- 不會取代 「ca.」 等縮寫。 我們建議您使用完整的口語形式。
- 移除四個主要數學運算子 (+、-、*和 /) 。 我們建議以書面形式取代它們:「加號」、「減號」、“mal”和“geteilt”。
- 比較運算子會移除 (=、 <、 和 >)。 建議使用 「gleich」、“kleiner als” 和 “grösser als” 取代它們。
- 以書面形式寫分數,例如 3/4(例如:“drei viertel”,而不是 3/4)。
- 以 「Euro」 的書面形式取代 「€」 符號。
以下是您應該在轉譯上執行的一些正規化範例:
Original text | 用戶正規化后的文字 | 系統正規化后的文字 |
---|---|---|
Es ist 12.23 Uhr | Es ist 12:23 Uhr | es ist zwölf uhr drei und zwanzig uhr |
{12.45} | {12,45} | zwölf komma vier fünf |
2 + 3 - 4 | 2 加 3 減 4 | zwei plus drei 減去維爾 |
下列正規化規則會自動套用至轉譯:
- 針對所有文字使用小寫字母。
- 拿掉所有標點符號,包括各種類型的引號(“test”、“test'、”test“和 «test» 都沒問題)。
- 捨棄此集合中任何特殊字元的數據列: ¢ ¦ ± ª © ª ! ® ー μ × ÿ Ø.
- 將數位擴大為口語形式,包括美元或歐元金額。
- 只接受 、o 和您的 umlauts。 其他則由 「th」 取代或捨棄。
以下是自動在轉譯上自動執行的一些正規化範例:
Original text | 正規化后的文字 |
---|---|
法蘭克福環 | 法蘭克福環 |
•Eine Frage! | eine frage |
Wir、haben | wir haben |
ja-JP
在日文 (ja-JP) 中,每個句子的長度上限為 90 個字元。 會捨棄具有較長句子的行。 若要新增較長的文字,請在 之間插入句點。
zh-CN
中文音訊的人類標記轉譯必須是以位元組順序標記編碼的UTF-8。 避免使用半角標點符號字元。 當您在文字處理程式中準備數據,或從網頁擷取數據時,可能會不小心包含這些字元。 如果這些字元存在,請務必使用適當的全角替代來更新它們。
以下是一些範例:
要避免的字元 | Substitution | 備註 |
---|---|---|
“你好” | “你好” | 開頭和結尾引號會以適當的字元取代。 |
需要什麼説明? | 需要什麼説明? | 問號會以適當的字元取代。 |
中文文字正規化
文字正規化是將文字轉換成定型模型時所使用的一致格式。 不過,某些正規化規則會自動套用至文字,不過,當您準備人工標記的轉譯數據時,建議您使用這些指導方針:
- 用文字寫出縮寫。
- 以口語形式寫出數值字串。
以下是您應該在轉譯上執行的一些正規化範例:
Original text | 正規化后的文字 |
---|---|
我今年 21 | 我今年二十一 |
3 號樓 504 | 三號 樓 五 零 四 |
下列正規化規則會自動套用至轉譯:
- 拿掉所有標點符號。
- 將數字展開為口語形式。
- 將全角字母轉換為半角字母。
- 針對所有英文單字使用大寫字母。
以下是自動轉譯正規化的一些範例:
Original text | 正規化后的文字 |
---|---|
3.1415 | 三 點 一 四 一 五 |
¥ 3.5 | 三 元 五 角 |
w f y z | W F Y Z |
1992 年 8 月 8 日 | 一九 九 二 年 八 月 八 日 |
你吃飯了嗎? | 你 吃飯 了 嗎 |
下午 5:00 的航班 | 下午 五點 的航班 |
我今年21歲 | 我 今年二十 一 歲 |