Jak vytvořit přepisy s lidským popiskem
Přepisy na základě lidského textu jsou přepisem zvukového souboru. K vylepšení přesnosti rozpoznávání můžete použít přepisy, zejména pokud jsou slova odstraněna nebo nesprávně nahrazena.
Pro zlepšení rozpoznávání je nutná velká ukázka dat přepisu. Doporučujeme, abyste zavedli 1 až 20 hodin přepisu dat. Služba řeči bude používat až 20 hodin zvukového školení. Na této stránce si ukážeme pokyny, které vám pomůžou vytvořit vysoce kvalitní přepisy. Tato příručka je rozdělená podle národního prostředí s oddíly pro AMERICKou angličtinu, Mandarinii, čínskou a Německo.
Poznámka
Ne všechny základní modely podporují přizpůsobení se zvukovými soubory. Pokud základní model ho nepodporuje, školení použije pouze text přepisů stejným způsobem jako v případě použití souvisejícího textu. Seznam základních modelů, které podporují školení se zvukovými daty, najdete v tématu jazyková podpora .
Poznámka
V případech, kdy změníte základní model používaný pro školení a máte zvuk v datové sadě školení, vždy ověřte, zda nový vybraný základní model podporuje školení se zvukovými daty. Pokud dřív použitý základní model nepodporoval školení se zvukovými daty a datová sada pro školení obsahuje zvuk, může se výrazně zvýšit doba školení s novým základním modelem a může se stát, že budete moct snadno přejít z několika hodin na několik dní. To platí hlavně v případě, že vaše předplatné služby Speech není v oblasti s vyhrazeným hardwarem pro školení.
Pokud se setkáte s problémem popsaným v předchozím odstavci, můžete rychle zkrátit dobu školení tím, že snížíte velikost zvuku v datové sadě nebo zcela odeberete a necháte jenom text. Tato možnost se důrazně doporučuje, pokud vaše předplatné služby Speech není v oblasti s vyhrazeným hardwarem pro školení.
USA – angličtina (EN-US)
Přepisy v angličtině pro angličtinu musí být zadány jako prostý text, a to pouze pomocí znaků ASCII. Vyhněte se použití interpunkčních znamének s latinkou 1 nebo Unicode. Tyto znaky jsou často nechtěně přidány při kopírování textu z aplikace pro zpracování textu nebo z dat z webových stránek. Pokud jsou tyto znaky k dispozici, nezapomeňte je aktualizovat pomocí odpovídající náhrady ASCII.
Tady je pár příkladů:
| Znaky, které se mají zabránit | Substituce | Poznámky |
|---|---|---|
| Hello World | Hello world | Levé a pravé uvozovky se nahradily odpovídajícími znaky ASCII. |
| Den Jan | Den Jan | Apostrof byl nahrazen příslušným znakem ASCII. |
| To bylo dobré – ne, bylo skvělé! | je dobrá – ne, bylo skvělé! | Em pomlčka byla nahrazena dvěma pomlčkami. |
Normalizace textu pro AMERICKou angličtinu
Normalizace textu je transformace slov do konzistentního formátu, který se používá při výuce modelu. Některá pravidla normalizace se aplikují na text automaticky, doporučujeme ale tyto pokyny použít při přípravě dat přepisu na základě popisku:
- Vypište zkratky v slovech.
- Vypište nestandardní číselné řetězce v slovech (například účetní termíny).
- Neabecední znaky nebo smíšené alfanumerické znaky by měly být přepisu jako vyslovované.
- Zkratky, které jsou vyslovované jako slova, by se neměly upravovat (například "paprsky", "Laser", "RAM" nebo "NATO").
- Odpište zkratky, které jsou vyslovované jako samostatná písmena s každým písmenem oddělené mezerou.
- Pokud používáte zvuk, přepisovat čísla jako slova, která se shodují se zvukem (například "101" může být VYSLOVNÉ jako "1 0 1" nebo "101").
- Vyhněte se opakovaným znakům, slovům nebo skupinám slov více než třikrát, například "Ano Ano Ano". V případě, že služba rozpoznávání řeči může vyřadit řádky s takovými opakováními.
Tady je několik příkladů normalizace, které byste měli provést na přepisu:
| Původní text | Text po normalizaci (lidské) |
|---|---|
| Banner Dr. Bruce | Bruce banner pro lékaře |
| Jan dluhopis, 007 | Jan dluhopis, dvojitý Oh 7 |
| Ke $ ha | Kesha |
| Jak dlouho je 2x4 | Jak dlouho jsou dva čtyři |
| Schůzka směřuje z 1 – 3pm | Schůzka bude směrována z jedné na tři odpoledne. |
| Moje krevní typ je O + | Můj typ krevního typu je O kladné |
| Voda je H20 | Voda je H 2 O |
| Hraní OU812 po Van Halen | Přehrát O U 8 1 2 od Van Halen |
| UTF-8 s BOM | U T F 8 pomocí kusovníku |
| Náklady na IT $ 3,14 | Náklady na IT 3 14 |
Následující pravidla normalizace se automaticky aplikují na Přepisy:
- Používejte malá písmena.
- Odebrat všechna interpunkční znaménka s výjimkou apostrofů v rámci slov.
- Rozbalí čísla do slov nebo mluveného formuláře, jako jsou třeba částky dolaru.
Tady je několik příkladů normalizace, které se automaticky provedou na přepisu:
| Původní text | Text po normalizaci (automaticky) |
|---|---|
| "Svatý kráva" zmíněné Batman. | Svatý kráva, na kterou se říká Batman |
| "Co?" v tomto Batman je to Sidekick, Robin. | Co říká dotaz na Batman – Sidekick |
| Získat – em! | získat em |
| Já jsem se zdvojnásobil | Jsem se zdvojnásobil |
| ELM ulice 104 | ELM ulice 1 0 4 |
| Vylaďte 102,7 | vyladit až 1 0 2 bodů 7 |
| Pi má přibližně 3,14 | Pi má přibližně tři body 1 4 |
Mandarin čínština (zh-CN)
Přepisy na základě popisku pro formát mandarinek pro lidskou čínštinu musí mít kódování UTF-8 s označením pořadí bajtů. Vyhněte se použití interpunkčních znamének s poloviční šířkou. Tyto znaky mohou být neúmyslně zahrnuty při přípravě dat v programu pro zpracování textu nebo při vynechání dat z webových stránek. Pokud jsou tyto znaky k dispozici, nezapomeňte je aktualizovat o příslušnou substituci s plnou šířkou.
Tady je pár příkladů:
| Znaky, které je zabraňte | Substituce | Poznámky |
|---|---|---|
| "你好" | "你好" | Počáteční a uzavírací uvozovky byly nahrazeny příslušnými znaky. |
| 需要什么帮助? | 需要什么帮助? | Otazník byl nahrazen odpovídajícím znakem. |
Normalizace textu pro mandarínštinu
Normalizace textu je transformace slov do konzistentního formátu používaného při trénování modelu. Některá pravidla normalizace se na text aplikují automaticky, ale při přípravě dat přepisu označených člověkem doporučujeme používat tyto pokyny:
- Vypište zkratky slovy.
- Vypište číselné řetězce v mluvené podobě.
Tady je několik příkladů normalizace, kterou byste měli s přepisem provést:
| Původní text | Text po normalizaci |
|---|---|
| 我今年 21 | 我今年二十一 |
| 3 号楼 504 | 三号 楼 五 零 四 |
Na přepisy se automaticky aplikují následující pravidla normalizace:
- Odebrání všech interpunkčních interpunkcí
- Rozbalení čísel do mluveného formuláře
- Převod písmen s plnou šířkou na písmena s poloviční šířkou
- Použití velkých písmen u všech anglických slov
Tady je několik příkladů automatické normalizace přepisu:
| Původní text | Text po normalizaci |
|---|---|
| 3.1415 | 三 点 一 四 一 五 |
| – 3,5 | 三 元 五 角 |
| w f y z | W F Y Z |
| 1992 年 8 月 8 日 | 一 九 九 二 年 八 月 八 日 |
| 你吃饭了吗? | 你 吃饭 了 吗 |
| 下午 5:00 的航班 | 下午 五点 的 航班 |
| 我今年 21 岁 | 我 今年 二十 一 岁 |
Němčina (de-DE) a další jazyky
Přepisy pro německý zvuk (a jiné jazyky mimo angličtinu nebo mandarínštinu) musí být kódované pomocí UTF-8 se značkou pořadí bajtů. Pro každý zvukový soubor by měl být k dispozici jeden přepis označený člověkem.
Normalizace textu pro němčinu
Normalizace textu je transformace slov do konzistentního formátu používaného při trénování modelu. Některá pravidla normalizace se na text aplikují automaticky, ale při přípravě dat přepisu označených člověkem doporučujeme používat tyto pokyny:
- Zapište desetinné čárky jako "," a ne ".".
- Oddělovače času zápisu jako ":" a ne "." (například 12:00 Uhr).
- Zkratky jako "ca." nejsou nahrazeny. Doporučujeme použít plně mluvený formulář.
- Čtyři hlavní matematické operátory (+, -, * a /) jsou odebrány. Doporučujeme je nahradit napsaným formulářem: "plus", "minus", "mal" a "geteilt".
- Operátory porovnání jsou odebrány (=, < a >). Doporučujeme je nahradit za "gleich", "gleich", "užer als" a "grösser als".
- Zapisování zlomků, například 3/4, v zapsané podobě (například: "viertel" místo 3/4).
- Nahraďte symbol "™" svým psaný tvarem "Euro".
Tady je několik příkladů normalizace, kterou byste měli s přepisem provést:
| Původní text | Text po normalizaci uživatele | Text po normalizaci systému |
|---|---|---|
| Es ist 12.23 Uhr | Es ist 12:23 Uhr | es ist zw přediměs uhr drei und zwan jejich uhr |
| {12.45} | {12,45} | zw jejich komma vier přichytávku |
| 2 + 3 - 4 | 2 plus 3 minus 4 | zwei plus drei minus vier |
Na přepisy se automaticky aplikují následující pravidla normalizace:
- Pro veškerý text používejte malá písmena.
- Odeberte všechu interpunkci, včetně různých typů uvozovek ("test", "test", "test" a «test», jsou OK).
- Zahodí řádky s libovolnými speciálními znaky z této sady μ × ± ® ©:
- Rozbalte čísla do mluveného tvaru, včetně částky v dolarech nebo eurech.
- Přijímat umlauty pouze pro , o a vás. Ostatní se nahradí "th" nebo se zahodí.
Tady je několik příkladů normalizace, která se automaticky provádí s přepisem:
| Původní text | Text po normalizaci |
|---|---|
| Kaskádový okruh | užísný okruh |
| Jejich nádr. | eine jejich posíl |
| Wir,en | wir 1en |
Normalizace textu pro japonštinu
V japonštině (ja-JP) je pro každou větu maximální délka 90 znaků. Řádky s delšími větami se zahodí. Pokud chcete přidat delší text, vložte tečku mezi.