Jak vytvořit přepisy označené člověkem

Článek
01/22/2024

Přepisy označené člověkem jsou přepisy zvukových souborů po slovech. Přepisy označené člověkem slouží ke zlepšení přesnosti rozpoznávání, zejména pokud jsou slova odstraněna nebo nesprávně nahrazena. Tato příručka vám pomůže vytvořit vysoce kvalitní přepisy.

K vylepšení rozpoznávání se vyžaduje velký vzorek dat přepisu. Doporučujeme poskytovat 1 až 20 hodin zvukových dat. Služba Speech používá k trénování až 20 hodin zvuku. Tato příručka obsahuje oddíly pro americké angličtinu, mandarínštinu a německé národní prostředí.

Přepisy pro všechny soubory WAV jsou obsaženy v jednom souboru prostého textu (.txt nebo .tsv). Každý řádek souboru přepisu obsahuje název jednoho ze zvukových souborů, za kterými následuje odpovídající přepis. Název souboru a přepis jsou oddělené tabulátorem (\t).

Příklad:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

Přepisy jsou normalizované, aby je systém mohl zpracovat. Před nahráním datové sady však musíte provést několik důležitých normalizací.

Přepisy označené člověkem pro jiné jazyky než angličtinu a mandarínštinu, musí být kódované UTF-8 se značkou pořadí bajtů. Další požadavky na přepis národních prostředí najdete v následujících částech.

cs

Přepisy anglického zvuku označené člověkem musí být poskytovány jako prostý text, a to pouze pomocí znaků ASCII. Nepoužívejte interpunkční znaky latinky a 1 nebo Unicode. Tyto znaky jsou často neúmyslně přidány při kopírování textu z aplikace pro zpracování textu nebo sešrotování dat z webových stránek. Pokud jsou tyto znaky přítomny, nezapomeňte je aktualizovat odpovídající náhradou ASCII.

Tady je pár příkladů:

Znaky, kterým se chcete vyhnout	Substituce	Notes
"Hello world"	Hello world	Levá a pravá uvozovka se nahradí odpovídajícími znaky ASCII.
Den Johna	Den Johna	Apostrof se nahradí odpovídajícím znakem ASCII.
Bylo to dobré- ne, bylo to skvělé!	Bylo to dobré- ne, bylo to skvělé!	Pomlčka je nahrazena dvěma spojovníky.

Normalizace textu pro angličtinu v USA

Normalizace textu je transformace slov do konzistentního formátu používaného při trénování modelu. Některá pravidla normalizace se na text použijí automaticky, ale při přípravě dat přepisu označených lidmi doporučujeme použít tato pravidla:

Napište zkratky slovy.
Zapište nestandardní číselné řetězce ve slovech (například účetní termíny).
Jiné než abecední znaky nebo smíšené alfanumerické znaky by měly být přepisovány jako vyslovované.
Zkratky, které jsou vyslovovány jako slova, by se neměly upravovat (například "radar", "laser", "RAM" nebo "NATO").
Napište zkratky, které jsou vyslovovány jako samostatná písmena s každým písmenem odděleným mezerou.
Pokud použijete zvuk, přepište čísla jako slova, která odpovídají zvuku (například "101" může být vyslovována jako "jedna oh jedna" nebo "jedna stovka a jedna").
Vyhněte se opakování znaků, slov nebo skupin slov více než třikrát, například "ano ano ano". Služba Speech může zahodit řádky s takovým opakováním.

Tady je několik příkladů normalizace, které byste měli provést s přepisem:

Original text	Text po normalizaci (člověk)
Dr. Bruce Banner	Doktor Bruce Banner
James Bond, 007	James Bond, double oh sedm
Ke$ha	Kesha
Jak dlouho je 2x4	Jak dlouho jsou dvě o čtyři
Schůzka chodí od 13:00	Schůzka jde od jednoho do tří hodin.
Můj krevní typ je O+	Můj krevní typ je O pozitivní
Voda je H20	Voda je H 2 O
Play OU812 od Van Halen	Hrát O U 8 1 2 od Van Halen
UTF-8 se značkou pořadí bajtů	U T F 8 s kusovníkem
Stojí 3,14 USD	Stojí tři čtrnácti

Následující pravidla normalizace se automaticky použijí na přepisy:

Používejte malá písmena.
Odeberte všechny interpunkce s výjimkou apostrofů ve slovech.
Rozbalte čísla do slov nebo mluveného tvaru, například částky v dolarech.

Tady je několik příkladů normalizace, které se automaticky provádějí s přepisem:

Original text	Text po normalizaci (automatický)
"Svatá kráva!" řekl Batman.	Svatá kráva řekla batman
"Co?" řekl Batmanův sidekick, Robine.	co řekl Batman's sidekick robin
Jdi si -em!	go get em
Jsem dvojitě zdvojený	Jsem dvojitě zdvojený
104 Ulice Elm	jedna čtyři ulice Elm
Ladění na verzi 102.7	vyladit na jeden oh dva body sedm
Pí je asi 3,14	pí je asi tři body jedna čtyři

de-DE

Přepisy označené člověkem pro německý zvuk musí být kódovány UTF-8 se značkou pořadí bajtů.

Normalizace textu pro němčinu

Zapište desetinné čárky jako ", a ne ".".
Zapište oddělovače času jako ":" a ne "." (například: 12:00 Uhr).
Zkratky jako "ca" se nenahrazovat. Doporučujeme používat plně mluvený formulář.
Odeberou se čtyři hlavní matematické operátory (+, -, *a /). Doporučujeme je nahradit psaným formulářem: "plus", "minus", "mal" a "geteilt".
Relační operátory jsou odebrány (=, <a >). Doporučujeme je nahradit "gleich", "kleiner als" a "grösser als".
Zápis zlomků, například 3/4, v písemné podobě (například : "drei viertel" místo 3/4).
Nahraďte symbol "€" svým písemným tvarem "Euro".

Tady je několik příkladů normalizace, které byste měli provést s přepisem:

Original text	Text po normalizaci uživatele	Text po normalizaci systému
Es ist 12.23 Uhr	Es ist 12:23 Uhr	es ist zwölf uhr drei und zwanzig uhr
{12.45}	{12,45}	zwölf komma vier fünf
2 + 3 - 4	2 plus 3 minus 4	zwei plus drei minus vier

Následující pravidla normalizace se automaticky použijí na přepisy:

Pro veškerý text používejte malá písmena.
Odeberte všechny interpunkce včetně různých typů uvozovek ("test", "test", "test" a «test» jsou OK).
Zahoďte řádky s libovolnými speciálními znaky z této sady: ! ° © ® ± ² μ × ø≉.
Rozbalte čísla do mluveného formuláře, včetně částky v dolarech nebo eurech.
Přijměte jen umlauty pro a, o a vy. Ostatní se nahradí slovem "th" nebo zahodí.

Tady je několik příkladů normalizace, které se automaticky provádějí s přepisem:

Original text	Text po normalizaci
Frankfurter Ring	frankfurter ring
'Eine Frage!	eine frage
Wir, haben	wir haben

ja-JP

V japonštině (ja-JP) je maximální délka 90 znaků pro každou větu. Řádky s delšími větami se zahodí. Pokud chcete přidat delší text, vložte mezi něj tečku.

zh-CN

Přepisy označené člověkem pro mandarínštinu čínského zvuku musí být kódování UTF-8 se značkou pořadí bajtů. Nepoužívejte interpunkční znaky s poloviční šířkou. Tyto znaky je možné zahrnout neúmyslně při přípravě dat v programu pro zpracování slov nebo sešrotování dat z webových stránek. Pokud jsou tyto znaky přítomny, nezapomeňte je aktualizovat odpovídající náhradou za plnou šířku.

Tady je pár příkladů:

Znaky, kterým se chcete vyhnout	Substituce	Notes
"你好"	"你好"	Levá a pravá uvozovka se nahradí příslušnými znaky.
需要什么帮助?	需要什么帮助？	Otazník se nahradí odpovídajícím znakem.

Normalizace textu pro mandarínštinu

Napište zkratky slovy.
Vypište číselné řetězce v mluvené podobě.

Tady je několik příkladů normalizace, které byste měli provést s přepisem:

Original text	Text po normalizaci
我今年 21	我今年二十一
3 号楼 504	三号楼五零四

Následující pravidla normalizace se automaticky použijí na přepisy:

Odeberte veškerou interpunkci.
Rozbalte čísla do mluveného formuláře.
Převeďte písmena s plnou šířkou na písmena s poloviční šířkou.
Použití velkých písmen pro všechna anglická slova

Tady je několik příkladů automatické normalizace přepisu:

Original text	Text po normalizaci
3.1415	三点一四一五
– 3,5	三元五角
w f y z	W F Y Z
1992 年 8 月 8 日	一九九二年八月八日
你吃饭了吗?	你吃饭了吗
下午 5:00 的航班	下午五点的航班
我今年 21 岁	我今年二十一岁

Jak vytvořit přepisy označené člověkem

cs

Normalizace textu pro angličtinu v USA

de-DE

Normalizace textu pro němčinu

ja-JP

zh-CN

Normalizace textu pro mandarínštinu

Další kroky

Další materiály