Trénování dat pro vlastní neurální hlas

Až budete připravení vytvořit vlastní hlasový hlas pro převod textu na řeč pro vaši aplikaci, je prvním krokem shromáždění zvukových nahrávek a přidružených skriptů pro zahájení trénování hlasového modelu. Služba Speech používá tato data k vytvoření jedinečného hlasu vyladěného tak, aby odpovídala hlasu v záznamech. Po vytrénování hlasu můžete v aplikacích začít syntetizovat řeč.

Tip

Pokud chcete vytvořit hlas pro produkční použití, doporučujeme použít profesionální nahrávací studio a hlasový talent. Další informace najdete v tématu záznamu hlasových ukázek pro vytvoření vlastního neurálního hlasu.

Typy trénovacích dat

Datová sada pro trénování hlasu zahrnuje zvukové nahrávky a textový soubor s přidruženými přepisy. Každý zvukový soubor by měl obsahovat jednu promluvu (jednu větu nebo jednu větu pro dialogový systém) a měla by být kratší než 15 sekund.

V některých případech možná nemáte připravenou správnou datovou sadu. Vlastní neurální hlasové trénování můžete otestovat pomocí dostupných zvukových souborů, krátkých nebo dlouhých, s přepisem nebo bez nich.

V této tabulce jsou uvedeny datové typy a způsob použití jednotlivých datových typů k vytvoření vlastního modelu převodu textu na řeč.

Datový typ Popis Vhodné použití služby Vyžaduje se dodatečné zpracování.
Jednotlivé promluvy + odpovídající přepis Kolekce zvukových souborů (.zip) (.wav) jako jednotlivých promluv. Každý zvukový soubor by měl mít délku 15 sekund nebo méně, spárovaný s formátovaným přepisem (.txt). Profesionální nahrávky s odpovídajícími přepisy Připraveno na trénování.
Dlouhý zvuk + přepis Kolekce (.zip) dlouhých, nesegmentovaných zvukových souborů (.wav nebo .mp3, maximálně 20 sekund, maximálně 1000 zvukových souborů), spárovaných s kolekcí (.zip) přepisů, které obsahují všechna mluvená slova. Máte zvukové soubory a odpovídající přepisy, ale nejsou segmentované do promluv. Segmentace (pomocí dávkového přepisu)
Transformace formátu zvuku bez ohledu na to, kde je to potřeba.
Pouze zvuk (Preview) Kolekce zvukových souborů (.zip) (.wav nebo .mp3, maximálně 1000 zvukových souborů) bez přepisu. Máte k dispozici jenom zvukové soubory bez přepisů. Segmentace + generování přepisu (pomocí dávkového přepisu)
Transformace formátu zvuku bez ohledu na to, kde je to potřeba.

Soubory by se měly seskupit podle typu do datové sady a nahrát jako soubor ZIP. Každá datová sada může obsahovat pouze jeden datový typ.

Poznámka:

Maximální počet datových sad, které je možné importovat na jedno předplatné, je 500 souborů ZIP pro standardní uživatele předplatného (S0).

Jednotlivé promluvy + odpovídající přepis

Nahrávky jednotlivých promluv a odpovídající přepis můžete připravit dvěma způsoby. Buď napište skript a nechte ho číst hlasovým talentem , nebo použijte veřejně dostupný zvuk a přepište ho na text. Pokud to uděláte takhle, upravte nepovolené zvukové soubory, například "um" a další zvuky výplní, koktání, ztlumená slova nebo chybné výslovnosti.

Pokud chcete vytvořit dobrý hlasový model, vytvořte nahrávky v tiché místnosti s vysoce kvalitním mikrofonem. Je nezbytné zajistit konzistentní hlasitost, rychlost mluvení, projevující se řeč a výrazné způsobování řeči.

Příklady formátu dat najdete v ukázkové trénovací sadě na GitHubu. Ukázková trénovací sada obsahuje ukázkový skript a přidružený zvuk.

Zvuková data pro jednotlivé promluvy + odpovídající přepis

Každý zvukový soubor by měl obsahovat jednu promluvu (jednu větu nebo jeden tah dialogového systému), kratší než 15 sekund. Všechny soubory musí být ve stejném mluveném jazyce. Vícejazyčné vlastní hlasy převodu textu na řeč se nepodporují, s výjimkou dvoujazyčného jazyka v čínštině. Každý zvukový soubor musí mít jedinečný název souboru s příponou názvu souboru .wav.

Při přípravě zvuku postupujte podle těchto pokynů.

Vlastnost Hodnota
File format RIFF (.wav) seskupené do souboru .zip
Název souboru Znaky názvu souboru podporované operačním systémem Windows s příponou .wav
Znaky \ / : * ? " < > \| nejsou povolené.
Nemůže začínat ani končit mezerou a nemůže začínat tečkou.
Nejsou povoleny žádné duplicitní názvy souborů.
Vzorkovací frekvence Při vytváření vlastního neurálního hlasu se vyžaduje 24 000 Hz.
Formát ukázky PCM, aspoň 16bitová verze
Délka zvuku Kratší než 15 sekund
Formát archivu .zip
Maximální velikost archivu 2048 MB

Poznámka:

Výchozí vzorkovací frekvence vlastního neurálního hlasu je 24 000 Hz. Zvukové soubory s vzorkovací frekvencí nižší než 16 000 Hz budou odmítnuty. Pokud soubor .zip obsahuje soubory .wav s různými vzorkovacími rychlostmi, importují se pouze soubory, které se rovnají nebo vyšší než 16 000 Hz. Zvukové soubory s vzorkovací frekvencí vyšší než 16 000 Hz a nižší než 24 000 Hz budou vzorkovány až na 24 000 Hz pro trénování neurálního hlasu. Pro trénovací data doporučujeme použít vzorkovací frekvenci 24 000 Hz.

Data přepisu pro jednotlivé promluvy + odpovídající přepis

Soubor přepisu je soubor ve formátu prostého textu. Pomocí těchto pokynů připravte přepisy.

Vlastnost Hodnota
File format Prostý text (.txt)
Formát kódování ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE nebo UTF-16-BE. Pro zh-CN se kódování ANSI a ASCII nepodporuje.
Počet promluv na řádek Jedna – každý řádek souboru přepisu by měl obsahovat název jednoho ze zvukových souborů následovaný odpovídajícím přepisem. K oddělení názvu souboru a přepisu musíte použít tabulátor (\t).
Maximální velikost souboru 2048 MB

Tady je příklad uspořádání přepisů podle promluvy v jednom souboru .txt:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

Je důležité, aby přepisy byly 100% přesné přepisy odpovídajícího zvuku. Chyby v přepisech představují během trénování ztrátu kvality.

Dlouhý zvuk + přepis (Preview)

Poznámka:

V případě dlouhého zvuku a přepisu (Preview) jsou podporované jenom tyto jazyky: čínština (mandarínština, zjednodušená), angličtina (Indie), angličtina (Spojené království), angličtina (USA), francouzština (Francie), němčina (Německo), italština (Itálie), japonština (Japonsko), portugalština (Brazílie) a španělština (Mexiko).

V některých případech možná nemáte k dispozici segmentovaný zvuk. Speech Studio vám pomůže segmentovat dlouhé zvukové soubory a vytvářet přepisy. Služba segmentace dlouhého zvuku používá funkci rozhraní API pro přepis služby Batch pro převod řeči na text.

Během zpracování segmentace se zvukové soubory a přepisy také posílají do služby Custom Speech, aby se zlepšil model rozpoznávání, aby bylo možné zlepšit přesnost vašich dat. Během tohoto procesu se nezachovávají žádná data. Po dokončení segmentace se pro stahování a trénování uloží jenom promluvy segmentované a jejich přepisy mapování.

Poznámka:

Tato služba se bude účtovat směrem k vašemu využití řeči na textové předplatné. Služba long-audio segmentation je podporována pouze u standardních prostředků služby Speech (S0).

Zvuková data pro dlouhý zvuk + přepis

Při přípravě zvuku na segmentaci postupujte podle těchto pokynů.

Vlastnost Hodnota
File format RIFF (.wav) nebo .mp3 seskupené do souboru .zip
Název souboru Znaky názvu souboru podporované operačním systémem Windows s příponou .wav
Znaky \ / : * ? " < > \| nejsou povolené.
Nemůže začínat ani končit mezerou a nemůže začínat tečkou.
Nejsou povoleny žádné duplicitní názvy souborů.
Vzorkovací frekvence Při vytváření vlastního neurálního hlasu se vyžaduje 24 000 Hz.
Formát ukázky RIFF(.wav): PCM, nejméně 16bitová verze.

mp3: Minimálně 256 KB/s přenosová rychlost.
Délka zvuku Delší než 20 sekund
Formát archivu .zip
Maximální velikost archivu 2048 MB, maximálně 1000 zvukových souborů zahrnutých

Poznámka:

Výchozí vzorkovací frekvence vlastního neurálního hlasu je 24 000 Hz. Zvukové soubory s vzorkovací frekvencí nižší než 16 000 Hz budou odmítnuty. Zvukové soubory s vzorkovací frekvencí vyšší než 16 000 Hz a nižší než 24 000 Hz budou vzorkovány až na 24 000 Hz pro trénování neurálního hlasu. Pro trénovací data doporučujeme použít vzorkovací frekvenci 24 000 Hz.

Všechny zvukové soubory by se měly seskupit do souboru ZIP. Je v pořádku umístit .wav soubory a .mp3 soubory do stejného souboru ZIP. Můžete například nahrát 45sekundový zvukový soubor s názvem "kingstory.wav" a 200sekundový zvukový soubor s názvem "queenstory.mp3" ve stejném souboru ZIP. Všechny .mp3 soubory se po zpracování převedou do formátu .wav.

Data přepisu pro dlouhý zvuk + přepis

Přepisy musí být připravené na specifikace uvedené v této tabulce. Každý zvukový soubor se musí shodovat s přepisem.

Vlastnost Hodnota
File format Prostý text (.txt) seskupený do .zip
Název souboru Použijte stejný název jako odpovídající zvukový soubor.
Formát kódování ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE nebo UTF-16-BE. Pro zh-CN se kódování ANSI a ASCII nepodporuje.
Počet promluv na řádek Bez omezení
Maximální velikost souboru 2048 MB

Všechny soubory přepisů v tomto datovém typu by se měly seskupit do souboru ZIP. Můžete například nahrát 45sekundový zvukový soubor s názvem "kingstory.wav" a 200sekundový zvukový soubor s názvem "queenstory.mp3" ve stejném souboru ZIP. Musíte nahrát další soubor ZIP obsahující odpovídající dva přepisy – jeden s názvem "kingstory.txt" a druhý s názvem "queenstory.txt". V každém souboru prostého textu zadáte úplný správný přepis odpovídajícího zvuku.

Po úspěšném nahrání datové sady vám pomůžeme rozdělit zvukový soubor do promluv na základě poskytnutého přepisu. Stažením datové sady můžete zkontrolovat segmentované promluvy a odpovídající přepisy. K segmentovaným promluvám se automaticky přiřazují jedinečná ID. Je důležité, abyste měli jistotu, že přepisy, které zadáte, jsou 100% přesné. Chyby v přepisech mohou snížit přesnost během segmentace zvuku a dále zavést ztrátu kvality ve fázi trénování, která přichází později.

Pouze zvuk (Preview)

Poznámka:

Pouze pro zvuk (Preview) jsou podporované jenom tyto jazyky: čínština (mandarínština, zjednodušená), angličtina (Indie), angličtina (Spojené království), angličtina (USA), francouzština (Francie), němčina (Německo), italština (Itálie), japonština (Japonsko), portugalština (Brazílie) a španělština (Mexiko).

Pokud nemáte přepisy zvukových nahrávek, nahrajte data pomocí možnosti Pouze zvuk. Náš systém vám může pomoct segmentovat a přepisovat zvukové soubory. Mějte na paměti, že tato služba se účtuje za využití předplatného pro převod textu na řeč.

Při přípravě zvuku postupujte podle těchto pokynů.

Poznámka:

Služba pro segmentaci dlouhých zvuků bude využívat funkci dávkového přepisu řeči na text, která podporuje pouze standardní uživatele předplatného (S0).

Vlastnost Hodnota
File format RIFF (.wav) nebo .mp3 seskupené do souboru .zip
Název souboru Znaky názvu souboru podporované operačním systémem Windows s příponou .wav
Znaky \ / : * ? " < > \| nejsou povolené.
Nemůže začínat ani končit mezerou a nemůže začínat tečkou.
Nejsou povoleny žádné duplicitní názvy souborů.
Vzorkovací frekvence Při vytváření vlastního neurálního hlasu se vyžaduje 24 000 Hz.
Formát ukázky RIFF(.wav): PCM, minimálně 16bitová verze
mp3: Minimálně 256 KB/s přenosová rychlost.
Délka zvuku Bez omezení
Formát archivu .zip
Maximální velikost archivu 2048 MB, maximálně 1000 zvukových souborů zahrnutých

Poznámka:

Výchozí vzorkovací frekvence vlastního neurálního hlasu je 24 000 Hz. Zvukové soubory s vzorkovací frekvencí vyšší než 16 000 Hz a nižší než 24 000 Hz budou vzorkovány až na 24 000 Hz pro trénování neurálního hlasu. Pro trénovací data doporučujeme použít vzorkovací frekvenci 24 000 Hz.

Všechny zvukové soubory by se měly seskupit do souboru ZIP. Po úspěšném nahrání datové sady vám služba Speech pomůže segmentovat zvukový soubor do promluv na základě naší služby dávkového přepisu řeči. K segmentovaným promluvám se automaticky přiřazují jedinečná ID. Odpovídající přepisy se generují prostřednictvím rozpoznávání řeči. Všechny .mp3 soubory se po zpracování převedou do formátu .wav. Stažením datové sady můžete zkontrolovat segmentované promluvy a odpovídající přepisy.

Další kroky