Vytvoření a použití vašeho hlasového modelu

V části Příprava školicích datjste se dozvěděli o různých typech dat, které můžete použít k výuce vlastního neuronové hlasu a různých požadavků na formát. Po přípravě dat a ústním příkazu Voice talentů je můžete začít nahrávat do sady Speech Studio. V tomto článku se naučíte, jak naučit vlastní neuronové hlas prostřednictvím portálu Speech Studio. Podívejte se na podporované jazyky pro vlastní neuronové hlas.

Požadavky

Nastavení talentů hlasu

Hlasový talentů je individuální nebo cílový mluvčí, jehož hlasy se zaznamenávají a používají k vytváření neuronovéch hlasových modelů. Před vytvořením hlasu definujte svůj hlasový a vyberte správný hlasový talentů. Podrobnosti o nahrávání ukázek hlasu najdete v tomto kurzu.

Chcete-li naučit neuronové hlas, je nutné vytvořit profil hlasové talentů se zvukovým souborem zaznamenaným hlasovým talentůem, který souhlasí s používáním jejich dat řeči k učení vlastního hlasového modelu. Při přípravě skriptu nahrávání se ujistěte, že jste zahrnuli následující větu:

"I [stav vašeho jména a příjmení] si uvědomte, že nahrávky mého hlasu budou použity uživatelem [State název společnosti] k vytvoření a použití syntetické verze mého hlasu." Tato věta slouží k ověření, zda školicí data odpovídají zvuku v prohlášení o souhlasu. > si přečtěte další informace o ověřování talentů hlasu .

Poznámka

Vlastní neuronové hlas je k dispozici s omezeným přístupem. Ujistěte se, že rozumíte požadavkům příslušných souborů AIa pak se k nim přiřadíte.

Následující postup předpokládá, že jste připravili soubory ústního souhlasu talentů Voice. Přejděte na Speech Studio a vyberte vlastní neuronové hlasový projekt a pak postupujte podle následujících kroků a vytvořte profil Voice talentů.

  1. Pokud chcete přejít k vlastnímu hlasu pro Převod textu na řeč, > > Vyberte projekt > nastavení hlasových talentů.

  2. Vyberte Přidat hlasový talentů.

  3. Potom můžete definovat charakteristiky hlasu a vybrat cílový scénář , který se má použít. Pak popište charakteristiky hlasu.

Poznámka

Scénáře, které zadáte, musí být konzistentní s tím, co jste použili ve formuláři aplikace.

  1. potom přejděte na příkaz Upload voice talentů, postupujte podle pokynů pro nahrání hlasu talentů, který jste připravili předem.

Poznámka

Ujistěte se, že je ve stejném nastavení jako vaše školicí data zaznamenán slovní výraz, včetně prostředí pro nahrávání a stylu speaking.

  1. Nakonec přejdete na zkontrolovat a vytvořit, můžete zkontrolovat nastavení a vybrat Odeslat.

Upload vaše data

Až budete připraveni na nahrání dat, přejdete na kartu Příprava školicích dat a přidáte svoji první sadu školení a nahrajete data. Školicí sada je sada zvukových projevy a jejich mapovacích skriptů používaných k výuce hlasového modelu. K uspořádání školicích dat můžete použít školicí sadu. Kontrola připravenosti na data bude provedena v každé sadě školení. Do sady školení můžete importovat více dat.

K vytvoření a kontrole školicích dat můžete provést následující postup.

  1. Na kartě připravit školicí data vyberte Přidat sadu školení a zadejte název a Popis > vytvořit , chcete-li přidat novou výukovou sadu.

    Po úspěšném vytvoření sady školení můžete začít nahrávat data.

  2. chcete-li odeslat data, vyberte Upload data > zvolte datový typ > Upload data a zadejte cílovou sadu školení > zadejte název a popis pro vaše data > zkontrolujte nastavení a vyberte odeslat.

Poznámka

  • Z školení se odeberou duplicitní názvy zvuku. Ujistěte se, že vybraná data neobsahují stejné zvukové názvy v souboru .zip nebo v několika .zip souborech. Pokud jsou utterance ID (buď v zvukovém souboru nebo v souborech skriptu) duplicitní, budou odmítnuty.
  • Pokud jste vytvořili datové soubory v předchozí verzi sady Speech Studio, musíte předem zadat sadu školení pro vaše data, aby je bylo možné použít. Nebo jinak se k datovému názvu připojí vykřičník a data se nedají použít.

Všechna data, která nahráváte, musí splňovat požadavky na datový typ, který zvolíte. Je důležité správně naformátovat data před nahráním, což zajistí, že data budou přesně zpracována vlastní hlasovou službou neuronové. Pokračujte v přípravě školicích dat a ujistěte se, že vaše data jsou ve správném formátu.

Poznámka

  • Standardní předplatné (S0) uživatelé můžou nahrávat pět datových souborů současně. Pokud dosáhnete limitu, počkejte na dokončení importu alespoň jednoho z vašich datových souborů. Pak to zkuste znovu.
  • Maximální počet datových souborů, které je povoleno importovat na jedno předplatné, je 10 .zipch souborů pro uživatele bezplatného předplatného (F0) a 500 pro uživatele Standard Subscription (S0).

Datové soubory se po stisknutí tlačítka Odeslat automaticky ověřují. Ověřování dat zahrnuje sérii kontrol zvukových souborů pro ověření jejich formátu, velikosti a vzorkovací frekvence. Opravte chyby, pokud nějaké existují, a odešlete je znovu.

Po nahrání dat si můžete prohlédnout podrobnosti v zobrazení podrobností sady školení. Na kartě Přehled můžete dále kontrolovat výsledky výslovnosti a úroveň hluku pro každé z vašich dat. Skóre výslovnosti je rozsah od 0 do 100. Skóre nižší než 70 (normálně) indikuje chybu řeči nebo neshoda skriptu. Hodně zdůraznění může snížit vaše výsledky výslovnosti a ovlivnit vygenerovaný digitální hlas.

Vyšší poměr mezi signálem a hlukem (SNR) znamená nižší šum ve zvukovém prostředí. Můžete obvykle dosáhnout 50 + SNR záznamem na Professional studia. Zvuk s SNRem nižším než 20 může vést k zjevnému šumu ve vygenerovaném hlasu.

Zvažte opětovné zaznamenávání všech projevy s nízkými výslovnostmi nebo nedostatečnými poměry k hluku. Pokud se nemůžete znovu nahrávat, zvažte, jestli se projevy z vašich dat.

Podrobnosti o datech můžete zjistit v podrobnostech o datech sady školení. Pokud se s daty vyskytnou nějaké typické problémy, opravte je před školením podle pokynů v zobrazené zprávě.

Problémy jsou rozděleny do tří typů. Odkazování na následující tři tabulky pro kontrolu příslušných typů chyb.

Ručně opravte první typ chyb uvedených v následující tabulce. v opačném případě budou data s těmito chybami během školení vyloučena.

Kategorie Název Description
Skript Neplatný oddělovač ID utterance a obsah skriptu musíte oddělit znakem TABULÁTORu.
Skript Neplatné ID skriptu ID řádku skriptu musí být číselné.
Skript Duplicitní skript Každý řádek obsahu skriptu musí být jedinečný. Řádek je duplikován pomocí {} .
Skript Skript je moc dlouhý. Skript musí být kratší než 1 000 znaků.
Skript Žádný vyhovující zvuk ID každého utterance (každý řádek souboru skriptu) se musí shodovat s ID zvuku.
Skript Žádný platný skript V této datové sadě nebyl nalezen žádný platný skript. Opravte řádky skriptu, které se zobrazí v seznamu podrobných problémů.
Zvuk Žádný vyhovující skript ID skriptu neodpovídají žádné zvukové soubory. Názvy souborů WAV se musí shodovat s identifikátory v souboru skriptu.
Zvuk Neplatný formát zvuku Formát zvuku souborů. wav je neplatný. Ověřte formát souboru WAV pomocí zvukového nástroje, jako je Sox.
Zvuk Nízká frekvence vzorkování Vzorkovací frekvence souborů. wav nemůže být menší než 16 KHz.
Zvuk Příliš dlouhý zvuk Doba trvání zvuku je delší než 30 sekund. Rozdělte dlouhé zvuky do více souborů. Doporučujeme, aby projevy měl být kratší než 15 sekund.
Zvuk Žádný platný zvuk V této datové sadě nebyl nalezen žádný platný zvuk. Ověřte zvuková data a znovu je nahrajte.

Druhý typ chyb uvedených v následující tabulce bude automaticky opraven, ale doporučujeme dvakrát zkontrolovat pevná data.

Kategorie Název Description
Zvuk Automaticky opravený stereofonní zvuk Použijte mono v nahrávkách zvukového vzorku. Stereofonní zvukové kanály se automaticky sloučí do kanálu mono, což může způsobit ztrátu obsahu. Stáhněte si normalizovanou datovou sadu a zkontrolujte ji.
Svazek Automatické pevné špičky svazku Vrchol svazku by měl být v rozsahu-3 dB (70% z max.) až 6 dB (50%). Při nahrávání vzorku nebo přípravě dat se řiďte špičkou svazku. Tento zvuk se lineárně škáluje tak, aby se automaticky vešel do rozsahu špičky (-4 dB nebo 65%). Stáhněte si normalizovanou datovou sadu a zkontrolujte ji.
Shod Automaticky opravený neticho Zjistilo se, že tiché spuštění je delší než 200 MS a automaticky se ořízne na 200 ms. Stáhněte si normalizovanou datovou sadu a zkontrolujte ji.
Shod Automaticky opravený neticho Zjistilo se, že konec ticha je delší než 200 MS a automaticky se ořízne na 200 ms. Stáhněte si normalizovanou datovou sadu a zkontrolujte ji.
Shod Automaticky opravený neticho Zjistilo se, že tiché spuštění bude kratší než 100 MS a automaticky se rozšířilo na 100 ms. Stáhněte si normalizovanou datovou sadu a zkontrolujte ji.
Shod Automaticky opravený neticho Zjistilo se, že konec ticha je kratší než 100 MS a automaticky se rozšířil na 100 ms. Stáhněte si normalizovanou datovou sadu a zkontrolujte ji.

Pokud třetí typ chyb uvedených v tabulce níže není uvedený, přestože data s těmito chybami nebudou během školení vyloučená, bude to mít vliv na kvalitu školení. Pro školení vyšší kvality se doporučuje ručně opravit tyto chyby.

Kategorie Název Description
Skript Nenormalizovaný text Tento skript obsahuje číslici 0-9. Rozbalíte je na normalizovaná slova a porovnejte je se zvukem. Například Normalizujte "123" na "123".
Skript Nenormalizovaný text Tento skript obsahuje symboly {} . Normalizujte symboly tak, aby odpovídaly zvuku. Například "50%" na "50 procent".
Skript Nedostatek otázek projevy Aspoň 10% z celkového projevy by měly být věty otázek. Tím je zajištěno, že hlasový model správně vyjadřuje tónový tón.
Skript Nedostatek vykřičníku projevy Aspoň 10% z celkového projevy by měla být vykřičníkem. Tím je zajištěno, že hlasový model správně vyjadřuje tón zajímání.
Zvuk Nízká frekvence vzorkování pro neuronové hlas Doporučuje se, aby vzorkovací frekvence vašich souborů. wav pro vytváření hlasů neuronové byly 24 KHz nebo vyšší. Pokud je nižší, bude automaticky převzorkovaná na 24 KHz.
Svazek Celkový objem je příliš nízký. Svazek by neměl být nižší než-18 dB (10% z maximálního objemu). V rámci správného rozsahu během nahrávání vzorků nebo přípravy dat je vhodné řídit průměrnou úroveň svazku.
Svazek Přetečení svazku Svazek s přetečením je detekován v {} . Upravte zařízení pro nahrávání tak, aby se předešlo přetečení svazku na vrcholovou hodnotu.
Svazek Spustit problém s tichou První tichá ne100 MS není čistá. Snižte úroveň šumu v záznamu a ponechte první 100 MS v tichém režimu spuštění.
Svazek Ukončit problém s tichou Poslední ne100 MS tichého vypnutí není čistý. Snižte úroveň šumu v záznamu a ponechte poslední 100 MS na konci ticha.
Shod Nízká skóre slov Zkontrolujte skript a zvukový obsah, abyste se ujistili, že odpovídají a ovládají úroveň šumu. Snižte délku dlouhého tichého zpomalení nebo rozdělte zvuk na více projevy, pokud je příliš dlouhý.
Shod Spustit problém s tichou Další zvuk byl slyšet před prvním slovem. Zkontrolujte skript a zvukový obsah, abyste se ujistili, že se shodují, nastavte úroveň šumu a udělejte první 100 ms.
Shod Ukončit problém s tichou Další zvuk byl slyšet za poslední slovo. Zkontrolujte skript a zvukový obsah, abyste se ujistili, že se shodují, nastavte úroveň šumu a nastavte poslední 100 MS v tichém režimu.
Shod Poměr šumu při nízkém signálu Úroveň zvukového SNR je nižší než 20 dB. Doporučuje se aspoň 35 dB.
Shod Není k dispozici žádné skóre Nepovedlo se rozpoznat obsah mluveného slova v tomto zvukovém zařízení. Zkontrolujte zvuk a obsah skriptu, abyste se ujistili, že je zvuk platný, a odpovídá skriptu.

Výuka vlastního neuronové hlasového modelu

Po ověření vašich datových souborů je můžete použít k vytvoření vlastního neuronové hlasového modelu.

  1. Na kartě model vlaku vyberte model výuky , abyste vytvořili hlasový model s daty, která jste nahráli.

  2. Vyberte metodu školení neuronové pro váš model a cílový jazyk.

Ve výchozím nastavení je váš hlasový model vyškolený ve stejném jazyce vašich školicích dat. Pro svůj hlasový model můžete také vybrat možnost pro vytvoření sekundárního jazyka (Preview). Podívejte se na jazyky podporované pro vlastní neuronové hlas a vícejazyčné funkce: jazyk pro přizpůsobení.

Školení vlastních hlasů neuronové není zdarma. Podrobnosti najdete v podrobnostech o cenách . Pokud však máte k dispozici statistické modely ukazatelů nebo zřetězené hlasové modely nasazené před 3/31/2021 s prostředky S0 Speech, budou bezplatné neuronové školicí kredity nabízeny vašemu předplatnému Azure a můžete zdarma vyškolit 5 různých verzí neuronové hlasů.

  1. Potom zvolte data, která chcete použít pro školení, a zadejte soubor mluvčího.

Poznámka

  • Abyste mohli vytvořit vlastní hlas neuronové, musíte vybrat aspoň 300 projevy.
  • Chcete-li naučit neuronové hlas, je nutné zadat profil hlasového talentů se souborem souhlasu zvuku, který je k dispozici v hlasovém talentůu, abyste mohli využít jeho data řeči k učení vlastního hlasového modelu. Vlastní neuronové hlas je k dispozici s omezeným přístupem. Ujistěte se, že rozumíte požadavkům na AI a použijete přístup tady.
  1. Pak zvolte testovací skript.

Každé školení bude automaticky generovat ukázkové zvukové soubory 100, které vám pomůžou s testováním modelu pomocí výchozího skriptu. Můžete také zadat vlastní testovací skript jako volitelný. Testovací skript musí vyloučit názvy souborů (ID jednotlivých utterance), jinak budou tato ID vymluvené. Níže je uveden příklad, jak je projevy uspořádána v jednom souboru .txt:

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

Každý odstavec utterance bude mít za následek samostatný zvuk. Pokud chcete zkombinovat všechny věty do jednoho zvukového zařízení, udělejte je v jednom odstavci.

Poznámka

  • Testovací skript musí být soubor txt, který je menší než 1 MB. Podporovaný formát kódování zahrnuje ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE nebo UTF-16-.
  • Vygenerované zvuky jsou kombinací nahraného testovacího skriptu a výchozího testovacího skriptu.
  1. Zadejte název a Popis , který vám usnadní identifikaci tohoto modelu.

Vyberte název pečlivě. Název, který zde zadáte, bude název, který použijete k zadání hlasu v žádosti o Shrnutí řeči v rámci vstupu SSMLu. Povolena jsou pouze písmena, číslice a znaky interpunkce, například-, _ a (', '). Pro různé hlasové modely neuronové použijte jiné názvy.

Společné použití pole Description slouží k záznamu názvů dat, která byla použita k vytvoření modelu.

  1. Zkontrolujte nastavení a pak výběrem Odeslat spusťte školení modelu.

Poznámka

Z školení se odeberou duplicitní názvy zvuku. Ujistěte se, že vybraná data neobsahují stejné zvukové názvy v různých .zip souborech.

V tabulce model vlaku se zobrazí nová položka, která odpovídá nově vytvořenému modelu. V tabulce se zobrazí také stav: zpracování, úspěch, selhalo.

Zobrazený stav odráží proces převodu vašich dat do hlasového modelu, jak je znázorněno zde.

Stav Význam
Zpracování Probíhá vytváření hlasového modelu.
Úspěšný Váš hlasový model byl vytvořen a lze jej nasadit.
Neúspěšný Váš hlasový model se v rámci školení nezdařil z důvodu mnoha důvodů, například problémy s nezpracovanými daty nebo problémy se sítí.

Doba trvání školení se liší v závislosti na tom, kolik dat jste právě školením. Pro výuku vlastního hlasu neuronové trvá přibližně 40 výpočetních hodin v průměru.

Poznámka

Standardní předplatné (S0) uživatelé můžou doškolit tři hlasy současně. Pokud dosáhnete limitu, počkejte, dokud alespoň jeden z vašich hlasových modelů dokončí školení, a akci opakujte.

  1. Po úspěšném školení modelu můžete zkontrolovat podrobnosti modelu.

Po úspěšném vytvoření hlasového modelu můžete použít vygenerované ukázkové zvukové soubory k jeho otestování před jeho nasazením pro použití.

Kvalita hlasu závisí na mnoha faktorech, včetně velikosti školicích dat, kvality záznamu, přesnosti souboru přepisu, jak dobře zaznamenaného hlasu v školicích datech odpovídá osobnosti navrženého hlasu pro zamýšlený případ použití a další. Zde najdete další informace o možnostech a omezeních naší technologie a o osvědčených postupech pro zlepšení kvality modelu.

Vytvoření a použití vlastního hlasového koncového bodu neuronové

Po úspěšném vytvoření a otestování vašeho hlasového modelu ho nasadíte do vlastního koncového bodu pro převod textu na řeč. Tento koncový bod pak použijete místo obvyklého koncového bodu při vytváření požadavků na převod textu na řeč prostřednictvím REST API. Váš vlastní koncový bod může být volán pouze předplatným, které jste použili k nasazení modelu.

Chcete-li vytvořit vlastní hlasový koncový bod neuronové, můžete provést následující postup.

  1. Na kartě nasadit model vyberte nasadit model.
  2. Potom zadejte název a Popis vlastního koncového bodu.
  3. Pak vyberte hlasový model, který chcete přidružit k tomuto koncovému bodu.
  4. Nakonec vyberte nasadit a vytvořte koncový bod.

Po kliknutí na tlačítko nasadit se v tabulce koncového bodu zobrazí položka pro nový koncový bod. Vytvoření instance nového koncového bodu může trvat několik minut. Po úspěšném stavu nasazení je koncový bod připravený k použití.

Pokud ho nebudete používat, můžete koncový bod pozastavit a obnovit . Když se po pozastavení znovu aktivuje koncový bod, adresa URL koncového bodu se zachová stejně, takže nemusíte měnit kód v aplikacích.

Koncový bod můžete také aktualizovat na nový model. Chcete-li změnit model, ujistěte se, že je nový model pojmenován stejně jako ten, který chcete aktualizovat.

Poznámka

  • Standardní předplatné (S0) může vytvořit až 50 koncových bodů, z nichž každý má vlastní neuronové hlas.
  • Pokud chcete použít vlastní hlas neuronové, musíte zadat název hlasového modelu, použít vlastní URI přímo v požadavku HTTP a použít stejné předplatné k předání ověřování služby TTS.

Po nasazení koncového bodu se název koncového bodu zobrazí jako odkaz. Kliknutím na odkaz zobrazíte informace, které jsou specifické pro váš koncový bod, jako je klíč koncového bodu, adresa URL koncového bodu a ukázkový kód.

Vlastní koncový bod je funkčně stejný jako standardní koncový bod, který se používá pro požadavky převodu textu na řeč. Další informace najdete v tématu sada Speech SDK nebo REST API.

Poskytujeme také online nástroj, vytváření zvukového obsahu, které vám umožní doladit zvukový výstup pomocí POPISNÉHO uživatelského rozhraní.

Další kroky