Co je vlastní neuronové hlas?
Custom neuronové Voice je funkce převodu textu na mluvené slovo (TTS), která umožňuje vytvořit v aplikacích jeden upravitelný syntetický hlas. Pomocí vlastního hlasu neuronové můžete vytvořit vysoce přirozený zvuk, který poskytuje ukázky zvuku jako školicí data. Díky technologii neuronové TTS a univerzálnímu modelu multi-mluvčí pro více jazyků vám vlastní neuronové hlas umožňuje vytvářet syntetické hlasy, které jsou bohatě řečeno ve stylu speaking, nebo mezi různými jazyky. Reálný a přirozený hlasový hlas vlastního neuronové hlasu může představovat značky, personify počítače a umožňuje uživatelům interakci s aplikacemi v konverzaci. Podívejte se na podporované jazyky pro vlastní funkce hlasu a neuronové pro více jazyků.
Poznámka
Vlastní Hlasová funkce neuronové vyžaduje registraci a přístup k němu je omezený na základě nároku a kritérií pro použití od Microsoftu. Zákazníci, kteří chtějí použít tuto funkci, jsou vyžadováni k registraci svých případů použití prostřednictvím formuláře pro příjem.
Základy vlastního hlasu neuronové
Základní technologie neuronové TTS používaná pro vlastní neuronové hlas se skládá ze tří hlavních součástí: analyzátor textu, neuronové akustický model a neuronové vocoder. Pokud chcete z textu vygenerovat přirozený syntetický hlas, text se nejprve zadá do analyzátoru textu, který poskytuje výstup ve formě foném sekvence. Foném je základní jednotkou zvuku, která rozlišuje jedno slovo od sebe v konkrétním jazyce. Sekvence fonémy definuje výslovnost slov, která jsou uvedena v textu.
V dalším kroku foném sekvence přejde do akustického modelu neuronové a předpovídá akustické funkce, které definují zvukové signály, jako je Timbre, styl mluveného slova, rychlost, nevýbušnost a vzory zátěže. Nakonec neuronové vocoder převede akustické funkce na zvukové vlny, aby se vygeneroval syntetické rozpoznávání řeči.

Hlasové modely neuronové TTS jsou vyškoleny pomocí neuronové sítí založených na vzorcích záznamu lidského hlasy. V tomto blogupopisujeme, jak neuronové TTS funguje se špičkovými modely syntézy neuronové řeči. Tento blog také vysvětluje, jak se dá univerzální základní model přizpůsobit na hlas cílového mluvčího, který je kratší než 2 hodiny dat řeči (nebo méně než 2 000 zaznamenaných projevy), a navíc přenáší tento hlas do jiného jazyka nebo stylu. Informace o tom, jak je neuronové vocoder, najdete v blogovém příspěvku.
Vlastní neuronové hlas vám umožní přizpůsobit modul neuronové TTS tak, aby vyhovoval vašim scénářům. Pokud chcete vytvořit vlastní neuronové hlas, pomocí sady Speech Studio nahrajte zaznamenaný zvuk a příslušné skripty, proveďte výuku modelu a nasaďte tento hlas do vlastního koncového bodu. Vlastní hlas neuronové může použít text zadaný uživatelem k převodu textu na řeč v reálném čase nebo k vygenerování zvukového obsahu v režimu offline pomocí textového vstupu. Tato funkce je k dispozici prostřednictvím REST API, sady Speech SDKnebo webového portálu.
Začínáme
- Pokud chcete začít s vlastním neuronové hlasem a vytvořit projekt, přečtěte si téma Začínáme s vlastním neuronové hlasem.
- Informace o přípravě a nahrání zvukových dat najdete v tématu Příprava školicích dat.
- Informace o tom, jak vytvořit a nasadit vaše modely, najdete v tématu Vytvoření a použití vašeho hlasového modelu.
Pojmy a definice
| Pojem | Definition |
|---|---|
| Hlasový model | Model převodu textu na řeč, který může napodobit jedinečné charakteristiky r cílového mluvčího. Hlasový model se označuje také jako hlasový hlas nebo syntetického hlasu. Hlasový model je sada parametrů v binárním formátu, který není čitelný pro člověka a neobsahuje zvukové nahrávky. Nedá se zpětně analyzovat, aby bylo možné odvodit nebo vytvořit zvuk lidského hlasu. |
| Talentů hlasu | Jednotlivců nebo cílových mluvčích, jejichž hlasy se zaznamenávají a využívají k vytváření hlasových modelů, které jsou určené pro zvuk, jako je hlasový talentů hlas. |
| Standardní TTS | Standardní nebo "tradiční" způsob TTS, který rozděluje mluvený hlas na fonetické fragmenty, aby mohl být znovu smíšen a porovnán pomocí klasického programování nebo statistických metod. |
| Neuronové TTS | Neuronové TTS syntetizuje řeč pomocí hluboce neuronové sítí, u kterých se "dozvěděl" způsob, jakým jsou slova v rámci přirozeného lidského řeči kombinována, a ne pomocí procedurálního programování nebo statistických metod. Neuronové TTS kromě záznamů cílového hlasu talentů používá zdrojovou knihovnu nebo základní model, který je sestavený pomocí hlasových nahrávek z mnoha různých mluvčích. |
| Data pro trénink | Vlastní neuronové hlasového školení, která zahrnuje zvukové nahrávky hlasového talentůu a související text se přepisuje. |
| Nežádoucí | Uživatel s popisem, který požadujete, aby byl tento hlas. Dobrý návrh, který je vhodný pro vytváření hlasu, bude informovat o tom, jestli je výběr dostupného hlasového modelu už vytvořený, nebo od nuly po přetypování a zaznamenání nového hlasového talentůu. |
| Skript | Skript je textový soubor, který obsahuje projevy, který bude hlasem talentů řeči. (Pojem "projevy" zahrnuje jak úplné věty, tak kratší fráze.) |
Zodpovědné využití AI
Pokud se chcete dozvědět, jak používat vlastní neuronové Voice zodpovědnou, přečtěte si poznámku o transparentnosti. Poznámky transparentnosti Microsoftu mají za úkol porozumět tomu, jak naše technologie AI funguje, takže vlastníci systému můžou mít vliv na výkon a chování systému a také na důležité úvahy o celém systému, včetně technologie, lidí a prostředí.