Vylepšení syntézy pomocí Vytváření zvukového obsahu nástrojů

Vytváření zvukového obsahu je snadno použitelný a výkonný nástroj, který umožňuje vytvářet vysoce přirozený zvukový obsah pro různé scénáře, jako jsou audiobooky, zpravodajské vysílání, přednášky videí a chatovací roboti. Díky Vytváření zvukového obsahu můžete vyladit hlasy převodu textu na řeč a navrhnout přizpůsobená zvuková prostředí efektivním a cenově výhodnějším způsobem.

Nástroj je založený na jazyku SSML (Speech Synthesis Markup Language). Umožňuje upravit výstupní atributy převodu textu na řeč v reálném čase nebo dávkové syntézy, jako jsou hlasové znaky, styly hlasu, rychlost řeči, výslovnost a prosody.

Od listopadu 2021 můžete mít snadný přístup k více než 270 neurálním hlasům napříč 119 různými jazyky, včetně moderních předem připravených neurálních hlasů, a vlastního neurálního hlasu, pokud jste ho už nějaké vystavěli.

Podívejte se na videokus pro Vytváření zvukového obsahu.

Jak Začínáme?

Vytváření zvukového obsahu je bezplatný nástroj, ale budete platit za službu Azure Speech, kterou využíváte. Pokud chcete s nástrojem pracovat, musíte se přihlásit pomocí účtu Azure a vytvořit prostředek služby Speech. Pro každý účet Azure máte bezplatné měsíční kvóty řeči, které zahrnují 0,5 milionu znaků pro předem sestavené neurální hlasy (na stránce s cenami se označují jako neurální). Měsíční přidělovaná částka obvykle stačí pro malý obsahový tým s přibližně 3 až 5 lidmi. Tady je postup, jak vytvořit účet Azure a získat prostředek služby Speech.

Krok 1 – Vytvoření účtu Azure

Abyste s Vytváření zvukového obsahu pracovali, musíte mít účet Microsoft a účet Azure. Podle těchto pokynů nastavte účet.

Azure Portal je centralizované místo, kde můžete spravovat svůj účet Azure. Můžete vytvořit prostředek služby Speech, spravovat přístup k produktu a monitorovat vše od jednoduchých webových aplikací až po složitá cloudová nasazení.

Krok 2 – Vytvoření prostředku služby Speech

Po registraci účtu Azure je potřeba pod účtem Azure vytvořit prostředek služby Speech pro přístup ke službám Speech. Pokyny k vytvoření prostředku služby Speech najdetev tématu .

Nasazení nového prostředku služby Speech chvíli trvá. Po dokončení nasazení můžete zahájit Vytváření zvukového obsahu nasazení.

Poznámka

Pokud plánujete používat neurální hlasy, ujistěte se, že vytváříte prostředek v oblasti, která podporuje neurální hlasy.

Krok 3 – Přihlášení k Vytváření zvukového obsahu pomocí účtu Azure a prostředku služby Speech

  1. Po získání účtu Azure a prostředku služby Speech se můžete přihlásit k Vytváření zvukového obsahu kliknutím na Začínáme.
  2. Na domovské stránce se zobrazí seznam všech produktů v Speech Studio. Spusťte Vytváření zvukového obsahu kliknutím na Tlačítko.
  3. Zobrazí se Speech Studio úvodní stránka pro nastavení služby Speech. Vyberte předplatné Azure a prostředek služby Speech, na které chcete pracovat. Kliknutím na Použít prostředek dokončete nastavení. Když se přihlásíte k Vytváření zvukového obsahu pro další použití, budeme vás propojovat přímo se zvukovými pracovními soubory v rámci aktuálního prostředku služby Speech. Podrobnosti a stav předplatných Azure můžete zkontrolovat v Azure Portal. Pokud nemáte dostupný prostředek služby Speech a jste vlastníkem nebo správcem předplatného Azure, můžete také vytvořit nový prostředek služby Speech v Speech Studio kliknutím na Vytvořit nový prostředek. Pokud jste role uživatele pro určité předplatné Azure, možná nemáte oprávnění k vytvoření nového prostředku služby Speech. Pokud chcete získat přístup k prostředku služby Speech, obraťte se na správce.
  4. Prostředek služby Speech můžete kdykoli upravit pomocí možnosti Nastavení, která se nachází v horním navigačním panelu.
  5. Pokud chcete přepnout adresář, přejděte na Nastavení nebo svůj profil.

Jak tento nástroj používat?

Tento diagram znázorňuje kroky potřebné k vyladění výstupů převodu textu na řeč. Další informace o jednotlivých stupních najdete na následujících odkazech.

A diagram of the steps it takes to fine-tune Text-to-Speech outputs

  1. Zvolte prostředek služby Speech, na které chcete pracovat.

  2. Vytvořte soubor pro ladění zvuku pomocí prostého textu nebo skriptů SSML. Zadejte nebo nahrajte obsah do Vytváření zvukového obsahu.

  3. Zvolte hlas a jazyk obsahu skriptu. Vytváření zvukového obsahu zahrnuje všechny hlasy Microsoftu pro převod textu na řeč. Můžete použít předem sestavené neurální hlasy nebo vlastní neurální hlasy.

    Poznámka

    Přístup s bránou je k dispozici Vlastní neurální hlas, který umožňuje vytvářet hlasy ve vysokém rozlišení podobně jako přirozeně znějící řeč. Další podrobnosti najdete v tématu Proces Gating.

  4. Vyberte obsah, který chcete zobrazit náhled, a kliknutím na ikonu přehrávání (trojúhelník) zobrazte náhled výchozího výstupu syntézy. Upozorňujeme, že pokud text změníte, budete muset kliknout na ikonu Zastavit a pak znovu kliknout na ikonu přehrát, aby se znovu vygeneroval zvuk se změněnou skripty.

  5. Vylepšete výstup úpravou výslovnosti, přerušení, výšky, rychlosti, intonace, stylu hlasu a dalších. Úplný seznam možností najdete v tématu Speech Synthesis Markup Language. Tady je video, které ukazuje, jak doladit výstup řeči pomocí Vytváření zvukového obsahu.

  6. Uložte a exportujte vyladěný zvuk. Když uložíte stopu ladění do systému, můžete pokračovat v práci a iterovat ve výstupu. Až budete s výstupem spokojeni, můžete pomocí funkce exportu vytvořit úlohu vytvoření zvuku. Můžete sledovat stav úlohy exportu a stáhnout výstup pro použití s vašimi aplikacemi a produkty.

Vytvoření souboru pro ladění zvuku

Existují dva způsoby, jak dostat obsah do nástroje Vytváření zvukového obsahu.

Možnost 1:

  1. Kliknutím naNew file (Nový soubor) vytvořte nový soubor pro ladění zvuku.
  2. Zadejte nebo vložte obsah do okna pro úpravy. Znaky pro každý soubor jsou až 20 000. Pokud je váš skript delší než 20 000 znaků, můžete pomocí možnosti 2 automaticky rozdělit obsah na více souborů.
  3. Nezapomeňte soubor uložit.

Možnost 2:

  1. Kliknutím Upload importujte jeden nebo více textových souborů. Podporuje se prostý text i SSML. Pokud má soubor skriptu více než 20 000 znaků, rozdělte ho prosím podle odstavců, znaků nebo regulárních výrazů.

  2. Při nahrávání textových souborů se ujistěte, že soubor splňuje tyto požadavky.

    Vlastnost Hodnota/poznámky
    Formát souboru Prostý text (.txt)
    Text SSML (.txt)
    Soubory ZIP se nepodporují.
    Formát kódování UTF-8
    Název souboru Každý soubor musí mít jedinečný název. Duplicity se nepodporují.
    Délka textu Omezení znaku textového souboru je 20 000. Pokud vaše soubory toto omezení překročí, rozdělte soubory podle pokynů v nástroji.
    Omezení SSML Každý soubor SSML může obsahovat jenom jednu část SSML.

Příklad prostého textu

Welcome to use Audio Content Creation to customize audio output for your products.

Příklad textu SSML

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
    <voice name="Microsoft Server Speech Text to Speech Voice (en-US, JennyNeural)">
    Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
    </voice>
</speak>

Export vyladěného zvuku

Jakmile si prohlédněte zvukový výstup a budete spokojeni s laděním a úpravou, můžete zvuk exportovat.

  1. Kliknutím na Exportovat vytvořte úlohu vytvoření zvuku. Doporučuje se exportovat do zvukové knihovny, protože podporuje dlouhý zvukový výstup a úplné zvukové výstupy. Zvuk si také můžete stáhnout přímo na místní disk, ale k dispozici je jenom prvních 10 minut.
  2. Zvolte formát výstupu laděného zvuku. Seznam podporovaných formátů a vzorkovací frekvence je k dispozici níže.
  3. Stav úlohy můžete zobrazit na kartě úloha exportu . Pokud se úloha nezdařila, přejděte na stránku podrobné informace pro celou sestavu.
  4. Po dokončení úlohy je váš zvuk k dispozici ke stažení na kartě Knihovna zvukového prostředí.
  5. Klikněte na Stáhnout. Teď jste připraveni používat vlastní laděný zvuk ve vašich aplikacích nebo produktech.

Podporované formáty zvuku

Formát vzorkovací frekvence 8 kHz vzorkovací frekvence 16 kHz frekvence vzorků 24 kHz vzorkovací frekvence 48 kHz
buď RIFF-8KHz-16bitový-mono-PCM RIFF-16khz-16bitový-mono-PCM RIFF-24khz-16bitový-mono-PCM RIFF-48kHz-16bitový-mono-PCM
MP3 Audio-16khz-128kbitrate-mono-MP3 Audio-24khz-160kbitrate-mono-MP3 Audio-48kHz-192kbitrate-mono-MP3

Jak přidat nebo odebrat uživatele vytváření obsahu zvukového obsahu?

Pokud chce vytvoření zvukového obsahu použít více než jeden uživatel, můžete uživateli udělit přístup k předplatnému Azure a prostředku pro rozpoznávání řeči. Pokud přidáte uživatele do předplatného Azure, uživatel bude mít přístup ke všem prostředkům v rámci předplatného Azure. Pokud však do prostředku řeči přidáte pouze uživatele, bude mít uživatel přístup pouze k prostředku rozpoznávání řeči a nebude mít přístup k dalším prostředkům v rámci tohoto předplatného Azure. Uživatel s přístupem k prostředku řeči může použít vytvoření zvukového obsahu.

Uživatel musí připravit účet Microsoft. Pokud uživatel nemá účet Microsoft, vytvořte si ho jenom za pár minut. Uživatel může použít existující e-mail a odkaz jako účet Microsoft nebo vytvořit nový outlookový e-mail jako účet Microsoft.

Přidání uživatelů do prostředku řeči

Pomocí těchto kroků přidáte uživatele do prostředku rozpoznávání řeči, aby mohli používat vytvoření zvukového obsahu.

  1. V Azure Portalvyhledejte vyhledané služby , vyberte prostředek pro rozpoznávání řeči, do kterého chcete přidat uživatele.

  2. Klikněte na Řízení přístupu (IAM). Vyberte Přidatpřiřazení role (Preview) a otevřete podokno přidat přiřazení role.

  3. Na kartě role vyberte roli uživatele služba rozpoznávání služby . Pokud chcete uživateli poskytnout vlastnictví tohoto prostředku řeči, můžete vybrat roli vlastníka .

  4. Na kartě Členové zadejte e-mailovou adresu uživatele a v adresáři vyberte uživatele. E-mailová adresa musí být účet Microsoft, která je důvěryhodná pro Azure Active Directory. Uživatelé můžou snadno zaregistrovat účet Microsoft pomocí osobní e-mailové adresy.

  5. Na kartě Revize + přiřazení vyberte zkontrolovat + přiřadit a přiřaďte roli.

  6. Uživateli se zobrazí e-mailová pozvánka. Přijměte pozvánku kliknutím na přijmout pozvánkupřijmout a připojte se k Azure v e-mailu. Pak se uživatel přesměruje na Azure Portal. Uživatel nemusí v Azure Portal provádět další akce. Po chvíli se uživateli přiřadí role v oboru prostředků pro rozpoznávání řeči a bude mít přístup k tomuto prostředku řeči. Pokud uživatel nedostal e-mail s pozvánkou, můžete vyhledat účet uživatele v části přiřazení rolí a přejít v profilu uživatele. Vyhledejte "identita" – > "Pozvánka přijata" a kliknutím na > znovu odešlete e-mailovou pozvánku. Odkaz na pozvánku můžete také zkopírovat uživatelům.

  7. Uživatel teď navštíví stránku produktu pro Vytvoření zvukového obsahu nebo ho aktualizuje a přihlásí se účet Microsoft uživatele. Vyberte blok vytváření zvukového obsahu mezi všemi produkty pro rozpoznávání řeči. V automaticky otevíraném okně nebo v nastavení v pravém horním rohu stránky vyberte prostředek pro rozpoznávání řeči. Pokud uživatel nemůže najít dostupný prostředek řeči, ověřte, zda jste v pravém adresáři. Pokud chcete kontrolovat správnou složku, klikněte na profil účtu v pravém horním rohu a potom klikněte na přepínač vedle možnosti aktuální adresář. Pokud je k dispozici více než jeden adresář, znamená to, že máte přístup k více adresářům. Přepněte do různých adresářů a přejděte na nastavení a zjistěte, jestli je k dispozici správný prostředek pro rozpoznávání řeči.

    Add role dialog

Uživatelé, kteří se nacházejí ve stejném prostředku řeči, uvidí práci v nástroji pro vytváření zvukového obsahu v studiu. Pokud chcete, aby měl každý jednotlivý uživatel jedinečné a soukromé pracoviště při vytváření zvukového obsahu, vytvořte si pro každého uživatele nový prostředek řeči a každému uživateli udělte jedinečný přístup k prostředku řeči.

Odebrání uživatelů z prostředku řeči

  1. V Azure Portal vyhledejte vyhledané služby , vyberte prostředek pro rozpoznávání řeči, ze kterého chcete odebrat uživatele.
  2. Klikněte na Řízení přístupu (IAM). Kliknutím na kartu přiřazení rolí zobrazíte všechna přiřazení rolí tohoto prostředku řeči.
  3. Vyberte uživatele, které chcete odebrat, a klikněte na tlačítko OdebratOK. Remove button

Povolit uživatelům udělení přístupu

Pokud chcete, aby jeden z uživatelů měl přístup k ostatním uživatelům, musíte dát uživateli roli vlastníka pro prostředek pro rozpoznávání řeči a nastavit uživatele jako čtečku adresáře Azure.

  1. Přidejte uživatele jako vlastníka prostředku řeči. Přečtěte si téma jak přidat uživatele do prostředku řeči. Role Owner field
  2. V Azure Portalvyberte v levém horním rohu sbalenou nabídku. klikněte na Azure Active Directorya potom klikněte na uživatelé.
  3. Vyhledejte účet Microsoft uživatele a přejít na stránku s podrobnostmi uživatele. Klikněte na tlačítko přiřazené role.
  4. Klikněte na Přidat přiřazeníčtenáři adresářů. Pokud je tlačítko Přidat přiřazení zobrazené šedě, znamená to, že nemáte přístup. Pouze globální správce tohoto adresáře může přidat přiřazení uživatelům.

Viz také

Další kroky