Vytvoření vlastního hlasuCreate a Custom Voice

V části Příprava dat pro vlastní hlasjsme popsali různé typy dat, které můžete použít k učení vlastního hlasu a různých požadavků na formát.In Prepare data for Custom Voice, we described the different data types you can use to train a custom voice and the different format requirements. Po přípravě dat je můžete začít nahrávat do vlastního hlasového portálunebo pomocí rozhraní API pro vlastní hlasové školení.Once you have prepared your data, you can start to upload them to the Custom Voice portal, or through the Custom Voice training API. Tady popisujeme kroky školení vlastního hlasu prostřednictvím portálu.Here we describe the steps of training a custom voice through the portal.

Poznámka

Tato stránka předpokládá, že jste si přečetli Začínáme s vlastním hlasem a připravují data pro vlastní hlasa vytvořili vlastní hlasový projekt.This page assumes you have read Get started with Custom Voice and Prepare data for Custom Voice, and have created a Custom Voice project.

Podívejte se na jazyky podporované pro vlastní hlas: jazyk pro přizpůsobení.Check the languages supported for custom voice: language for customization.

Nahrání datových sadUpload your datasets

Až budete připraveni na nahrání dat, přejdete na vlastní hlasový portál.When you're ready to upload your data, go to the Custom Voice portal. Vytvořte nebo vyberte vlastní projekt hlasu.Create or select a Custom Voice project. Projekt musí sdílet správný jazyk/národní prostředí a vlastnosti pohlaví jako data, která chcete použít pro hlasové školení.The project must share the right language/locale and the gender properties as the data you intent to use for your voice training. Vyberte například en-GB, pokud se zvukové nahrávky provedly v angličtině se zvýrazněním na Velká Británie.For example, select en-GB if the audio recordings you have is done in English with a UK accent.

Přejděte na kartu data a klikněte na Odeslat data.Go to the Data tab and click Upload data. V průvodci vyberte správný datový typ, který odpovídá, co jste připravili.In the wizard, select the correct data type that matches what you have prepared.

Každá datová sada, kterou nahráváte, musí splňovat požadavky na datový typ, který zvolíte.Each dataset you upload must meet the requirements for the data type that you choose. Před nahráním dat je důležité data správně naformátovat.It is important to correctly format your data before it's uploaded. Tím se zajistí, že se data budou přesně zpracovávat pomocí vlastní hlasové služby.This ensures the data will be accurately processed by the Custom Voice service. Přejít na Příprava dat pro vlastní hlas a zajistěte, aby byla data ve správném formátu.Go to Prepare data for Custom Voice and make sure your data has been rightly formatted.

Poznámka

Uživatelé bezplatného předplatného (F0) můžou nahrávat dvě datové sady současně.Free subscription (F0) users can upload two datasets simultaneously. Standardní předplatné (S0) uživatelé můžou nahrávat pět datových sad současně.Standard subscription (S0) users can upload five datasets simultaneously. Pokud dosáhnete limitu, počkejte na dokončení importu alespoň jedné z vašich datových sad.If you reach the limit, wait until at least one of your datasets finishes importing. Pak to zkuste znovu.Then try again.

Poznámka

Maximální počet datových sad povolených pro import na jedno předplatné je 10 souborů. zip pro uživatele bezplatného předplatného (F0) a 500 pro uživatele Standard Subscription (S0).The maximum number of datasets allowed to be imported per subscription is 10 .zip files for free subscription (F0) users and 500 for standard subscription (S0) users.

Datové sady se po stisknutí tlačítka Odeslat automaticky ověřují.Datasets are automatically validated once you hit the upload button. Ověřování dat zahrnuje sérii kontrol zvukových souborů pro ověření jejich formátu, velikosti a vzorkovací frekvence.Data validation includes series of checks on the audio files to verify their file format, size, and sampling rate. Opravte chyby, pokud nějaké existují, a odešlete je znovu.Fix the errors if any and submit again. Po úspěšném zahájení žádosti o import dat by se měla zobrazit položka v tabulce dat, která odpovídá datové sadě, kterou jste právě Nahráli.When the data-importing request is successfully initiated, you should see an entry in the data table that corresponds to the dataset you’ve just uploaded.

V následující tabulce jsou uvedeny stavy zpracování pro importované datové sady:The following table shows the processing states for imported datasets:

StavState VýznamMeaning
ZpracováníProcessing Vaše datová sada byla přijata a je zpracovávána.Your dataset has been received and is being processed.
ÚspěchSucceeded Vaše datová sada byla ověřena a lze ji nyní použít k sestavení hlasového modelu.Your dataset has been validated and may now be used to build a voice model.
SelhaloFailed Vaše datová sada se během zpracování v důsledku mnoha důvodů nezdařila, například chyby souborů, problémy s daty nebo problémy se sítí.Your dataset has been failed during processing due to many reasons, for example file errors, data problems or network issues.

Po dokončení ověření uvidíte celkový počet odpovídajících projevy pro každou datovou sadu ve sloupci projevy .After validation is complete, you can see the total number of matched utterances for each of your datasets in the Utterances column. Pokud datový typ, který jste vybrali, vyžaduje segmentaci dlouhého zvuku, tento sloupec odráží jenom projevy, které jsme pro vás segmentoval buď na základě vašich přepisů, nebo prostřednictvím služby přepisu řeči.If the data type you have selected requires long-audio segmentation, this column only reflects the utterances we have segmented for you either based on your transcripts or through the speech transcription service. Můžete ještě více stáhnout datovou sadu, která je ověřená, aby se zobrazily podrobné výsledky projevy úspěšně naimportované a jejich přepisů mapování.You can further download the dataset validated to view the detail results of the utterances successfully imported and their mapping transcripts. Pomocný parametr: dlouhé segmentace zvuku může trvat déle než hodinu, než se zpracování dat dokončí.Hint: long-audio segmentation can take more than an hour to complete data processing.

U datových sad en-US a zh-CN můžete dál stahovat sestavu pro kontrolu skóre výslovnosti a úrovně hluku pro každé vaše nahrávky.For en-US and zh-CN datasets, you can further download a report to check the pronunciation scores and the noise level for each of your recordings. Skóre výslovnosti je rozsah od 0 do 100.The pronunciation score ranges from 0 to 100. Skóre nižší než 70 (normálně) indikuje chybu řeči nebo neshoda skriptu.A score below 70 normally indicates a speech error or script mismatch. Hodně zdůraznění může snížit vaše výsledky výslovnosti a ovlivnit vygenerovaný digitální hlas.A heavy accent can reduce your pronunciation score and impact the generated digital voice.

Vyšší poměr mezi signálem a hlukem (SNR) znamená nižší šum ve zvukovém prostředí.A higher signal-to-noise ratio (SNR) indicates lower noise in your audio. Můžete obvykle dosáhnout 50 + SNR záznamem na Professional studia.You can typically reach a 50+ SNR by recording at professional studios. Zvuk s SNRem nižším než 20 může vést k zjevnému šumu ve vygenerovaném hlasu.Audio with an SNR below 20 can result in obvious noise in your generated voice.

Zvažte opětovné zaznamenávání všech projevy s nízkými výslovnostmi nebo nedostatečnými poměry k hluku.Consider re-recording any utterances with low pronunciation scores or poor signal-to-noise ratios. Pokud se nemůžete znovu nahrávat, můžete tyto projevy z datové sady vyloučit.If you can't re-record, you might exclude those utterances from your dataset.

Sestavení vlastního hlasového modeluBuild your custom voice model

Po ověření datové sady ji můžete použít k sestavení vlastního hlasového modelu.After your dataset has been validated, you can use it to build your custom voice model.

  1. Přejděte na text na řeč > Custom Voice > Training.Navigate to Text-to-Speech > Custom Voice > Training.

  2. Klikněte na výuka model.Click Train model.

  3. Potom zadejte název a Popis , který vám usnadní identifikaci tohoto modelu.Next, enter a Name and Description to help you identify this model.

    Vyberte název pečlivě.Choose a name carefully. Název, který zde zadáte, bude název, který použijete k zadání hlasu v žádosti o Shrnutí řeči v rámci vstupu SSMLu.The name you enter here will be the name you use to specify the voice in your request for speech synthesis as part of the SSML input. Povolena jsou pouze písmena, číslice a znaky interpunkce, například-, _a (', ').Only letters, numbers, and a few punctuation characters such as -, _, and (', ') are allowed. Pro různé modely hlasu použijte jiné názvy.Use different names for different voice models.

    Běžné použití pole Description je záznam názvů datových sad, které byly použity k vytvoření modelu.A common use of the Description field is to record the names of the datasets that were used to create the model.

  4. Na stránce Vybrat data školení zvolte jednu nebo více datových sad, které chcete použít pro školení.From the Select training data page, choose one or multiple datasets that you would like to use for training. Před odesláním projevy ověřte jeho počet.Check the number of utterances before you submit them. Můžete začít s libovolným počtem projevy pro hlasové modely en-US a zh-CN.You can start with any number of utterances for en-US and zh-CN voice models. Pro ostatní národní prostředí musíte vybrat více než 2 000 projevy, aby bylo možné naučit hlas.For other locales, you must select more than 2,000 utterances to be able to train a voice.

    Poznámka

    Z školení se odeberou duplicitní názvy zvuku.Duplicate audio names will be removed from the training. Ujistěte se, že datové sady, které vyberete, neobsahují stejné zvukové názvy v několika souborech. zip.Make sure the datasets you select do not contain the same audio names across multiple .zip files.

    Tip

    Pro výsledky kvality se vyžaduje použití datových sad ze stejného mluvčího.Using the datasets from the same speaker is required for quality results. Pokud datové sady, které jste odeslali pro školení, obsahují celkový počet menší než 6 000 jedinečných projevy, budete svůj hlasový model předávat prostřednictvím techniky syntézy statistických ukazatelů.When the datasets you have submitted for training contain a total number of less than 6,000 distinct utterances, you will train your voice model through the Statistical Parametric Synthesis technique. V případě, že vaše školicí data překročí celkový počet 6 000 jedinečných projevy, zahájíte školicí proces s technikou syntézy zřetězení.In the case where your training data exceeds a total number of 6,000 distinct utterances, you will kick off a training process with the Concatenation Synthesis technique. Technologie zřetězení obvykle může mít za následek větší přirozený a vyšší přesnost hlasových výsledků.Normally the concatenation technology can result in more natural, and higher-fidelity voice results. Pokud chcete vytvořit model s nejnovější technologií neuronové TTS, která může vytvořit digitální hlasový ekvivalent veřejně dostupných hlasů neuronové, obraťte se na vlastního hlasového týmu .Contact the Custom Voice team if you want to train a model with the latest Neural TTS technology that can produce a digital voice equivalent to the publically available neural voices.

  5. Klikněte na výuka a začněte vytvářet svůj hlasový model.Click Train to begin creating your voice model.

V tabulce školení se zobrazí nová položka, která odpovídá nově vytvořenému modelu.The Training table displays a new entry that corresponds to this newly created model. V tabulce se zobrazí také stav: zpracování, úspěch, selhalo.The table also displays the status: Processing, Succeeded, Failed.

Zobrazený stav odráží proces převodu datové sady na hlasový model, jak je znázorněno zde.The status that's shown reflects the process of converting your dataset to a voice model, as shown here.

StavState VýznamMeaning
ZpracováníProcessing Probíhá vytváření hlasového modelu.Your voice model is being created.
ÚspěchSucceeded Váš hlasový model byl vytvořen a lze jej nasadit.Your voice model has been created and can be deployed.
SelhaloFailed Váš hlasový model se v rámci školení nezdařil z důvodu mnoha důvodů, například problémy s nezpracovanými daty nebo problémy se sítí.Your voice model has been failed in training due to many reasons, for example unseen data problems or network issues.

Doba školení se liší v závislosti na objemu zpracovaných zvukových dat.Training time varies depending on the volume of audio data processed. Typický časový rozsah od přibližně 30 minut po stovky projevy až 40 hodin za 20 000 projevy.Typical times range from about 30 minutes for hundreds of utterances to 40 hours for 20,000 utterances. Po úspěšném školení o modelu ho můžete začít testovat.Once your model training is succeeded, you can start to test it.

Poznámka

Uživatelé bezplatného předplatného (F0) mohou současně vyškolit jedno písmo hlasu.Free subscription (F0) users can train one voice font simultaneously. Standardní předplatné (S0) uživatelé můžou doškolit tři hlasy současně.Standard subscription (S0) users can train three voices simultaneously. Pokud dosáhnete limitu, počkejte, dokud alespoň jedno z vašich hlasových písem dokončí školení, a akci opakujte.If you reach the limit, wait until at least one of your voice fonts finishes training, and then try again.

Poznámka

Maximální počet hlasových modelů, které je možné vyškolet na předplatné, je 10 modelů pro uživatele bezplatného předplatného (F0) a 100 pro uživatele Standard Subscription (S0).The maximum number of voice models allowed to be trained per subscription is 10 models for free subscription (F0) users and 100 for standard subscription (S0) users.

Pokud používáte funkci neuronové Voice Training, můžete si vybrat, abyste mohli vytvořit model optimalizovaný pro scénáře streamování v reálném čase nebo model HD neuronové optimalizované pro asynchronní dlouhodobézpracování dat.If you are using the neural voice training capability, you can select to train a model optimized for real-time streaming scenarios, or a HD neural model optimized for asynchronous long-audio synthesis.

Testování hlasového modeluTest your voice model

Po úspěšném vytvoření hlasového písma ho můžete před nasazením pro použití otestovat.After your voice font is successfully built, you can test it before deploying it for use.

  1. Přejděte k převodu textu na řeč > vlastního hlasového > testování.Navigate to Text-to-Speech > Custom Voice > Testing.

  2. Klikněte na Přidat test.Click Add test.

  3. Vyberte jeden nebo více modelů, které chcete testovat.Select one or multiple models that you would like to test.

  4. Zadejte text, který chcete mluvit s hlasem.Provide the text you want the voice(s) to speak. Pokud jste vybrali možnost testování více modelů najednou, bude stejný text použit pro testování různých modelů.If you have selected to test multiple models at one time, the same text will be used for the testing for different models.

    Poznámka

    Jazyk textu musí být stejný jako jazyk vašeho hlasového písma.The language of your text must be the same as the language of your voice font. Testovat lze pouze úspěšně proučené modely.Only successfully trained models can be tested. V tomto kroku je podporován pouze prostý text.Only plain text is supported in this step.

  5. Klikněte na Vytvořit.Click Create.

Jakmile odešlete žádost o test, vrátíte se na stránku test.Once you have submitted your test request, you will return to the test page. Tabulka nyní obsahuje položku, která odpovídá vaší nové žádosti a sloupci Stav.The table now includes an entry that corresponds to your new request and the status column. Vysyntetizování řeči může trvat několik minut.It can take a few minutes to synthesize speech. Když se sloupec Stav úspěšnědožádaný, můžete přehrát zvuk, nebo si stáhnout textový vstup (soubor. txt) a zvukový výstup (soubor. wav) a další Audition k jeho kvalitě.When the status column says Succeeded, you can play the audio, or download the text input (a .txt file) and audio output (a .wav file), and further audition the latter for quality.

Výsledky testu můžete také najít na stránce podrobností u jednotlivých modelů, které jste vybrali pro testování.You can also find the test results in the detail page of each models you have selected for testing. Přejděte na kartu školení a kliknutím na název modelu zadejte stránku s podrobnostmi o modelu.Go to the Training tab, and click the model name to enter the model detail page.

Vytvoření a použití vlastního koncového bodu hlasuCreate and use a custom voice endpoint

Po úspěšném vytvoření a otestování vašeho hlasového modelu ho nasadíte do vlastního koncového bodu pro převod textu na řeč.After you've successfully created and tested your voice model, you deploy it in a custom Text-to-Speech endpoint. Tento koncový bod pak použijete místo obvyklého koncového bodu při vytváření požadavků na převod textu na řeč prostřednictvím REST API.You then use this endpoint in place of the usual endpoint when making Text-to-Speech requests through the REST API. Váš vlastní koncový bod může být volán pouze předplatným, které jste použili k nasazení písma.Your custom endpoint can be called only by the subscription that you have used to deploy the font.

Pokud chcete vytvořit nový vlastní hlasový koncový bod, přečtěte si text na řeč > vlastního nasazení hlasových > .To create a new custom voice endpoint, go to Text-to-Speech > Custom Voice > Deployment. Vyberte přidat koncový bod a zadejte název a Popis vlastního koncového bodu.Select Add endpoint and enter a Name and Description for your custom endpoint. Pak vyberte vlastní hlasový model, který chcete přidružit k tomuto koncovému bodu.Then select the custom voice model you would like to associate with this endpoint.

Po kliknutí na tlačítko Přidat se v tabulce koncového bodu zobrazí položka pro nový koncový bod.After you have clicked the Add button, in the endpoint table, you will see an entry for your new endpoint. Vytvoření instance nového koncového bodu může trvat několik minut.It may take a few minutes to instantiate a new endpoint. Po úspěšnémstavu nasazení je koncový bod připravený k použití.When the status of the deployment is Succeeded, the endpoint is ready for use.

Poznámka

Uživatelé bezplatného předplatného (F0) můžou mít nasazený jenom jeden model.Free subscription (F0) users can have only one model deployed. Standardní předplatné (S0) může vytvořit až 50 koncových bodů, z nichž každý má vlastní hlas.Standard subscription (S0) users can create up to 50 endpoints, each with its own custom voice.

Poznámka

Pokud chcete použít vlastní hlas, musíte zadat název hlasového modelu, použít vlastní URI přímo v požadavku HTTP a použít stejné předplatné k předání ověřování služby TTS.To use your custom voice, you must specify the voice model name, use the custom URI directly in an HTTP request, and use the same subscription to pass through the authentication of TTS service.

Po nasazení koncového bodu se název koncového bodu zobrazí jako odkaz.After your endpoint is deployed, the endpoint name appears as a link. Kliknutím na odkaz zobrazíte informace, které jsou specifické pro váš koncový bod, jako je klíč koncového bodu, adresa URL koncového bodu a ukázkový kód.Click the link to display information specific to your endpoint, such as the endpoint key, endpoint URL, and sample code.

Online testování koncového bodu je dostupné taky prostřednictvím vlastního hlasového portálu.Online testing of the endpoint is also available via the custom voice portal. Chcete-li otestovat koncový bod, vyberte možnost zkontrolovat koncový bod na stránce s podrobnostmi koncového bodu.To test your endpoint, choose Check endpoint from the Endpoint detail page. Zobrazí se stránka testování koncového bodu.The endpoint testing page appears. Do textového pole zadejte text, který chcete vymluveného textu (ve formátu prostého textu nebo SSML ).Enter the text to be spoken (in either plain text or SSML format in the text box. Chcete-li slyšet text mluvený ve vlastním hlasovém písmu, vyberte možnost Přehrát.To hear the text spoken in your custom voice font, select Play. Tato funkce testování se bude účtovat za vaše vlastní použití funkce pro syntézu řeči.This testing feature will be charged against your custom speech synthesis usage.

Vlastní koncový bod je funkčně stejný jako standardní koncový bod, který se používá pro požadavky převodu textu na řeč.The custom endpoint is functionally identical to the standard endpoint that's used for text-to-speech requests. Další informace najdete v tématu REST API .See REST API for more information.

Další krokyNext steps