Egyéni hang létrehozásaCreate a Custom Voice

Az Egyéni hangra való felkészüléssorán a különböző adattípusokat ismertetjük, amelyek segítségével betaníthatja az egyéni hangokat és a különböző formátumokra vonatkozó követelményeket.In Prepare data for Custom Voice, we described the different data types you can use to train a custom voice and the different format requirements. Az adatok előkészítése után megkezdheti a feltöltést az Egyéni hangportálra, vagy az egyéni hangképzési API-n keresztül.Once you have prepared your data, you can start to upload them to the Custom Voice portal, or through the Custom Voice training API. Itt ismertetjük az egyéni hangoknak a portálon keresztül történő betanításának lépéseit.Here we describe the steps of training a custom voice through the portal.

Megjegyzés

Ez az oldal azt feltételezi, hogy elolvasta az első lépéseket az egyéni hangon, és előkészíti az egyénihangfelvételt, és létrehozott egy egyéni hangprojektet.This page assumes you have read Get started with Custom Voice and Prepare data for Custom Voice, and have created a Custom Voice project.

Győződjön meg arról, hogy milyen nyelveken támogatott az egyéni hang: a Testreszabás nyelve.Check the languages supported for custom voice: language for customization.

Az adatkészletek feltöltéseUpload your datasets

Ha készen áll az adatok feltöltésére, nyissa meg az Egyéni hangportált.When you're ready to upload your data, go to the Custom Voice portal. Hozzon létre vagy válasszon ki egy egyéni hangprojektet.Create or select a Custom Voice project. A projektnek meg kell osztania a megfelelő nyelvi/területi beállításokat és a nemek tulajdonságait a hangképzéshez használni kívánt adatként.The project must share the right language/locale and the gender properties as the data you intent to use for your voice training. Válassza ki en-GB például, hogy az angol nyelvű hangfelvételek angol nyelvűek-e, és az Egyesült Királyság akcentusa.For example, select en-GB if the audio recordings you have is done in English with a UK accent.

Lépjen az adatok lapra, és kattintson az adatok feltöltéseelemre.Go to the Data tab and click Upload data. A varázslóban válassza ki a megfelelő adattípust, amely megfelel az előkészített előírásoknak.In the wizard, select the correct data type that matches what you have prepared.

A feltöltött adatkészleteknek meg kell felelniük a választott adattípusra vonatkozó követelményeknek.Each dataset you upload must meet the requirements for the data type that you choose. Fontos, hogy a feltöltés előtt megfelelően formázza az adatait.It is important to correctly format your data before it's uploaded. Ez biztosítja, hogy az egyéni hangszolgáltatás pontosan dolgozza fel az adatfeldolgozást.This ensures the data will be accurately processed by the Custom Voice service. Nyissa meg az Adatelőkészítés egyéni hangra lehetőséget, és győződjön meg róla, hogy az adatai helyesen vannak formázva.Go to Prepare data for Custom Voice and make sure your data has been rightly formatted.

Megjegyzés

Az ingyenes előfizetés (F0) felhasználói egyszerre két adatkészletet tölthetnek fel.Free subscription (F0) users can upload two datasets simultaneously. A standard előfizetés (S0) felhasználók öt adatkészletet tölthetnek fel egyszerre.Standard subscription (S0) users can upload five datasets simultaneously. Ha eléri a korlátot, várjon, amíg az adatkészletek közül legalább az egyik be nem fejeződik az importálás.If you reach the limit, wait until at least one of your datasets finishes importing. Ezután próbálkozzon újra.Then try again.

Megjegyzés

Az előfizetések által importálandó adatkészletek maximális száma 10. zip-fájl az ingyenes előfizetés (F0) felhasználóinak és a 500 a standard előfizetés (S0) felhasználói számára.The maximum number of datasets allowed to be imported per subscription is 10 .zip files for free subscription (F0) users and 500 for standard subscription (S0) users.

Az adatkészletek automatikusan érvényesítve lesznek a feltöltés gomb megnyomásakor.Datasets are automatically validated once you hit the upload button. Az adatellenőrzés a hangfájlok ellenőrzési sorozatát tartalmazza, hogy ellenőrizze a fájlformátumot, a méretet és a mintavételezési sebességet.Data validation includes series of checks on the audio files to verify their file format, size, and sampling rate. Javítsa ki a hibákat, és küldje el újra.Fix the errors if any and submit again. Az Adatimportálási kérelem sikeres kezdeményezése után egy olyan bejegyzést kell látnia az adattáblában, amely megfelel az imént feltöltött adatkészletnek.When the data-importing request is successfully initiated, you should see an entry in the data table that corresponds to the dataset you’ve just uploaded.

Az alábbi táblázat az importált adatkészletek feldolgozási állapotait mutatja be:The following table shows the processing states for imported datasets:

ÁllapotState JelentésMeaning
FeldolgozásProcessing Az adatkészlet beérkezett, és feldolgozás alatt áll.Your dataset has been received and is being processed.
SikeresSucceeded Az adatkészlet érvényesítve lett, és most már használható hangmodell létrehozásához.Your dataset has been validated and may now be used to build a voice model.
SikertelenFailed Az adatkészletet számos ok miatt meghiúsult a feldolgozás során, például a hibák, az adatproblémák vagy a hálózati problémák miatt.Your dataset has been failed during processing due to many reasons, for example file errors, data problems or network issues.

Az ellenőrzés befejezését követően a hosszúságú kimondott szöveg oszlopban megtekintheti az egyes adatkészletek egyező hosszúságú kimondott szöveg teljes számát.After validation is complete, you can see the total number of matched utterances for each of your datasets in the Utterances column. Ha a kiválasztott adattípus hosszú hangú szegmentálást igényel, ez az oszlop csak az Ön által az átiratok alapján vagy a Speech transzkripció Service-ben szegmentált hosszúságú kimondott szöveg tükrözi.If the data type you have selected requires long-audio segmentation, this column only reflects the utterances we have segmented for you either based on your transcripts or through the speech transcription service. A sikeresen importált hosszúságú kimondott szöveg és a hozzájuk tartozó leképezési átiratok részletes eredményeinek megtekintéséhez továbbra is letöltheti az érvényesített adatkészletet.You can further download the dataset validated to view the detail results of the utterances successfully imported and their mapping transcripts. Tipp: a hosszú hangú szegmentálás több mint egy órát is igénybe vehet az adatok feldolgozásának befejezéséhez.Hint: long-audio segmentation can take more than an hour to complete data processing.

Az en-US és a zh-CN adatkészletek esetében tovább letöltheti a jelentést, és megtekintheti a kiejtési pontszámokat és az egyes felvételek zajszintjét.For en-US and zh-CN datasets, you can further download a report to check the pronunciation scores and the noise level for each of your recordings. A kiejtés pontszáma 0 és 100 között lehet.The pronunciation score ranges from 0 to 100. A 70-es pontszám általában egy beszédfelismerési hibát vagy parancsfájl-eltérést jelez.A score below 70 normally indicates a speech error or script mismatch. A nagy hangsúlysal csökkentheti a kiejtési pontszámot, és hatással lehet a generált digitális hangra.A heavy accent can reduce your pronunciation score and impact the generated digital voice.

Egy magasabb, a hang-zaj arány (SNR) azt jelzi, hogy a hang alacsonyabb zajt mutat.A higher signal-to-noise ratio (SNR) indicates lower noise in your audio. A Professional Studióban való felvételsel általában 50 + SNR is elérhet.You can typically reach a 50+ SNR by recording at professional studios. A 20 alatti SNR rendelkező hang nyilvánvaló zajt eredményezhet a generált hangon.Audio with an SNR below 20 can result in obvious noise in your generated voice.

Gondolja át újra a hosszúságú kimondott szöveg az alacsony kiejtési pontszámokkal vagy a gyenge jelek és zaj arányával.Consider re-recording any utterances with low pronunciation scores or poor signal-to-noise ratios. Ha nem tudja újra felvenni a rekordot, kizárhatja ezeket a hosszúságú kimondott szöveg az adatkészletből.If you can't re-record, you might exclude those utterances from your dataset.

Egyéni hangmodell létrehozásaBuild your custom voice model

Az adatkészlet ellenőrzése után felhasználhatja az egyéni hangmodell összeállításához.After your dataset has been validated, you can use it to build your custom voice model.

  1. Navigáljon a szöveg-beszéd > egyéni hang > betanításelemre.Navigate to Text-to-Speech > Custom Voice > Training.

  2. Kattintson a tanítási modellelemre.Click Train model.

  3. Ezután adjon meg egy nevet és egy leírást , amely segítséget nyújt a modell azonosításához.Next, enter a Name and Description to help you identify this model.

    Gondosan válassza ki a nevet.Choose a name carefully. Az itt megadott név lesz az a név, amelyet a SSML-bevitel részeként a beszédfelismerési kérelemben szereplő hang megadására fog használni.The name you enter here will be the name you use to specify the voice in your request for speech synthesis as part of the SSML input. Csak betűket, számokat és néhány írásjelet (például:-, _, és (",") tartalmazhat.Only letters, numbers, and a few punctuation characters such as -, _, and (', ') are allowed. Használjon különböző neveket a különböző hangmodellekhez.Use different names for different voice models.

    A Leírás mező gyakori használata a modell létrehozásához használt adatkészletek nevének rögzítése.A common use of the Description field is to record the names of the datasets that were used to create the model.

  4. A betanítási adatok kiválasztása lapon válasszon ki egy vagy több olyan adatkészletet, amelyet a képzéshez használni szeretne.From the Select training data page, choose one or multiple datasets that you would like to use for training. Mielőtt elküldi a hosszúságú kimondott szöveg számát, tekintse át a következőt:.Check the number of utterances before you submit them. Az en-US és a zh-CN hangmodellek tetszőleges számú hosszúságú kimondott szöveg elkezdheti.You can start with any number of utterances for en-US and zh-CN voice models. Más területi beállítások esetén több mint 2 000 hosszúságú kimondott szöveg kell kijelölnie, hogy egy hang betanítható legyen.For other locales, you must select more than 2,000 utterances to be able to train a voice.

    Megjegyzés

    Az ismétlődő hangnevek el lesznek távolítva a betanításból.Duplicate audio names will be removed from the training. Győződjön meg arról, hogy a kiválasztott adatkészletek nem tartalmazzák ugyanazokat a hangneveket több. zip-fájlban.Make sure the datasets you select do not contain the same audio names across multiple .zip files.

    Tipp

    Az ugyanahhoz a beszélőhöz tartozó adatkészletek használata szükséges a minőségi eredményekhez.Using the datasets from the same speaker is required for quality results. Ha a betanításhoz beküldött adatkészletek teljes száma kevesebb, mint 6 000 különböző hosszúságú kimondott szöveg, akkor a hangmodellt a statisztikai számszerű szintézis technikán keresztül fogja betanítani.When the datasets you have submitted for training contain a total number of less than 6,000 distinct utterances, you will train your voice model through the Statistical Parametric Synthesis technique. Abban az esetben, ha a betanítási adat meghaladja a 6 000 különböző hosszúságú kimondott szöveg, a betanítási folyamat elindítható az összefűzési szintézis technikával.In the case where your training data exceeds a total number of 6,000 distinct utterances, you will kick off a training process with the Concatenation Synthesis technique. Az összefűzési technológia általában természetesebb és magasabb szintű hangfelismerési eredményeket eredményezhet.Normally the concatenation technology can result in more natural, and higher-fidelity voice results. Vegye fel a kapcsolatot az egyéni hangcsapattal , ha olyan modellt szeretne betanítani a legújabb neurális TTS-technológiával, amely képes a nyilvánosan elérhető neurális hangokkalegyenértékű digitális hang létrehozására.Contact the Custom Voice team if you want to train a model with the latest Neural TTS technology that can produce a digital voice equivalent to the publicly available neural voices.

  5. A hangmodell létrehozásának megkezdéséhez kattintson a tanítás elemre.Click Train to begin creating your voice model.

A betanítási táblázat egy új bejegyzést jelenít meg, amely megfelel az újonnan létrehozott modellnek.The Training table displays a new entry that corresponds to this newly created model. A tábla a következő állapotot is megjeleníti: feldolgozás, sikeres, sikertelen.The table also displays the status: Processing, Succeeded, Failed.

A megjelenített állapot az adatkészlet hangmodellre alakításának folyamatát tükrözi, ahogy az itt látható.The status that's shown reflects the process of converting your dataset to a voice model, as shown here.

ÁllapotState JelentésMeaning
FeldolgozásProcessing A hangmodell létrehozása folyamatban van.Your voice model is being created.
SikeresSucceeded A hangmodell létrehozása megtörtént, és üzembe helyezhető.Your voice model has been created and can be deployed.
SikertelenFailed A hangmodell sok ok miatt sikertelen volt a képzésben, például a láthatatlan adatproblémákkal vagy a hálózati problémákkal kapcsolatban.Your voice model has been failed in training due to many reasons, for example unseen data problems or network issues.

A betanítási idő a feldolgozott hangadatok mennyiségétől függően változhat.Training time varies depending on the volume of audio data processed. Az átlagos időintervallum körülbelül 30 percet vesz igénybe, több száz hosszúságú kimondott szöveg 40 óráig 20 000 hosszúságú kimondott szöveg.Typical times range from about 30 minutes for hundreds of utterances to 40 hours for 20,000 utterances. Ha a modell betanítása sikeres volt, elkezdheti a tesztelést.Once your model training is succeeded, you can start to test it.

Megjegyzés

Az ingyenes előfizetés (F0) felhasználói egyszerre egy hangbetűtípust tudnak betanítani.Free subscription (F0) users can train one voice font simultaneously. A standard előfizetés (S0) felhasználói egyszerre három hangokat is betanítanak.Standard subscription (S0) users can train three voices simultaneously. Ha eléri a korlátot, várjon, amíg a hangbetűkészletek közül legalább az egyik befejeződik, majd próbálkozzon újra.If you reach the limit, wait until at least one of your voice fonts finishes training, and then try again.

Megjegyzés

Az előfizetéshez engedélyezett hangmodellek maximális száma 10 modell ingyenes előfizetés (F0) felhasználóhoz és 100 a standard előfizetés (S0) felhasználói számára.The maximum number of voice models allowed to be trained per subscription is 10 models for free subscription (F0) users and 100 for standard subscription (S0) users.

Ha a neurális hangképzési funkciót használja, kiválaszthatja a valós idejű adatfolyam-forgatókönyvekre optimalizált modellek betanítását, vagy egy olyan HD neurális modellt, amely aszinkron, hosszú hangszintézisrevan optimalizálva.If you are using the neural voice training capability, you can select to train a model optimized for real-time streaming scenarios, or a HD neural model optimized for asynchronous long-audio synthesis.

A hangmodell teszteléseTest your voice model

A hangalapú betűkészlet sikeres létrehozása után tesztelheti a használatát a használathoz való üzembe helyezése előtt.After your voice font is successfully built, you can test it before deploying it for use.

  1. Navigáljon a szöveg-beszéd > egyéni hang > a teszteléshez.Navigate to Text-to-Speech > Custom Voice > Testing.

  2. Kattintson a teszt hozzáadásagombra.Click Add test.

  3. Válasszon ki egy vagy több modellt, amelyet szeretne tesztelni.Select one or multiple models that you would like to test.

  4. Adja meg azt a szöveget, amelyet a hang (ok) hoz beszélni kíván.Provide the text you want the voice(s) to speak. Ha egyszerre több modell tesztelését választotta, akkor a rendszer ugyanazt a szöveget fogja használni a különböző modellek teszteléséhez.If you have selected to test multiple models at one time, the same text will be used for the testing for different models.

    Megjegyzés

    A szöveg nyelvének meg kell egyeznie a hang betűkészletének nyelvével.The language of your text must be the same as the language of your voice font. Csak a sikeresen betanított modellek tesztelése lehetséges.Only successfully trained models can be tested. Ebben a lépésben csak egyszerű szöveg támogatott.Only plain text is supported in this step.

  5. Kattintson a Létrehozásgombra.Click Create.

A tesztelési kérelem elküldése után vissza fog térni a teszt lapra.Once you have submitted your test request, you will return to the test page. A tábla most már tartalmaz egy bejegyzést, amely megfelel az új kérésnek és az állapot oszlopnak.The table now includes an entry that corresponds to your new request and the status column. Néhány percet is igénybe vehet a beszédfelismerés.It can take a few minutes to synthesize speech. Ha az Állapot oszlopban a sikeresművelet látható, lejátszhatja a hangot, vagy letöltheti a szövegbeviteli szöveget (egy. txt fájlt) és hangkimenetet (egy. wav fájlt), és az utóbbit a minőségre is meghallgathatja.When the status column says Succeeded, you can play the audio, or download the text input (a .txt file) and audio output (a .wav file), and further audition the latter for quality.

A teszt eredményeit a teszteléshez kiválasztott egyes modellek részletek lapján is megtalálhatja.You can also find the test results in the detail page of each models you have selected for testing. Lépjen a képzés lapra, és kattintson a modell nevére a modell részletei lap megadásához.Go to the Training tab, and click the model name to enter the model detail page.

Egyéni hang-végpont létrehozása és használataCreate and use a custom voice endpoint

Miután sikeresen létrehozta és tesztelte a hangmodellt, egy egyéni szöveg-beszéd végponton helyezheti üzembe.After you've successfully created and tested your voice model, you deploy it in a custom Text-to-Speech endpoint. Ezután ezt a végpontot használja a szokásos végpont helyett, amikor szöveg-beszéd kéréseket végez a REST APIon keresztül.You then use this endpoint in place of the usual endpoint when making Text-to-Speech requests through the REST API. Az egyéni végpontot csak a betűkészlet üzembe helyezéséhez használt előfizetés hívhatja meg.Your custom endpoint can be called only by the subscription that you have used to deploy the font.

Új egyéni hangvégpont létrehozásához lépjen a szöveg-beszéd > egyéni hang > üzembe helyezéselemre.To create a new custom voice endpoint, go to Text-to-Speech > Custom Voice > Deployment. Válassza a végpont hozzáadása lehetőséget, és adja meg az egyéni végpont nevét és leírását .Select Add endpoint and enter a Name and Description for your custom endpoint. Ezután válassza ki azt az egyéni hangmodellt, amelyet hozzá szeretne rendelni ehhez a végponthoz.Then select the custom voice model you would like to associate with this endpoint.

Miután rákattintott a Hozzáadás gombra, a végpont táblában megjelenik egy bejegyzés az új végponthoz.After you have clicked the Add button, in the endpoint table, you will see an entry for your new endpoint. Egy új végpont létrehozását eltarthat néhány percig.It may take a few minutes to instantiate a new endpoint. Ha a központi telepítés állapota sikeres, a végpont készen áll a használatra.When the status of the deployment is Succeeded, the endpoint is ready for use.

Megjegyzés

Az ingyenes előfizetés (F0) felhasználóinak csak egy modelljét lehet központilag telepíteni.Free subscription (F0) users can have only one model deployed. A standard előfizetés (S0) felhasználók legfeljebb 50 végpontot hozhatnak létre, amelyek mindegyike saját egyéni hanggal rendelkezik.Standard subscription (S0) users can create up to 50 endpoints, each with its own custom voice.

Megjegyzés

Az egyéni hang használatához meg kell adnia a hangmodell nevét, az egyéni URI-t közvetlenül egy HTTP-kérelemben kell használnia, és ugyanazt az előfizetést kell használnia a TTS szolgáltatás hitelesítésének továbbítására.To use your custom voice, you must specify the voice model name, use the custom URI directly in an HTTP request, and use the same subscription to pass through the authentication of TTS service.

A végpont üzembe helyezése után a végpont neve hivatkozásként jelenik meg.After your endpoint is deployed, the endpoint name appears as a link. Kattintson a hivatkozásra a végpontra jellemző információk megjelenítéséhez, például a végponti kulcs, a végpont URL-címe és a mintakód számára.Click the link to display information specific to your endpoint, such as the endpoint key, endpoint URL, and sample code.

A végpont online tesztelése az egyéni hangportálon keresztül is elérhető.Online testing of the endpoint is also available via the custom voice portal. A végpont teszteléséhez válassza a végpont ellenőrzése lehetőséget a végpont részletei lapon.To test your endpoint, choose Check endpoint from the Endpoint detail page. Megjelenik az Endpoint Testing (végpont tesztelése) oldal.The endpoint testing page appears. Adja meg a megjelenítendő szöveget (egyszerű szöveges vagy SSML formátumban a szövegmezőben.Enter the text to be spoken (in either plain text or SSML format in the text box. Ha szeretné meghallgatni az egyéni hangbetűtípusban elhangzó szöveget, válassza a Lejátszáslehetőséget.To hear the text spoken in your custom voice font, select Play. Ez a tesztelési funkció az egyéni beszédfelismerési használatért lesz felszámítva.This testing feature will be charged against your custom speech synthesis usage.

Az egyéni végpont funkcionálisan megegyezik a szöveg-beszéd kérelmekhez használt standard végponttal.The custom endpoint is functionally identical to the standard endpoint that's used for text-to-speech requests. További információ: REST API .See REST API for more information.

További lépésekNext steps