Příprava dat pro vytvoření vlastního hlasuPrepare data to create a custom voice

Až budete připraveni vytvořit vlastní hlas pro převod textu na řeč, je prvním krokem shromáždění zvukového záznamu a přidružených skriptů pro zahájení školení v hlasovém modelu.When you're ready to create a custom text-to-speech voice for your application, the first step is to gather audio recordings and associated scripts to start training the voice model. Služba Speech používá tato data k vytvoření jedinečného hlasu optimalizovaného pro vyhledání hlasu v záznamech.The Speech service uses this data to create a unique voice tuned to match the voice in the recordings. Po školení hlasu můžete v aplikacích začít syntetizovat řeč.After you've trained the voice, you can start synthesizing speech in your applications.

Můžete začít s malým množstvím dat, abyste mohli vytvořit zkoušku konceptu.You can start with a small amount of data to create a proof of concept. Další data, která zadáte, ale tím větší je, že váš vlastní hlas bude zvuk.However, the more data that you provide, the more natural your custom voice will sound. Než budete moct naučit vlastní hlasový model pro převod textu na řeč, budete potřebovat zvukové nahrávky a související text.Before you can train your own text-to-speech voice model, you'll need audio recordings and the associated text transcriptions. Na této stránce zkontrolujeme typy dat, způsob jejich použití a způsob jejich správy.On this page, we'll review data types, how they are used, and how to manage each.

Typy datData types

Datová sada pro hlasové školení obsahuje zvukové nahrávky a textový soubor s přidruženými přepisy.A voice training dataset includes audio recordings, and a text file with the associated transcriptions. Každý zvukový soubor by měl obsahovat jednu utterance (jednu větu nebo jednu jako systém dialogového okna) a musí být kratší než 15 sekund.Each audio file should contain a single utterance (a single sentence or a single turn for a dialog system), and be less than 15 seconds long.

V některých případech nemusíte mít správnou datovou sadu, která je připravená a bude chtít testovat vlastní hlasové školení s dostupnými zvukovými soubory, které jsou krátké i dlouhé, s přepisy nebo bez nich.In some cases, you may not have the right dataset ready and will want to test the custom voice training with available audio files, short or long, with or without transcripts. Poskytujeme nástroje (beta), které vám pomůžou rozdělit zvuk do projevy a připravit přepisy pomocí rozhraní API služby Batch pro přepis.We provide tools (beta) to help you segment your audio into utterances and prepare transcripts using the Batch Transcription API.

Tato tabulka obsahuje seznam datových typů a jejich využití k vytvoření vlastního hlasového modelu pro převod textu na řeč.This table lists data types and how each is used to create a custom text-to-speech voice model.

Data typeData type PopisDescription When to useWhen to use Vyžaduje se další služba.Additional service required Množství pro školení modeluQuantity for training a model Národní prostředí (y)Locale(s)
Individuální projevy + vyhovující přepisIndividual utterances + matching transcript Kolekce (. zip) zvukových souborů (. wav) jako samostatného projevy.A collection (.zip) of audio files (.wav) as individual utterances. Každý zvukový soubor by měl mít délku 15 sekund nebo méně, spárováno s formátovaným přepisem (. txt).Each audio file should be 15 seconds or less in length, paired with a formatted transcript (.txt). Profesionální nahrávky s vyhovujícími PřepisyProfessional recordings with matching transcripts Připraveno pro školení.Ready for training. Žádný tvrdý požadavek pro en-US a zh-CN.No hard requirement for en-US and zh-CN. Více než 2000 + DISTINCT projevy pro ostatní národní prostředí.More than 2,000+ distinct utterances for other locales. Všechna vlastní hlasová prostředíAll Custom Voice locales
Dlouhý zvuk + přepis (beta verze)Long audio + transcript (beta) Kolekce (ZIP) dlouhých, nesegmentované zvukové soubory (delší než 20 sekund) spárované s přepisem (. txt), který obsahuje všechna mluvený text.A collection (.zip) of long, unsegmented audio files (longer than 20 seconds), paired with a transcript (.txt) that contains all spoken words. Máte zvukové soubory a vyhovující přepisy, ale nesegmentují se na projevy.You have audio files and matching transcripts, but they are not segmented into utterances. Segmentace (pomocí dávkového přepisu).Segmentation (using batch transcription).
V případě potřeby transformuje formát zvuku.Audio format transformation where required.
Žádný pevný požadavekNo hard requirement Všechna vlastní hlasová prostředíAll Custom Voice locales
Jenom zvuk (beta verze)Audio only (beta) Kolekce (. zip) zvukových souborů bez přepisu.A collection (.zip) of audio files without a transcript. Máte k dispozici pouze zvukové soubory bez přepisů.You only have audio files available, without transcripts. Segmentace a generování přepisu (pomocí dávkového přepisu).Segmentation + transcript generation (using batch transcription).
V případě potřeby transformuje formát zvuku.Audio format transformation where required.
Žádný pevný požadavekNo hard requirement Všechna vlastní hlasová prostředíAll Custom Voice locales

Soubory by měly být seskupené podle typu do datové sady a nahrané jako soubor zip.Files should be grouped by type into a dataset and uploaded as a zip file. Každá datová sada může obsahovat pouze jeden datový typ.Each dataset can only contain a single data type.

Poznámka

Maximální počet datových sad povolených pro import na jedno předplatné je 10 souborů. zip pro uživatele bezplatného předplatného (F0) a 500 pro uživatele Standard Subscription (S0).The maximum number of datasets allowed to be imported per subscription is 10 .zip files for free subscription (F0) users and 500 for standard subscription (S0) users.

Individuální projevy + vyhovující přepisIndividual utterances + matching transcript

Záznamy jednotlivých projevy a vyhovující přepisy můžete připravit dvěma způsoby.You can prepare recordings of individual utterances and the matching transcript in two ways. Napište skript a vyčtěte ho hlasovým talentůem, nebo využijte veřejně dostupný zvuk a přepisovat ho na text.Either write a script and have it read by a voice talent or use publicly available audio and transcribe it to text. Pokud to uděláte, upravte disfluencies ze zvukových souborů, jako je "um" a další zvuky s výplní, stutters, mumbled slova nebo nesprávné výslovnosti.If you do the latter, edit disfluencies from the audio files, such as "um" and other filler sounds, stutters, mumbled words, or mispronunciations.

Chcete-li vytvořit dobré písmo hlasu, vytvořte nahrávky v tiché místnosti pomocí vysoce kvalitního mikrofonu.To produce a good voice font, create the recordings in a quiet room with a high-quality microphone. Základem je konzistentní objem, míra speaking, rozteč mluveného slova a vyjádření mannerisms řeči.Consistent volume, speaking rate, speaking pitch, and expressive mannerisms of speech are essential.

Tip

Pokud chcete vytvořit hlas pro použití v produkčním prostředí, doporučujeme použít profesionální záznamový Studio a hlasový talentů.To create a voice for production use, we recommend you use a professional recording studio and voice talent. Další informace najdete v tématu Jak nahrávat ukázky hlasu pro vlastní hlas.For more information, see How to record voice samples for a custom voice.

Zvukové souboryAudio files

Každý zvukový soubor by měl obsahovat jednu utterance (jednu větu nebo jednu sadu dialogových oken), která trvá méně než 15 sekund.Each audio file should contain a single utterance (a single sentence or a single turn of a dialog system), less than 15 seconds long. Všechny soubory musí být ve stejném mluveném jazyce.All files must be in the same spoken language. Vlastní hlasy textu na řeč ve více jazycích nejsou podporované, s výjimkou české jazykové verze čínského jazyka.Multi-language custom text-to-speech voices are not supported, with the exception of the Chinese-English bi-lingual. Každý zvukový soubor musí mít jedinečný číselný název souboru s příponou názvu souboru. wav.Each audio file must have a unique numeric filename with the filename extension .wav.

Při přípravě zvuku postupujte podle těchto pokynů.Follow these guidelines when preparing audio.

VlastnostProperty HodnotaValue
Formát souboruFile format RIFF (. wav) seskupené do souboru. zipRIFF (.wav), grouped into a .zip file
Míra vzorkováníSampling rate Minimálně 16 000 HzAt least 16,000 Hz
Vzorový formátSample format PCM, 16 bitůPCM, 16-bit
Název souboruFile name Číslo s příponou. wav.Numeric, with .wav extension. Nejsou povoleny žádné duplicitní názvy souborů.No duplicate file names allowed.
Délka zvukuAudio length Kratší než 15 sekundShorter than 15 seconds
Formát archivuArchive format .zip.zip
Maximální velikost archivuMaximum archive size 2048 MB2048 MB

Poznámka

soubory. wav s vzorkovací frekvencí nižší než 16 000 Hz budou odmítnuty..wav files with a sampling rate lower than 16,000 Hz will be rejected. Pokud soubor. zip obsahuje soubory. wav s různými vzorkovacími sazbami, naimportují se jenom ty, které se rovnají nebo jsou vyšší než 16 000 Hz.If a .zip file contains .wav files with different sample rates, only those equal to or higher than 16,000 Hz will be imported. Portál aktuálně importuje soubory. archivu. zip až do 200 MB.The portal currently imports .zip archives up to 200 MB. Lze však odeslat více archivů.However, multiple archives can be uploaded.

PřepisůTranscripts

Soubor přepisu je soubor s prostým textem.The transcription file is a plain text file. Pomocí těchto pokynů Připravte přepisy.Use these guidelines to prepare your transcriptions.

VlastnostProperty HodnotaValue
Formát souboruFile format Prostý text (. txt)Plain text (.txt)
Formát kódováníEncoding format ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE nebo UTF-16-.ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE, or UTF-16-BE. Pro kódování zh-CN, ANSI/ASCII a UTF-8 nejsou podporovány.For zh-CN, ANSI/ASCII and UTF-8 encodings are not supported.
Počet promluv na řádek# of utterances per line Jeden -každý řádek souboru přepisu by měl obsahovat název jednoho ze zvukových souborů následovaný odpovídajícím přepisem.One - Each line of the transcription file should contain the name of one of the audio files, followed by the corresponding transcription. Název souboru a přepis by měly být oddělené tabulátorem (\t).The file name and transcription should be separated by a tab (\t).
Maximální velikost souboruMaximum file size 2048 MB2048 MB

Níže je uveden příklad, jak jsou přepisy uspořádány utterance by utterance v jednom souboru. txt:Below is an example of how the transcripts are organized utterance by utterance in one .txt file:

0000000001[tab] This is the waistline, and it's falling.
0000000002[tab] We have trouble scoring.
0000000003[tab] It was Janet Maslin.

Je důležité, aby přepisy byly 100% přesného přepisu odpovídajícího zvukového záznamu.It’s important that the transcripts are 100% accurate transcriptions of the corresponding audio. Chyby v přepisech zavedou ke ztrátě kvality během školení.Errors in the transcripts will introduce quality loss during the training.

Tip

Při sestavování hlasů pro převod textu na řeč vyberte projevy (nebo zapište skripty), které berou v úvahu jak fonetické pokrytí, tak efektivitu.When building production text-to-speech voices, select utterances (or write scripts) that take into account both phonetic coverage and efficiency. Máte potíže s získáním požadované výsledků?Having trouble getting the results you want? Obraťte se na vlastního hlasového týmu a získejte další informace o tom, jak nás poradíme.Contact the Custom Voice team to find out more about having us consult.

Dlouhý zvuk + přepis (beta verze)Long audio + transcript (beta)

V některých případech nemusí být k dispozici segmentace zvuku.In some cases, you may not have segmented audio available. Prostřednictvím vlastního hlasového portálu poskytujeme službu (beta), která vám umožní segmentovat dlouhé zvukové soubory a vytvářet přepisy.We provide a service (beta) through the custom voice portal to help you segment long audio files and create transcriptions. Mějte na paměti, že se tato služba bude účtovat ke svému používání předplatného pro převod řeči na text.Keep in mind, this service will be charged toward your speech-to-text subscription usage.

Poznámka

Služba segmentace dlouhého zvuku bude využívat funkci dávkového přepisu pro převod řeči na text, která podporuje pouze uživatele se standardním předplatným (S0).The long-audio segmentation service will leverage the batch transcription feature of speech-to-text, which only supports standard subscription (S0) users. Během zpracování segmentace se vaše zvukové soubory a Přepisy odešlou taky službě Custom Speech k upřesnění modelu rozpoznávání, aby bylo možné pro vaše data zlepšit přesnost.During the processing of the segmentation, your audio files and the transcripts will also be sent to the Custom Speech service to refine the recognition model so the accuracy can be improved for your data. Během tohoto procesu se nezachovají žádná data.No data will be retained during this process. Po segmentaci budou uloženy pouze projevy segmentované a jejich přepisy mapování pro vaše stahování a školení.After the segmentation is done, only the utterances segmented and their mapping transcripts will be stored for your downloading and training.

Zvukové souboryAudio files

Při přípravě zvuku pro segmentaci postupujte podle těchto pokynů.Follow these guidelines when preparing audio for segmentation.

VlastnostProperty HodnotaValue
Formát souboruFile format RIFF (. wav) se vzorkovací frekvencí alespoň 16 kHz-16 bitů v PCM nebo. mp3 s přenosovou rychlostí minimálně 256 KB/s, seskupenou do souboru. zipRIFF (.wav) with a sampling rate of at least 16 khz-16-bit in PCM or .mp3 with a bit rate of at least 256 KBps, grouped into a .zip file
Název souboruFile name Podporované znaky ASCII a Unicode.ASCII and Unicode characters supported. Nejsou povoleny žádné duplicitní názvy.No duplicate names allowed.
Délka zvukuAudio length Déle než 20 sekundLonger than 20 seconds
Formát archivuArchive format .zip.zip
Maximální velikost archivuMaximum archive size 2048 MB2048 MB

Všechny zvukové soubory by se měly seskupovat do souboru ZIP.All audio files should be grouped into a zip file. Soubory. wav a soubory. mp3 můžete vložit do jednoho zvukového souboru ZIP.It’s OK to put .wav files and .mp3 files into one audio zip. Můžete například nahrát soubor ZIP obsahující zvukový soubor s názvem "kingstory. wav", 45-Second-Long a jiný zvuk s názvem "queenstory. mp3", 200-Second-Long.For example, you can upload a zip file containing an audio file named ‘kingstory.wav’, 45-second-long, and another audio named ‘queenstory.mp3’, 200-second-long. Všechny soubory. mp3 se po zpracování transformují do formátu. wav.All .mp3 files will be transformed into the .wav format after processing.

PřepisůTranscripts

Přepisy musí být připravené ke specifikacím uvedeným v této tabulce.Transcripts must be prepared to the specifications listed in this table. Každý zvukový soubor musí odpovídat přepisu.Each audio file must be matched with a transcript.

VlastnostProperty HodnotaValue
Formát souboruFile format Prostý text (. txt) seskupený do souboru. zipPlain text (.txt), grouped into a .zip
Název souboruFile name Použít stejný název jako shodný zvukový souborUse the same name as the matching audio file
Formát kódováníEncoding format Pouze UTF-8-BOMUTF-8-BOM only
Počet promluv na řádek# of utterances per line Bez omezeníNo limit
Maximální velikost souboruMaximum file size 2048 MB2048 MB

Všechny soubory přepisů v tomto datovém typu by se měly seskupovat do souboru ZIP.All transcripts files in this data type should be grouped into a zip file. Například jste nahráli soubor ZIP obsahující zvukový soubor s názvem "kingstory. wav", 45 sekund dlouhý a druhý s názvem "queenstory. mp3", 200 sekund.For example, you have uploaded a zip file containing an audio file named ‘kingstory.wav’, 45 seconds long, and another one named ‘queenstory.mp3’, 200 seconds long. Budete potřebovat nahrát další soubor zip, který obsahuje dva přepisy, jeden s názvem ' kingstory. txt ', druhý soubor ' queenstory. txt '.You will need to upload another zip file containing two transcripts, one named ‘kingstory.txt’, the other one ‘queenstory.txt’. V každém souboru s prostým textem vám poskytneme úplný přepis pro odpovídající zvuk.Within each plain text file, you will provide the full correct transcription for the matching audio.

Po úspěšném nahrání datové sady vám pomůžeme segmentovat zvukový soubor na projevy na základě poskytnutého přepisu.After your dataset is successfully uploaded, we will help you segment the audio file into utterances based on the transcript provided. Můžete kontrolovat segmentované projevy a vyhovující přepisy stažením datové sady.You can check the segmented utterances and the matching transcripts by downloading the dataset. K segmentované projevy se automaticky přiřazují jedinečná ID.Unique IDs will be assigned to the segmented utterances automatically. Je důležité, abyste se ujistili, že přepisy, které poskytnete, jsou 100% přesné.It’s important that you make sure the transcripts you provide are 100% accurate. Chyby v přepisech můžou snížit přesnost během segmentace zvuku a dále zavádět ztráty kvality ve fázi školení, která přichází později.Errors in the transcripts can reduce the accuracy during the audio segmentation and further introduce quality loss in the training phase that comes later.

Jenom zvuk (beta verze)Audio only (beta)

Pokud pro zvukové nahrávky nemáte nějaké přepisy, nahrajte data pomocí možnosti jenom zvuk .If you don't have transcriptions for your audio recordings, use the Audio only option to upload your data. Náš systém vám může přispět k segmentování a přepisovatí vašich zvukových souborů.Our system can help you segment and transcribe your audio files. Mějte na paměti, že se tato služba bude počítat se svým používáním předplatného pro převod řeči na text.Keep in mind, this service will count toward your speech-to-text subscription usage.

Při přípravě zvuku postupujte podle těchto pokynů.Follow these guidelines when preparing audio.

Poznámka

Služba segmentace dlouhého zvuku bude využívat funkci dávkového přepisu pro převod řeči na text, která podporuje pouze uživatele se standardním předplatným (S0).The long-audio segmentation service will leverage the batch transcription feature of speech-to-text, which only supports standard subscription (S0) users.

VlastnostProperty HodnotaValue
Formát souboruFile format RIFF (. wav) se vzorkovací frekvencí alespoň 16 kHz-16 bitů v PCM nebo. mp3 s přenosovou rychlostí minimálně 256 KB/s, seskupenou do souboru. zipRIFF (.wav) with a sampling rate of at least 16 khz-16-bit in PCM or .mp3 with a bit rate of at least 256 KBps, grouped into a .zip file
Název souboruFile name Podporované znaky ASCII a Unicode.ASCII and Unicode characters supported. Není povolený žádný duplicitní název.No duplicate name allowed.
Délka zvukuAudio length Déle než 20 sekundLonger than 20 seconds
Formát archivuArchive format .zip.zip
Maximální velikost archivuMaximum archive size 2048 MB2048 MB

Všechny zvukové soubory by se měly seskupovat do souboru ZIP.All audio files should be grouped into a zip file. Po úspěšném nahrání datové sady vám pomůžeme segmentovat zvukový soubor na projevy v závislosti na naší službě pro přepis služby Speech Batch.Once your dataset is successfully uploaded, we will help you segment the audio file into utterances based on our speech batch transcription service. K segmentované projevy se automaticky přiřazují jedinečná ID.Unique IDs will be assigned to the segmented utterances automatically. Pomocí rozpoznávání řeči budou vygenerovány vyhovující přepisy.Matching transcripts will be generated through speech recognition. Všechny soubory. mp3 se po zpracování transformují do formátu. wav.All .mp3 files will be transformed into the .wav format after processing. Můžete kontrolovat segmentované projevy a vyhovující přepisy stažením datové sady.You can check the segmented utterances and the matching transcripts by downloading the dataset.

Další krokyNext steps