Az adatelőkészítés egyéni hang létrehozásáhozPrepare data to create a custom voice

Ha készen áll egy egyéni szöveg-beszéd hang létrehozására az alkalmazáshoz, az első lépés a hangfelvételek és a hozzájuk tartozó parancsfájlok összegyűjtése a hangmodell betanításának megkezdéséhez.When you're ready to create a custom text-to-speech voice for your application, the first step is to gather audio recordings and associated scripts to start training the voice model. A beszédfelismerési szolgáltatás ezeket az adattípusokat használja egy egyedi hanghangolás létrehozásához, amely megfelel a hangfelvételek hangjának.The Speech service uses this data to create a unique voice tuned to match the voice in the recordings. A hang betanítása után elindíthatja a beszédfelismerést az alkalmazásaiban.After you've trained the voice, you can start synthesizing speech in your applications.

Kis mennyiségű adattal kezdheti meg a koncepció igazolását.You can start with a small amount of data to create a proof of concept. Azonban minél több adattal rendelkezik, annál természetesebb lesz az egyéni hang.However, the more data that you provide, the more natural your custom voice will sound. A saját szöveg-beszéd hangmodell tanítása előtt hangfelvételekre és a kapcsolódó szöveges átírásokra lesz szüksége.Before you can train your own text-to-speech voice model, you'll need audio recordings and the associated text transcriptions. Ezen az oldalon áttekintjük az adattípusokat, azok használatát, valamint az egyes eszközök kezelését.On this page, we'll review data types, how they are used, and how to manage each.

AdattípusokData types

A hangalapú betanítási adatkészlet hangfelvételeket, valamint a hozzájuk tartozó átírásokat tartalmazó szövegfájlt tartalmaz.A voice training dataset includes audio recordings, and a text file with the associated transcriptions. Minden hangfájlnak tartalmaznia kell egyetlen részletet (egyetlen mondattal vagy egy párbeszédpanelrendszer egyetlen bekapcsolásával), és 15 másodpercnél rövidebbnek kell lennie.Each audio file should contain a single utterance (a single sentence or a single turn for a dialog system), and be less than 15 seconds long.

Bizonyos esetekben előfordulhat, hogy nem áll készen a megfelelő adatkészletre, és tesztelni szeretné az egyéni hangképzést a rendelkezésre álló hangfájlokkal, illetve rövid vagy hosszú, átiratokkal vagy anélkül.In some cases, you may not have the right dataset ready and will want to test the custom voice training with available audio files, short or long, with or without transcripts. Olyan eszközöket biztosítunk (bétaverzió), amelyek segítenek a hang hosszúságú kimondott szöveg való szegmentálásában és átiratok előkészítésében a Batch-átírási APIhasználatával.We provide tools (beta) to help you segment your audio into utterances and prepare transcripts using the Batch Transcription API.

Ez a táblázat felsorolja az adattípusokat, valamint azt, hogy miként lehet egyéni szöveg-beszéd hangmodelleket létrehozni.This table lists data types and how each is used to create a custom text-to-speech voice model.

AdattípusData type LeírásDescription A következő esetekben használjaWhen to use További szolgáltatás szükségesAdditional service required A modell betanításához szükséges mennyiségQuantity for training a model Területi beállítás (ok)Locale(s)
Egyéni hosszúságú kimondott szöveg + egyező átiratIndividual utterances + matching transcript A hangfájlok (. wav) gyűjteménye (. zip) egyéni hosszúságú kimondott szöveg.A collection (.zip) of audio files (.wav) as individual utterances. Az egyes hangfájloknak 15 másodpercnél rövidebbnek kell lenniük, és formázott átirattal (. txt) kell párosítani.Each audio file should be 15 seconds or less in length, paired with a formatted transcript (.txt). Professzionális felvételek a megfelelő átiratokkalProfessional recordings with matching transcripts Képzésre kész.Ready for training. Nem szükséges szigorú követelmény az en-US és a zh-CN számára.No hard requirement for en-US and zh-CN. Több mint 2000 különböző hosszúságú kimondott szöveg más területi beállításokhoz.More than 2,000+ distinct utterances for other locales. Minden egyéni hang területi beállításaAll Custom Voice locales
Hosszú hang + átirat (bétaverzió)Long audio + transcript (beta) Hosszú, nem szegmentált hangfájlok (20 másodpercnél hosszabb) gyűjteménye (. txt), amely az összes szóbeli szót tartalmazza.A collection (.zip) of long, unsegmented audio files (longer than 20 seconds), paired with a transcript (.txt) that contains all spoken words. Vannak hangfájlok és a hozzájuk tartozó átiratok, de nem a hosszúságú kimondott szöveg-ba vannak tagolva.You have audio files and matching transcripts, but they are not segmented into utterances. Szegmentálás (a Batch-átírással).Segmentation (using batch transcription).
A hangformátum átalakítása, ahol szükséges.Audio format transformation where required.
Nincs nehéz követelményNo hard requirement Minden egyéni hang területi beállításaAll Custom Voice locales
Csak hang (bétaverzió)Audio only (beta) Átirat nélküli hangfájlok gyűjteménye (. zip).A collection (.zip) of audio files without a transcript. Csak hangfájlok érhetők el, átiratok nélkül.You only have audio files available, without transcripts. Szegmentálás + átirat létrehozása (batch-átírással).Segmentation + transcript generation (using batch transcription).
A hangformátum átalakítása, ahol szükséges.Audio format transformation where required.
Nincs nehéz követelményNo hard requirement Minden egyéni hang területi beállításaAll Custom Voice locales

A fájlokat típus szerint kell csoportosítani egy adatkészletbe, és zip-fájlként kell feltölteni.Files should be grouped by type into a dataset and uploaded as a zip file. Az egyes adatkészletek csak egyetlen adattípust tartalmazhatnak.Each dataset can only contain a single data type.

Megjegyzés

Az előfizetések által importálandó adatkészletek maximális száma 10. zip-fájl az ingyenes előfizetés (F0) felhasználóinak és a 500 a standard előfizetés (S0) felhasználói számára.The maximum number of datasets allowed to be imported per subscription is 10 .zip files for free subscription (F0) users and 500 for standard subscription (S0) users.

Egyéni hosszúságú kimondott szöveg + egyező átiratIndividual utterances + matching transcript

Az egyes hosszúságú kimondott szöveg és a megfelelő átiratot kétféleképpen is előkészítheti.You can prepare recordings of individual utterances and the matching transcript in two ways. Írjon egy parancsfájlt, és olvassa el a hangvételt, vagy használja a nyilvánosan elérhető hangot, és írja át a szöveget.Either write a script and have it read by a voice talent or use publicly available audio and transcribe it to text. Ha ezt teszi, szerkessze a disfluencies a hangfájlokból, például az "UM" és más kitöltő hangokat, akadozik, motyogott szavakat vagy a kiejtéseket.If you do the latter, edit disfluencies from the audio files, such as "um" and other filler sounds, stutters, mumbled words, or mispronunciations.

Jó hangbetűkészlet létrehozásához hozzon létre egy csendes helyen, magas színvonalú mikrofonnal.To produce a good voice font, create the recordings in a quiet room with a high-quality microphone. Elengedhetetlen a konzisztens kötet, a beszéd arány, a beszélő szurok és a beszéd kifejező jellege.Consistent volume, speaking rate, speaking pitch, and expressive mannerisms of speech are essential.

Tipp

Azt javasoljuk, hogy hozzon létre egy hangfelvételt az éles környezethez, és használja a Professional Recording studiót és a hangtehetséget.To create a voice for production use, we recommend you use a professional recording studio and voice talent. További információ: hangminták rögzítése egyéni hanghoz.For more information, see How to record voice samples for a custom voice.

HangfájlokAudio files

Minden hangfájlnak tartalmaznia kell egy teljes (egyetlen mondatot vagy egy párbeszédpanelrendszer egyetlen bekapcsolását), amely kevesebb, mint 15 másodperc.Each audio file should contain a single utterance (a single sentence or a single turn of a dialog system), less than 15 seconds long. Minden fájlnak ugyanabban a kimondott nyelven kell lennie.All files must be in the same spoken language. A többnyelvű egyéni szöveg-beszéd hangok nem támogatottak, kivéve a kínai – angol nyelveket.Multi-language custom text-to-speech voices are not supported, with the exception of the Chinese-English bi-lingual. Minden hangfájlnak egyedi numerikus fájlnevet kell tartalmaznia, a fájlnév kiterjesztésével. wav.Each audio file must have a unique numeric filename with the filename extension .wav.

A hang előkészítésekor kövesse az alábbi irányelveket.Follow these guidelines when preparing audio.

TulajdonságProperty ÉrtékValue
FájlformátumFile format RIFF (. wav), egy. zip fájlba csoportosítvaRIFF (.wav), grouped into a .zip file
Mintavételezési aránySampling rate Legalább 16 000 HzAt least 16,000 Hz
Minta formátumaSample format PCM, 16 bitesPCM, 16-bit
FájlnévFile name Numerikus,. wav kiterjesztéssel.Numeric, with .wav extension. Nem engedélyezettek az ismétlődő fájlnevek.No duplicate file names allowed.
Hang hosszaAudio length 15 másodpercnél rövidebbShorter than 15 seconds
Archív formátumArchive format .zip.zip
Archiválás maximális méreteMaximum archive size 2048 MB2048 MB

Megjegyzés

a 16 000 Hz-nél kisebb mintavételi sebességgel rendelkező. wav-fájlokat a rendszer elutasítja..wav files with a sampling rate lower than 16,000 Hz will be rejected. Ha a. zip fájl különböző mintavételi sebességű. wav-fájlokat tartalmaz, a rendszer csak a 16 000 Hz-es vagy annál újabb értékkel rendelkezőket importálja.If a .zip file contains .wav files with different sample rates, only those equal to or higher than 16,000 Hz will be imported. A portál jelenleg a. zip archívumot akár 200 MB-ra is importálja.The portal currently imports .zip archives up to 200 MB. Azonban több Archívum is feltölthető.However, multiple archives can be uploaded.

ÁtiratátTranscripts

Az átírási fájl egy egyszerű szövegfájl.The transcription file is a plain text file. Ezeket az irányelveket az átírások előkészítéséhez használhatja.Use these guidelines to prepare your transcriptions.

TulajdonságProperty ÉrtékValue
FájlformátumFile format Egyszerű szöveg (. txt)Plain text (.txt)
Kódolási formátumEncoding format ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE vagy UTF-16-BE.ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE, or UTF-16-BE. A zh-CN, az ANSI/ASCII és az UTF-8 kódolások nem támogatottak.For zh-CN, ANSI/ASCII and UTF-8 encodings are not supported.
Kimondott szövegek száma soronként# of utterances per line Egy – az átírási fájl minden sorának tartalmaznia kell az egyik hangfájl nevét, amelyet a megfelelő átírás követ.One - Each line of the transcription file should contain the name of one of the audio files, followed by the corresponding transcription. A fájlnevet és az átiratot tabulátorral (\t) kell elválasztani.The file name and transcription should be separated by a tab (\t).
Maximális fájlméretMaximum file size 2048 MB2048 MB

Az alábbi példa bemutatja, hogyan rendezi a rendszer az átiratokat egy. txt fájlban:Below is an example of how the transcripts are organized utterance by utterance in one .txt file:

0000000001[tab] This is the waistline, and it's falling.
0000000002[tab] We have trouble scoring.
0000000003[tab] It was Janet Maslin.

Fontos, hogy az átiratok a megfelelő hang 100%-os pontos átiratával legyenek.It’s important that the transcripts are 100% accurate transcriptions of the corresponding audio. Az átiratokban előforduló hibák a képzés során a minőség elvesztését mutatják be.Errors in the transcripts will introduce quality loss during the training.

Tipp

Éles szöveg-beszéd hangok kiépítésekor válassza a hosszúságú kimondott szöveg (vagy a parancsfájlok írása) lehetőséget, amelyek figyelembe veszik a fonetikus lefedettséget és a hatékonyságot.When building production text-to-speech voices, select utterances (or write scripts) that take into account both phonetic coverage and efficiency. Gondjai vannak a kívánt eredmények beszerzésével?Having trouble getting the results you want? Ha többet szeretne megtudni, forduljon az egyéni hangcsapathoz.Contact the Custom Voice team to find out more about having us consult.

Hosszú hang + átirat (bétaverzió)Long audio + transcript (beta)

Bizonyos esetekben előfordulhat, hogy nem érhető el szegmentált hang.In some cases, you may not have segmented audio available. Az egyéni hangportálon keresztül biztosítunk egy szolgáltatást (bétaverziót), amely segít a hosszú hangfájlok szegmentálásában és a transzkripciók létrehozásában.We provide a service (beta) through the custom voice portal to help you segment long audio files and create transcriptions. Vegye figyelembe, hogy a szolgáltatás a beszédfelismerés és a szöveges előfizetés használatának feltételeit terheli.Keep in mind, this service will be charged toward your speech-to-text subscription usage.

Megjegyzés

A hosszú hangú szegmentálási szolgáltatás kihasználja a beszéd és a szöveg batch-átírási funkcióját, amely csak a szabványos előfizetés (S0) felhasználóit támogatja.The long-audio segmentation service will leverage the batch transcription feature of speech-to-text, which only supports standard subscription (S0) users. A szegmentálás feldolgozása során a rendszer a hangfájlokat és az átiratokat is elküldi a Custom Speech szolgáltatásnak az adatfelismerési modell pontosítása érdekében, hogy az adatok pontossága is javuljon.During the processing of the segmentation, your audio files and the transcripts will also be sent to the Custom Speech service to refine the recognition model so the accuracy can be improved for your data. A folyamat során a rendszer nem őrzi meg az adatmegőrzési időszakot.No data will be retained during this process. A szegmentálás befejezése után a rendszer csak a szegmentált hosszúságú kimondott szöveg és a leképezési átiratokat fogja tárolni a letöltéshez és a képzéshez.After the segmentation is done, only the utterances segmented and their mapping transcripts will be stored for your downloading and training.

HangfájlokAudio files

Kövesse az alábbi irányelveket a hanganyagok szegmentálására való felkészülés során.Follow these guidelines when preparing audio for segmentation.

TulajdonságProperty ÉrtékValue
FájlformátumFile format A RIFF (. wav) mintavételezési sebessége legalább 16 kHz – 16 bit a PCM vagy a. mp3 esetében legalább 256 KBps, a. zip fájlba csoportosítvaRIFF (.wav) with a sampling rate of at least 16 khz-16-bit in PCM or .mp3 with a bit rate of at least 256 KBps, grouped into a .zip file
FájlnévFile name Az ASCII-és a Unicode-karakterek támogatottak.ASCII and Unicode characters supported. Nem engedélyezettek az ismétlődő nevek.No duplicate names allowed.
Hang hosszaAudio length 20 másodpercnél hosszabbLonger than 20 seconds
Archív formátumArchive format .zip.zip
Archiválás maximális méreteMaximum archive size 2048 MB2048 MB

Az összes hangfájlt zip-fájlba kell csoportosítani.All audio files should be grouped into a zip file. A. wav fájlok és az. mp3 fájlok egyetlen hangzip-fájlba helyezhetők.It’s OK to put .wav files and .mp3 files into one audio zip. Feltölthet például egy "kingstory. wav" nevű hangfájlt tartalmazó zip-fájlt, 45-másodpercet, és egy "queenstory. mp3" nevű másik hanganyagot, 200-Second-Long.For example, you can upload a zip file containing an audio file named ‘kingstory.wav’, 45-second-long, and another audio named ‘queenstory.mp3’, 200-second-long. A rendszer az összes. MP3 fájlt a feldolgozás után. wav formátumúvá alakítja át.All .mp3 files will be transformed into the .wav format after processing.

ÁtiratátTranscripts

Az átiratokat fel kell készülnie az ebben a táblázatban szereplő specifikációba.Transcripts must be prepared to the specifications listed in this table. Minden hangfájlnak meg kell egyeznie egy átirattal.Each audio file must be matched with a transcript.

TulajdonságProperty ÉrtékValue
FájlformátumFile format Egyszerű szöveg (. txt), egy. zip-fájlba csoportosítvaPlain text (.txt), grouped into a .zip
FájlnévFile name Ugyanazt a nevet használja, mint a megfelelő hangfájlUse the same name as the matching audio file
Kódolási formátumEncoding format UTF-8 – csak ANYAGJEGYZÉKUTF-8-BOM only
Kimondott szövegek száma soronként# of utterances per line KorlátlanNo limit
Maximális fájlméretMaximum file size 2048 MB2048 MB

Az adattípusban található összes átirat fájlnak egy zip-fájlba kell csoportosítva lennie.All transcripts files in this data type should be grouped into a zip file. Például feltöltött egy "kingstory. wav" nevű hangfájlt tartalmazó zip-fájlt, a 45 másodpercet, és egy másikat, a "queenstory. mp3" nevet, 200 másodpercet.For example, you have uploaded a zip file containing an audio file named ‘kingstory.wav’, 45 seconds long, and another one named ‘queenstory.mp3’, 200 seconds long. Fel kell töltenie egy másik, két átiratot tartalmazó zip-fájlt, amely egy "kingstory. txt" nevű, a másik pedig "queenstory. txt".You will need to upload another zip file containing two transcripts, one named ‘kingstory.txt’, the other one ‘queenstory.txt’. Minden egyszerű szövegfájlon belül meg kell adnia a megfelelő hang teljes átírását.Within each plain text file, you will provide the full correct transcription for the matching audio.

Az adatkészlet sikeres feltöltése után segítséget nyújtunk a hangfájlnak a megadott átirat alapján történő hosszúságú kimondott szöveg.After your dataset is successfully uploaded, we will help you segment the audio file into utterances based on the transcript provided. Az adatkészlet letöltésével a szegmentált hosszúságú kimondott szöveg és a megfelelő átiratokat is megtekintheti.You can check the segmented utterances and the matching transcripts by downloading the dataset. A szegmentált hosszúságú kimondott szöveg automatikusan egyedi azonosítók lesznek hozzárendelve.Unique IDs will be assigned to the segmented utterances automatically. Fontos, hogy az Ön által megadott átiratok 100%-ban pontosak legyenek.It’s important that you make sure the transcripts you provide are 100% accurate. Az átiratokban előforduló hibák csökkenthetik a hangszegmentálási pontosságot, és továbbra is bevezethetik a minőség elvesztését a betanítási fázisban, amely később következik be.Errors in the transcripts can reduce the accuracy during the audio segmentation and further introduce quality loss in the training phase that comes later.

Csak hang (bétaverzió)Audio only (beta)

Ha nem rendelkezik átírásokkal a hangfelvételekhez, az adatok feltöltéséhez használja a csak hang lehetőséget.If you don't have transcriptions for your audio recordings, use the Audio only option to upload your data. A rendszer segíthet a hangfájlok szegmentálásában és átírásában.Our system can help you segment and transcribe your audio files. Vegye figyelembe, hogy ez a szolgáltatás a beszédfelismerés és a szöveg közötti előfizetés használatát veszi figyelembe.Keep in mind, this service will count toward your speech-to-text subscription usage.

A hang előkészítésekor kövesse az alábbi irányelveket.Follow these guidelines when preparing audio.

Megjegyzés

A hosszú hangú szegmentálási szolgáltatás kihasználja a beszéd és a szöveg batch-átírási funkcióját, amely csak a szabványos előfizetés (S0) felhasználóit támogatja.The long-audio segmentation service will leverage the batch transcription feature of speech-to-text, which only supports standard subscription (S0) users.

TulajdonságProperty ÉrtékValue
FájlformátumFile format A RIFF (. wav) mintavételezési sebessége legalább 16 kHz – 16 bit a PCM vagy a. mp3 esetében legalább 256 KBps, a. zip fájlba csoportosítvaRIFF (.wav) with a sampling rate of at least 16 khz-16-bit in PCM or .mp3 with a bit rate of at least 256 KBps, grouped into a .zip file
FájlnévFile name Az ASCII-és a Unicode-karakterek támogatottak.ASCII and Unicode characters supported. Nem engedélyezett a duplikált név.No duplicate name allowed.
Hang hosszaAudio length 20 másodpercnél hosszabbLonger than 20 seconds
Archív formátumArchive format .zip.zip
Archiválás maximális méreteMaximum archive size 2048 MB2048 MB

Az összes hangfájlt zip-fájlba kell csoportosítani.All audio files should be grouped into a zip file. Miután sikeresen feltöltötte az adatkészletet, segítünk a hangfájl szegmentálásában a hosszúságú kimondott szöveg a Speech batch transzkripciós szolgáltatás alapján.Once your dataset is successfully uploaded, we will help you segment the audio file into utterances based on our speech batch transcription service. A szegmentált hosszúságú kimondott szöveg automatikusan egyedi azonosítók lesznek hozzárendelve.Unique IDs will be assigned to the segmented utterances automatically. A beszédfelismerés során a rendszer a megfelelő átiratokat hozza létre.Matching transcripts will be generated through speech recognition. A rendszer az összes. MP3 fájlt a feldolgozás után. wav formátumúvá alakítja át.All .mp3 files will be transformed into the .wav format after processing. Az adatkészlet letöltésével a szegmentált hosszúságú kimondott szöveg és a megfelelő átiratokat is megtekintheti.You can check the segmented utterances and the matching transcripts by downloading the dataset.

További lépésekNext steps