Préparer des données en vue de créer une voix personnaliséePrepare data to create a custom voice

Dès que vous êtes prêt à créer une voix personnalisée pour la synthèse vocale dans votre application, vous devez dans un premier temps rassembler les enregistrements audio et les scripts associés pour commencer l’entraînement du modèle de voix.When you're ready to create a custom text-to-speech voice for your application, the first step is to gather audio recordings and associated scripts to start training the voice model. Le service Speech se sert de ces données pour créer une voix unique correspondant à la voix des enregistrements.The Speech service uses this data to create a unique voice tuned to match the voice in the recordings. Après avoir entraîné la voix, vous pouvez commencer la synthèse vocale dans vos applications.After you've trained the voice, you can start synthesizing speech in your applications.

Vous pouvez commencer par un petit volume de données pour créer une preuve de concept.You can start with a small amount of data to create a proof of concept. Cependant, plus vous fournirez de données, plus votre voix personnalisée semblera naturelle.However, the more data that you provide, the more natural your custom voice will sound. Avant d’entraîner votre propre modèle vocal pour la synthèse vocale, vous avez besoin d’enregistrements audio et des transcriptions de texte associées.Before you can train your own text-to-speech voice model, you'll need audio recordings and the associated text transcriptions. Dans cette page, nous allons passer en revue les différents types de données, leurs utilisations et leur gestion respective.On this page, we'll review data types, how they are used, and how to manage each.

Types de donnéesData types

Un jeu de données d’entraînement vocal comprend des enregistrements audio et un fichier texte contenant les transcriptions associées.A voice training dataset includes audio recordings, and a text file with the associated transcriptions. Chaque fichier audio doit contenir un seul énoncé (une seule phrase ou un seul tour pour un système de dialogues) et durer moins de 15 secondes.Each audio file should contain a single utterance (a single sentence or a single turn for a dialog system), and be less than 15 seconds long.

Dans certains cas, vous n’aurez peut-être pas à disposition le jeu de données approprié et souhaiterez tester l’entraînement vocal personnalisé avec les fichiers audio disponibles, courts ou longs, avec ou sans transcriptions.In some cases, you may not have the right dataset ready and will want to test the custom voice training with available audio files, short or long, with or without transcripts. Nous mettons à disposition des outils (en version bêta) destinés à faciliter la segmentation du contenu audio en énoncés et à préparer les transcriptions à l’aide de l’API de transcription Batch.We provide tools (beta) to help you segment your audio into utterances and prepare transcripts using the Batch Transcription API.

Ce tableau liste les types de données et la façon dont chacun est utilisé pour créer un modèle vocal personnalisé pour la synthèse vocale.This table lists data types and how each is used to create a custom text-to-speech voice model.

Type de donnéesData type DescriptionDescription Quand l’utiliserWhen to use Autre service nécessaireAdditional service required Quantité nécessaire pour l’entraînement d’un modèleQuantity for training a model Paramètres régionauxLocale(s)
Énoncés individuels + transcription correspondanteIndividual utterances + matching transcript Collection (.zip) de fichiers audio (.wav) correspondant à des énoncés individuels.A collection (.zip) of audio files (.wav) as individual utterances. Chaque fichier audio est limité à 15 secondes et est associé à une transcription formatée (.txt).Each audio file should be 15 seconds or less in length, paired with a formatted transcript (.txt). Enregistrements professionnels avec transcriptions correspondantesProfessional recordings with matching transcripts Prêt pour l’entraînement.Ready for training. Pas d’exigence spécifique pour les langues en-US et zh-CN.No hard requirement for en-US and zh-CN. Plus de 2 000 énoncés distinctes pour les autres paramètres régionaux.More than 2,000+ distinct utterances for other locales. Tous les paramètres régionaux de Custom VoiceAll Custom Voice locales
Contenu audio long + transcription (bêta)Long audio + transcript (beta) Collection (.zip) de fichiers audio longs et non segmentés (plus de 20 secondes), associés à une transcription (.txt) qui contient tous les mots prononcés.A collection (.zip) of long, unsegmented audio files (longer than 20 seconds), paired with a transcript (.txt) that contains all spoken words. Vous disposez de fichiers audio et des transcriptions correspondantes, mais ils ne sont pas segmentés en énoncés.You have audio files and matching transcripts, but they are not segmented into utterances. Segmentation (à l’aide de la transcription Batch).Segmentation (using batch transcription).
Transformation du format audio, si nécessaire.Audio format transformation where required.
Pas d’exigence préciseNo hard requirement Tous les paramètres régionaux de Custom VoiceAll Custom Voice locales
Audio uniquement (bêta)Audio only (beta) Collection (.zip) de fichiers audio sans transcription.A collection (.zip) of audio files without a transcript. Vous disposez uniquement de fichiers audio, sans transcriptions.You only have audio files available, without transcripts. Segmentation + génération de transcriptions (à l’aide de la transcription Batch).Segmentation + transcript generation (using batch transcription).
Transformation du format audio, si nécessaire.Audio format transformation where required.
Pas d’exigence préciseNo hard requirement Tous les paramètres régionaux de Custom VoiceAll Custom Voice locales

Les fichiers doivent être regroupées par type dans un jeu de données et chargés sous forme de fichier zip.Files should be grouped by type into a dataset and uploaded as a zip file. Chaque jeu de données ne peut contenir qu’un seul type de données.Each dataset can only contain a single data type.

Notes

Le nombre maximal de jeux de données qu’il est autorisé d’importer par abonnement est de 10 fichiers .zip pour les utilisateurs disposant d’un abonnement gratuit (F0) et de 500 pour ceux qui disposent d’un abonnement standard (S0).The maximum number of datasets allowed to be imported per subscription is 10 .zip files for free subscription (F0) users and 500 for standard subscription (S0) users.

Énoncés individuels + transcription correspondanteIndividual utterances + matching transcript

Vous pouvez préparer les enregistrements d’énoncés individuels et la transcription correspondante de deux façons différentes :You can prepare recordings of individual utterances and the matching transcript in two ways. soit en écrivant un script et en le faisant lire par une voix professionnelle, soit en utilisant un enregistrement audio disponible publiquement et en le transcrivant en texte.Either write a script and have it read by a voice talent or use publicly available audio and transcribe it to text. Dans ce dernier cas, éliminez les disfluences dans les fichiers audio telles que les « euh » et autres sons de remplissage, bégaiements, mots marmonnés ou erreurs de prononciation.If you do the latter, edit disfluencies from the audio files, such as "um" and other filler sounds, stutters, mumbled words, or mispronunciations.

Pour produire une police de voix de qualité satisfaisante, créez les enregistrements dans une pièce silencieuse avec un microphone de grande qualité.To produce a good voice font, create the recordings in a quiet room with a high-quality microphone. Il est essentiel de faire attention à l’homogénéité du volume, au débit, à la tonalité et de s’exprimer de manière expressive.Consistent volume, speaking rate, speaking pitch, and expressive mannerisms of speech are essential.

Conseil

Pour créer une voix à des fins de production, nous vous recommandons de faire appel aux services d’un studio d’enregistrement et d’une voix professionnelle.To create a voice for production use, we recommend you use a professional recording studio and voice talent. Pour plus d’informations, consultez le Guide pratique pour enregistrer des exemples de voix pour une voix personnalisée.For more information, see How to record voice samples for a custom voice.

Fichiers audioAudio files

Chaque fichier audio doit contenir un seul énoncé (une seule phrase ou un seul tour pour un système de dialogues) et durer moins de 15 secondes.Each audio file should contain a single utterance (a single sentence or a single turn of a dialog system), less than 15 seconds long. La langue parlée doit être identique dans tous les fichiers.All files must be in the same spoken language. Les voix de synthèse vocale personnalisées multilingues ne sont pas prises en charge, à l’exception de la combinaison chinois-anglais.Multi-language custom text-to-speech voices are not supported, with the exception of the Chinese-English bi-lingual. Chaque fichier audio doit avoir un nom de fichier numérique unique avec l’extension de nom de fichier .wav.Each audio file must have a unique numeric filename with the filename extension .wav.

Suivez ces recommandations pendant la préparation du contenu audio.Follow these guidelines when preparing audio.

PropriétéProperty ValeurValue
Format de fichierFile format RIFF (.wav), regroupé dans un fichier .zipRIFF (.wav), grouped into a .zip file
Taux d’échantillonnageSampling rate Au moins 16 000 HzAt least 16,000 Hz
Format d’échantillonnageSample format PCM, 16 bitsPCM, 16-bit
Nom de fichierFile name Numérique, avec l’extension .wav.Numeric, with .wav extension. Noms de fichiers en double non autorisés.No duplicate file names allowed.
Durée du contenu audioAudio length Moins de 15 secondesShorter than 15 seconds
Format d’archiveArchive format .zip.zip
Taille d’archive maximaleMaximum archive size 2 048 Mo2048 MB

Notes

Les fichiers .wav dont le taux d’échantillonnage est inférieur à 16 000 Hz sont rejetés..wav files with a sampling rate lower than 16,000 Hz will be rejected. Si un fichier .zip contient des fichiers .wav dont le taux d’échantillonnage est différent, seuls ceux dont ce taux est supérieur ou égal à 16 000 Hz sont importés.If a .zip file contains .wav files with different sample rates, only those equal to or higher than 16,000 Hz will be imported. Actuellement, le portail importe les archives .zip jusqu’à 200 Mo.The portal currently imports .zip archives up to 200 MB. Toutefois, il est possible de charger plusieurs archives.However, multiple archives can be uploaded.

TranscriptionsTranscripts

Le fichier de transcription est un fichier texte brut.The transcription file is a plain text file. Suivez ces recommandations pour préparer votre transcriptions.Use these guidelines to prepare your transcriptions.

PropriétéProperty ValeurValue
Format de fichierFile format Texte brut (.txt)Plain text (.txt)
Format d’encodageEncoding format ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE ou UTF-16-BE.ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE, or UTF-16-BE. Pour zh-CN, les encodages ANSI/ASCII et UTF-8 ne sont pas pris en charge.For zh-CN, ANSI/ASCII and UTF-8 encodings are not supported.
Nb d’énoncés par ligne# of utterances per line Un – Chaque ligne du fichier de transcription doit contenir le nom d’un des fichiers audio, suivi de la transcription correspondante.One - Each line of the transcription file should contain the name of one of the audio files, followed by the corresponding transcription. Le nom de fichier et la transcription doivent être séparés par une tabulation (\t).The file name and transcription should be separated by a tab (\t).
Taille maximale du fichierMaximum file size 2 048 Mo2048 MB

Voici un exemple d’organisation des transcriptions, énoncé par énoncé, dans un même fichier .txt :Below is an example of how the transcripts are organized utterance by utterance in one .txt file:

0000000001[tab] This is the waistline, and it's falling.
0000000002[tab] We have trouble scoring.
0000000003[tab] It was Janet Maslin.

Il est important que les transcriptions soient parfaitement fidèles au contenu audio correspondant.It’s important that the transcripts are 100% accurate transcriptions of the corresponding audio. Les erreurs de transcription entraînent une perte de qualité pendant l’entraînement.Errors in the transcripts will introduce quality loss during the training.

Conseil

Quand vous créez des voix pour une synthèse vocale de production, sélectionnez des énoncés (ou rédigez des scripts) qui conjuguent efficacité et couverture phonétique.When building production text-to-speech voices, select utterances (or write scripts) that take into account both phonetic coverage and efficiency. Des difficultés à obtenir les résultats que vous souhaitez ?Having trouble getting the results you want? Contactez l’équipe Custom Voice pour savoir comment obtenir des conseils.Contact the Custom Voice team to find out more about having us consult.

Contenu audio long + transcription (bêta)Long audio + transcript (beta)

Dans certains cas, vous n’aurez peut-être pas de contenu audio segmenté à disposition.In some cases, you may not have segmented audio available. Nous proposons un service (en version bêta) via le Custom Voice destiné à vous aider à segmenter les fichiers audio longs et à créer des transcriptions.We provide a service (beta) through the custom voice portal to help you segment long audio files and create transcriptions. Gardez à l’esprit que l’utilisation de ce service vous sera facturée au titre de votre abonnement de reconnaissance vocale.Keep in mind, this service will be charged toward your speech-to-text subscription usage.

Notes

Le service de segmentation de contenu audio de longue durée exploite la fonctionnalité de transcription Batch de la reconnaissance vocale, qui prend uniquement en charge les utilisateurs disposant d’un abonnement standard (S0).The long-audio segmentation service will leverage the batch transcription feature of speech-to-text, which only supports standard subscription (S0) users. Pendant le traitement de la segmentation, vos fichiers audio et les transcriptions seront aussi être envoyés au service Custom Speech de façon à affiner le modèle de reconnaissance et ainsi améliorer la précision de vos données.During the processing of the segmentation, your audio files and the transcripts will also be sent to the Custom Speech service to refine the recognition model so the accuracy can be improved for your data. Aucune donnée ne sera conservée pendant ce processus.No data will be retained during this process. À l’issue de la segmentation, seuls les énoncés segmentés et leurs transcriptions correspondantes seront stockés pour vos besoins de téléchargement et d’entraînement.After the segmentation is done, only the utterances segmented and their mapping transcripts will be stored for your downloading and training.

Fichiers audioAudio files

Suivez ces recommandations au moment de préparer le contenu audio à segmenter.Follow these guidelines when preparing audio for segmentation.

PropriétéProperty ValeurValue
Format de fichierFile format RIFF (.wav) avec un taux d’échantillonnage d’au moins 16 khz 16 bits en PCM ou .mp3 avec une vitesse de transmission d’au moins 256 Kbits/s, le tout regroupé dans un fichier .zipRIFF (.wav) with a sampling rate of at least 16 khz-16-bit in PCM or .mp3 with a bit rate of at least 256 KBps, grouped into a .zip file
Nom de fichierFile name Prise en charge des caractères Unicode et ASCII.ASCII and Unicode characters supported. Les noms de fichiers en double ne sont pas autorisés.No duplicate names allowed.
Durée du contenu audioAudio length Plus de 20 secondesLonger than 20 seconds
Format d’archiveArchive format .zip.zip
Taille d’archive maximaleMaximum archive size 2 048 Mo2048 MB

Tous les fichiers audio doivent être regroupés dans un fichier zip.All audio files should be grouped into a zip file. Il est possible de placer des fichiers .wav et des fichiers .mp3 dans un même fichier zip audio.It’s OK to put .wav files and .mp3 files into one audio zip. Par exemple, vous pouvez charger un fichier zip contenant un fichier audio nommé « kingstory.wav », d’une durée de 45 secondes, et un autre nommé « queenstory.mp3 », d’une durée de 200 secondes.For example, you can upload a zip file containing an audio file named ‘kingstory.wav’, 45-second-long, and another audio named ‘queenstory.mp3’, 200-second-long. Tous les fichiers .mp3 seront convertis au format .wav à l’issue du traitement.All .mp3 files will be transformed into the .wav format after processing.

TranscriptionsTranscripts

Les transcriptions doivent être préparées selon les spécifications listées dans ce tableau.Transcripts must be prepared to the specifications listed in this table. Chaque fichier audio doit être mis en correspondance avec une transcription.Each audio file must be matched with a transcript.

PropriétéProperty ValeurValue
Format de fichierFile format Texte brut (.txt), regroupé dans un fichier .zipPlain text (.txt), grouped into a .zip
Nom de fichierFile name Utilisez le nom du fichier audio correspondantUse the same name as the matching audio file
Format d’encodageEncoding format UTF-8-BOM uniquementUTF-8-BOM only
Nb d’énoncés par ligne# of utterances per line Aucune limiteNo limit
Taille maximale du fichierMaximum file size 2 048 Mo2048 MB

Tous les fichiers de transcriptions de ce type de données doivent être regroupés dans un fichier zip.All transcripts files in this data type should be grouped into a zip file. Par exemple, supposons que vous avez chargé un fichier zip contenant un fichier audio nommé « kingstory.wav », d’une durée de 45 secondes, et un autre nommé « queenstory.mp3 », d’une durée de 200 secondes.For example, you have uploaded a zip file containing an audio file named ‘kingstory.wav’, 45 seconds long, and another one named ‘queenstory.mp3’, 200 seconds long. Vous devez charger un autre fichier zip contenant deux transcriptions, l’une nommée « kingstory.txt » et l’autre « queenstory.txt ».You will need to upload another zip file containing two transcripts, one named ‘kingstory.txt’, the other one ‘queenstory.txt’. Dans chaque fichier texte brut, vous fournirez la transcription complète correcte pour le contenu audio correspondant.Within each plain text file, you will provide the full correct transcription for the matching audio.

Une fois le jeu de données chargé, nous vous aiderons à segmenter le fichier audio en énoncés sur la base de la transcription fournie.After your dataset is successfully uploaded, we will help you segment the audio file into utterances based on the transcript provided. Vous pouvez vérifier les énoncés segmentés et les transcriptions correspondantes en téléchargeant le jeu de données.You can check the segmented utterances and the matching transcripts by downloading the dataset. Des ID uniques seront attribués automatiquement aux énoncés segmentés.Unique IDs will be assigned to the segmented utterances automatically. Il est important de vérifier que les transcriptions que vous fournissez sont précises à 100 %.It’s important that you make sure the transcripts you provide are 100% accurate. La présence d’erreurs dans les transcriptions peut réduire la précision pendant la segmentation audio et occasionner des pertes de qualité pendant la phase d’entraînement qui vient après.Errors in the transcripts can reduce the accuracy during the audio segmentation and further introduce quality loss in the training phase that comes later.

Audio uniquement (bêta)Audio only (beta)

Si vous n’avez pas de transcriptions pour vos enregistrements audio, utilisez l’option Audio uniquement pour charger vos données.If you don't have transcriptions for your audio recordings, use the Audio only option to upload your data. Notre système peut vous aider à segmenter et transcrire vos fichiers audio.Our system can help you segment and transcribe your audio files. Gardez à l’esprit que l’utilisation de ce service vous sera décomptée de votre abonnement de reconnaissance vocale.Keep in mind, this service will count toward your speech-to-text subscription usage.

Suivez ces recommandations pendant la préparation du contenu audio.Follow these guidelines when preparing audio.

Notes

Le service de segmentation de contenu audio de longue durée exploite la fonctionnalité de transcription Batch de la reconnaissance vocale, qui prend uniquement en charge les utilisateurs disposant d’un abonnement standard (S0).The long-audio segmentation service will leverage the batch transcription feature of speech-to-text, which only supports standard subscription (S0) users.

PropriétéProperty ValeurValue
Format de fichierFile format RIFF (.wav) avec un taux d’échantillonnage d’au moins 16 khz 16 bits en PCM ou .mp3 avec une vitesse de transmission d’au moins 256 Kbits/s, le tout regroupé dans un fichier .zipRIFF (.wav) with a sampling rate of at least 16 khz-16-bit in PCM or .mp3 with a bit rate of at least 256 KBps, grouped into a .zip file
Nom de fichierFile name Prise en charge des caractères Unicode et ASCII.ASCII and Unicode characters supported. Aucun nom en double autorisé.No duplicate name allowed.
Durée du contenu audioAudio length Plus de 20 secondesLonger than 20 seconds
Format d’archiveArchive format .zip.zip
Taille d’archive maximaleMaximum archive size 2 048 Mo2048 MB

Tous les fichiers audio doivent être regroupés dans un fichier zip.All audio files should be grouped into a zip file. Une fois le jeu de données chargé, nous vous aiderons à segmenter le fichier audio en énoncés à partir de notre service de transcription Batch.Once your dataset is successfully uploaded, we will help you segment the audio file into utterances based on our speech batch transcription service. Des ID uniques seront attribués automatiquement aux énoncés segmentés.Unique IDs will be assigned to the segmented utterances automatically. Les transcriptions correspondantes seront générées via la reconnaissance vocale.Matching transcripts will be generated through speech recognition. Tous les fichiers .mp3 seront convertis au format .wav à l’issue du traitement.All .mp3 files will be transformed into the .wav format after processing. Vous pouvez vérifier les énoncés segmentés et les transcriptions correspondantes en téléchargeant le jeu de données.You can check the segmented utterances and the matching transcripts by downloading the dataset.

Étapes suivantesNext steps