Synthèse Speech avec l’outil de création de contenu audio

Article
01/18/2024

Vous pouvez utiliser l’outil Création de contenu audio dans Speech Studio pour la synthèse vocale sans écrire de code. Vous pouvez utiliser l’audio de sortie tel quel, ou comme point de départ pour une personnalisation supplémentaire.

Créez du contenu audio très naturel pour divers scénarios, comme les livres audio, les diffusions d’actualités, les narrations vidéo et les chatbots. Grâce à Création de contenu audio, vous pouvez retoucher les voix de la synthèse vocale efficacement et concevoir des expériences audio personnalisées.

L’outil est basé sur le SSML (Speech Synthesis Markup Language). Elle vous permet d’ajuster les attributs de sortie de conversion de texte par synthèse vocale en temps réel ou en synthèse par lot, comme les caractères vocaux, les styles vocaux, la vitesse d’élocution, la prononciation et la prosodie.

Approche sans code :vous pouvez utiliser l’outil Création de contenu audio pour la synthèse vocale sans écrire de code. L’audio de sortie peut être le livrable final souhaité. Par exemple, vous pouvez utiliser l’audio de sortie pour un podcast ou une narration vidéo.
Pensé pour les développeurs : vous pouvez écouter l’audio de sortie et ajuster le SSML pour améliorer la synthèse vocale. Vous pouvez ensuite utiliser le Kit de développement logiciel (SDK) Speech ou l’interface CLI Speech pour intégrer le SSML à vos applications. Par exemple, vous pouvez utiliser le SSML pour créer un chat bot.

Vous avez facilement accès à un large choix de langues et de voix. Ces voix comprennent des voix neuronales prédéfinies de pointe et de votre voix neuronale personnalisée, si vous en avez créé une.

Pour plus d’informations, consultez le tutoriel vidéo Création de contenu audio sur YouTube.

Bien démarrer

L’accès à l’outil Création de contenu audio dans Speech Studio est gratuit, mais vous payez l’utilisation du service Speech. Pour utiliser l’outil, vous devez vous connecter avec un compte Azure et créer une ressource Speech. Pour chaque compte Azure, vous disposez de quotas Speech mensuels gratuits, dont 500 000 caractères pour les voix neuronales prédéfinies (appelées Neuronal sur la page de tarification). Le montant alloué mensuellement est généralement suffisant pour une petite équipe de contenu d’environ 3 à 5 personnes.

Les sections suivantes expliquent comment créer un compte Azure et obtenir une ressource Speech.

Étape 1 : Création d’un compte Azure

Un compte Microsoft et un compte Azure sont nécessaires pour pouvoir utiliser l’outil Création de contenu audio.

Le Portail Azure est l’emplacement centralisé pour gérer votre compte Azure. Vous pouvez y créer la ressource Speech, gérer l’accès aux produits et tout surveiller, des applications web simples aux déploiements cloud complexes.

Étape 2 : Création d’une ressource Speech

Après avoir ouvert votre compte Azure, vous devez créer une ressource Speech dans votre compte Azure pour accéder aux services Speech. Créez une ressource Speech dans le portail Azure. Pour plus d’informations, consultez Créer une ressource multiservices.

Le déploiement de votre nouvelle ressource Speech prend quelques instants. Une fois le déploiement terminé, vous pouvez commencer à utiliser l’outil Création de contenu audio.

Notes

Si vous envisagez d’utiliser des voix neuronales, assurez-vous de créer votre ressource dans une région qui prend en charge les voix neuronales.

Après avoir obtenu le compte Azure et la ressource Speech, connectez-vous à Speech Studio, puis sélectionnez Création de contenu audio.
Sélectionnez l’abonnement Azure et la ressource Speech que vous souhaitez utiliser, puis Utiliser la ressource.

La prochaine fois que vous vous connecterez à l’outil Création de contenu audio, vous accéderez directement aux fichiers de travail audio qui se trouvent sous la ressource Speech actuelle. Consultez le détail et l’état de vos abonnements Azure sur le Portail Azure.

Si vous ne possédez pas de ressource Speech disponible et que vous êtes propriétaire ou administrateur d’un abonnement Azure, vous pouvez sélectionner Créer une ressource pour créer une ressource Speech dans Speech Studio.

Si vous disposez d’un rôle d’utilisateur pour un abonnement Azure donné, vous ne possédez pas nécessairement l’autorisation de créer une ressource Speech. Contactez votre administrateur pour obtenir cet accès.

Vous pouvez à tout moment changer votre ressource Speech en sélectionnant Paramètres en haut de la page.

Pour changer de répertoire, sélectionnez Paramètres ou accédez à votre profil.

Utiliser l’outil

Le diagramme suivant présente le processus de réglage des sorties de synthèse vocale.

Diagram of the sequence of steps for fine-tuning text to speech outputs.

Chacune des étapes du diagramme précédent est décrite ici :

Sélectionnez la ressource Speech avec laquelle vous voulez travailler.
Créez un fichier de réglage audio en utilisant des scripts en texte brut ou SSML. Entrez ou chargez votre contenu dans Création de contenu audio.
Choisissez la voix et la langue du contenu de votre script. L’outil Création de contenu audio comprend toutes les voix de synthèse vocale prédéfinies. Vous pouvez utiliser les voix neuronales prédéfinies ou une voix neuronale personnalisée.

Notes

L’accès contrôlé est disponible pour la voix neuronale personnalisée, ce qui vous permet de créer des voix haute définition semblables à la parole naturelle. Pour plus d’informations, consultez Processus de contrôle.
Sélectionnez le contenu à prévisualiser, puis sélectionnez Lire (icône en forme de triangle) pour afficher un aperçu de la sortie de la synthèse par défaut.

Si vous apportez des modifications au texte, sélectionnez l’icône Arrêter, puis à nouveau Lire pour régénérer l’audio avec les scripts modifiés.

Améliorez la sortie en ajustant la prononciation, les pauses, le ton, le débit, l’intonation, le style vocal, etc. Pour obtenir la liste complète des options, consultez Langage de balisage de synthèse vocale.

Pour plus d’informations sur le réglage de la sortie vocale, consultez la vidéo Guide pratique pour convertir du texte par synthèse vocale à l’aide des voix Microsoft Azure AI.
Enregistrez et exportez vos audio réglés.

Lorsque vous enregistrez la piste de paramétrage dans le système, vous pouvez continuer à travailler et itérer sur la sortie. Lorsque vous êtes satisfait de la sortie, vous pouvez créer une tâche de création audio avec la fonctionnalité d’exportation. Vous pouvez observer l’état de la tâche d’exportation et télécharger la sortie à utiliser avec vos applications et produits.

Créer un fichier de réglage audio

Vous pouvez intégrer votre contenu dans l’outil Création de contenu audio de deux manières :

Option 1 :
1. Sélectionnez Nouveau>Fichier texte pour créer un fichier de réglage audio.
2. Entrez ou collez votre contenu dans la fenêtre d’édition. Le nombre maximal autorisé de caractères par fichier est de 20 000. Si votre script dépasse cette limite, vous pouvez utiliser l’option 2 pour fractionner automatiquement votre contenu en plusieurs fichiers.
3. Sélectionnez Enregistrer.

Option 2 :

Sélectionnez Charger>Fichier texte pour importer un ou plusieurs fichiers texte. Le texte brut et le SSML sont pris en charge.

Si votre fichier de script comporte plus de 20 000 caractères, fractionnez le contenu par paragraphes, caractères ou expressions régulières.

Lorsque vous chargez vos fichiers texte, veillez à ce qu’ils respectent les exigences suivantes :

Propriété	Description
Format de fichier	Texte brut (.txt)* Texte SSML (.txt)** Les fichiers zip ne sont pas pris en charge.
Format d’encodage	UTF-8
Nom de fichier	Chaque fichier doit avoir un nom unique. Les fichiers en doublon ne sont pas pris en charge.
Longueur du texte	La limite de caractères est de 20 000. Si vos fichiers dépassent la limite, fractionnez-les suivant les instructions de l’outil.
Restrictions SSML	Un fichier SSML ne peut contenir qu’un seul élément SSML.

* Exemple de texte brut :

Welcome to use Audio Content Creation to customize audio output for your products.

** Exemple de texte SSML :

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
    Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
    </voice>
</speak>

Exporter un audio réglé

Après avoir vérifié la sortie audio et si vous êtes satisfait de votre réglage et de votre ajustement, vous pouvez exporter l’audio.

Sélectionnez Exporter pour créer une tâche de création d’audio.

Nous vous recommandons d’Exporter vers la bibliothèque audio pour stocker, trouver et rechercher facilement une sortie audio dans le cloud. Vous pouvez mieux intégrer vos applications via le stockage Blob Azure. Vous pouvez aussi télécharger l’audio directement dans votre disque local.

Choisissez le format de sortie de votre audio réglé. Dans le tableau suivant figurent les formats audio et taux d’échantillonnage pris en charge :

Format	Échantillonnage 8 kHz	Taux d’échantillonnage 16 kHz	Taux d’échantillonnage 24 kHz	Échantillonnage 48 kHz
wav	riff-8 khz-16 bits-mono-pcm	riff-16 khz-16 bits-mono-pcm	riff-24 khz-16 bits-mono-pcm	riff-48 khz-16 bits-mono-pcm
mp3	NON APPLICABLE	audio-16 khz-128 kbitrate-mono-mp3	audio-24 khz-160 kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

Pour voir l’état de la tâche, sélectionnez l’onglet Liste de tâches.

Si la tâche échoue, consultez la page d’informations détaillées pour obtenir un rapport complet.
Une fois la tâche terminée, votre audio est disponible en téléchargement dans le volet Bibliothèque audio.
Sélectionnez le fichier que vous souhaitez télécharger, puis Télécharger.

Vous êtes maintenant prêt à utiliser votre audio réglé personnalisé dans vos applications ou vos produits.

Configurer BYOS et l’accès en lecture public anonyme pour les objets blob

Si vous perdez l’autorisation d’accès à votre stockage BYOS (Bring Your Own Storage), vous ne pourrez pas afficher, créer, modifier et supprimer des fichiers. Pour reprendre votre accès, vous devez supprimer le stockage actuel et reconfigurer le BYOS dans le Portail Azure. Pour en savoir plus sur la configuration de BYOS, consultez Monter le stockage Azure en tant que partage local dans App Service.

Après avoir configuré l’autorisation BYOS, vous devez configurer l’accès en lecture public anonyme pour les conteneurs et objets blob associés. Sinon, les données d’objet blob ne sont pas disponibles pour un accès public et votre fichier de lexique dans l’objet blob n’est pas accessible. Par défaut, le paramètre d’accès public d’un conteneur est désactivé. Pour accorder aux utilisateurs anonymes un accès en lecture à un conteneur et à ses objets blob, définissez d’abord Autoriser l’accès public aux blobs sur Activé pour autoriser l’accès public pour le compte de stockage, puis définissez le niveau d’accès public (nommé acc-public-files) du conteneur (accès en lecture anonyme pour les objets blob uniquement). Pour plus d’informations sur la configuration des conteneurs pour l’accès public, consultez Configurer l’accès en lecture public anonyme pour les conteneurs et les objets blob.

Ajout et suppression d’utilisateurs dans l’outil Création de contenu audio

Si plusieurs utilisateurs souhaitent utiliser l’outil Création de contenu audio, vous pouvez leur donner accès à l’abonnement Azure et à la ressource Speech. Les utilisateurs ajoutés à un abonnement Azure peuvent accéder à toutes les ressources incluses dans l’abonnement. Si en revanche vous ajoutez des utilisateurs à une ressource Speech uniquement, ils n’ont accès qu’à cette dernière, et non aux autres ressources de cet abonnement Azure. Les utilisateurs qui disposent d’un accès à la ressource Speech peuvent utiliser l’outil Création de contenu audio.

Les utilisateurs auxquels vous accordez l’accès doivent configurer un compte Microsoft. S’ils n’en possèdent pas, ils peuvent en créer un en quelques minutes. Ils ont la possibilité d’utiliser leur adresse e-mail actuelle et de la lier à un compte Microsoft, ou encore de créer une adresse e-mail Outlook et de l’utiliser comme compte Microsoft.

Ajout d’utilisateurs à une ressource Speech

Pour ajouter des utilisateurs à une ressource Speech afin qu’ils puissent utiliser l’outil Création de contenu audio, procédez comme suit :

Dans le portail Azure, sélectionnez Tous les services.
Ensuite, sélectionnez Azure AI et accédez à votre ressource Speech spécifique.

Remarque

Vous pouvez également configurer Azure RBAC pour des groupes de ressources, des abonnements ou des groupes d’administration complets. Pour ce faire, sélectionnez le niveau d’étendue souhaité, puis accédez à l’élément de votre choix (par exemple, en sélectionnant Groupes de ressources puis en cliquant sur le groupe de ressources souhaité).
Sélectionnez Contrôle d’accès (IAM) dans le menu de navigation de gauche.
Sélectionnez Ajouter->Ajouter une attribution de rôle.
Sous l’onglet Rôle de l’écran suivant, sélectionnez le rôle que vous souhaitez ajouter (dans ce cas Propriétaire).
Sous l’onglet Membres, entrez l’adresse e-mail d’un utilisateur et sélectionnez son nom dans l’annuaire. L’adresse e-mail doit être liée à un compte Microsoft approuvé par l’ID Microsoft Entra. Les utilisateurs peuvent facilement ouvrir un compte Microsoft à l’aide de leur adresse e-mail personnelle.
Dans l’onglet Passer en revue + affecter, sélectionnez Passer en revue + affecter pour affecter le rôle.

Voici ce qui se passe par la suite :

Une invitation est automatiquement envoyée aux utilisateurs par e-mail. Ils peuvent l’accepter en sélectionnant Accepter l’invitation>Accepter de rejoindre Azure dans leur e-mail. Ils sont alors redirigés sur le Portail Azure. Ils n’ont pas besoin d’effectuer d’autres actions sur le Portail Azure. Après quelques instants, ils reçoivent le rôle au niveau de l’étendue de la ressource Speech, ce qui leur donne accès à cette ressource Speech. Si les utilisateurs ne reçoivent pas l’e-mail d’invitation, vous pouvez rechercher leur compte sous Attributions de rôles et accéder à leur profil. Recherchez Identité>Invitation acceptée, puis sélectionnez (gérer) pour renvoyer l’invitation par e-mail. Vous pouvez également copier le lien d’invitation et le leur envoyer.

Les utilisateurs accèdent à présent à la page du produit Création de contenu audio ou l’actualisent et se connectent avec leur compte Microsoft. Ils sélectionnent le bloc Création de contenu audio parmi tous les produits Speech. Ils choisissent la ressource Speech dans la fenêtre contextuelle ou dans les paramètres situés en haut à droite de la page.

S’ils ne trouvent pas la ressource Speech disponible, ils peuvent vérifier qu’ils se situent dans le bon répertoire. Pour ce faire, ils sélectionnent le profil de compte en haut à droite, puis Changer en regard de Répertoire actif. Si plusieurs répertoires sont disponibles, cela signifie qu’ils ont accès à plusieurs répertoires. Ils peuvent basculer sur d’autres répertoires et accéder à Paramètres pour voir si la ressource Speech disponible est celle qu’ils souhaitent.

Les utilisateurs se trouvant dans la même ressource Speech peuvent voir le travail des autres dans l’outil Création de contenu audio. Si vous souhaitez que chaque utilisateur individuel dispose d’un espace de travail unique et privé dans l’outil Création de contenu audio, créez une ressource Speech et accordez un accès unique à cette ressource pour chacun d’eux.

Suppression d’utilisateurs d’une ressource Speech

Recherchez Azure AI dans le portail Azure, sélectionnez la ressource Speech dont vous souhaitez supprimer des utilisateurs.
Sélectionnez Contrôle d’accès (IAM), puis l’onglet Attributions de rôles pour afficher toutes les attributions de rôles de cette ressource Speech.
Sélectionnez les utilisateurs que vous souhaitez supprimer, puis Supprimer et enfin OK.

Octroi aux utilisateurs de l’autorisation de donner accès à d’autres utilisateurs

Si vous souhaitez autoriser un utilisateur à donner accès à d’autres utilisateurs, vous devez lui attribuer le rôle Propriétaire de la ressource Speech et le définir comme Lecteur de l’annuaire Azure.

Ajoutez l’utilisateur aux propriétaires de la ressource Speech. Pour plus d’informations, consultez Ajout d’utilisateurs à une ressource Speech.
Dans le portail Azure , sélectionnez le menu réduit en haut à gauche, Microsoft Entra ID, puis sélectionnez Utilisateurs.
Recherchez le compte Microsoft de l’utilisateur, accédez à sa page d’informations, puis sélectionnez Rôles attribués.
Sélectionnez Ajouter des attributions>Lecteurs d’annuaires. Si le bouton Ajouter des attributions n’est pas disponible, cela signifie que vous n’avez pas accès. Seul l’administrateur général de cet annuaire peut ajouter des attributions aux utilisateurs.

Synthèse Speech avec l’outil de création de contenu audio

Bien démarrer

Étape 1 : Création d’un compte Azure

Étape 2 : Création d’une ressource Speech

Utiliser l’outil

Créer un fichier de réglage audio

Exporter un audio réglé

Configurer BYOS et l’accès en lecture public anonyme pour les objets blob

Ajout et suppression d’utilisateurs dans l’outil Création de contenu audio

Ajout d’utilisateurs à une ressource Speech

Suppression d’utilisateurs d’une ressource Speech

Octroi aux utilisateurs de l’autorisation de donner accès à d’autres utilisateurs

Étapes suivantes

Ressources supplémentaires

Synthèse Speech avec l’outil de création de contenu audio

Bien démarrer

Étape 1 : Création d’un compte Azure

Étape 2 : Création d’une ressource Speech

Étape 3 : Connexion à l’outil Création de contenu audio avec un compte Azure et une ressource Speech

Utiliser l’outil

Créer un fichier de réglage audio

Exporter un audio réglé

Configurer BYOS et l’accès en lecture public anonyme pour les objets blob

Ajout et suppression d’utilisateurs dans l’outil Création de contenu audio

Ajout d’utilisateurs à une ressource Speech

Suppression d’utilisateurs d’une ressource Speech

Octroi aux utilisateurs de l’autorisation de donner accès à d’autres utilisateurs

Étapes suivantes

Ressources supplémentaires