Qu’est-ce que la synthèse vocale OpenAI ?

Article
05/07/2024

Comme les voix Azure AI Speech, les voix de synthèse vocale OpenAI offrent une synthèse vocale de haute qualité pour convertir un texte écrit en un son naturel. Cela ouvre un large éventail de possibilités d’expériences immersives et interactives pour l’utilisateur.

Les voix de synthèse vocale OpenAI sont disponibles via deux variantes de modèle : Neural et NeuralHD.

Neural : optimisé pour les cas d’utilisation en temps réel avec la latence la plus faible, mais de qualité inférieure à NeuralHD.
NeuralHD : optimisé pour la qualité.

Pour obtenir une démonstration des voix OpenAI dans Azure OpenAI Studio et Speech Studio, consultez cette vidéo d’introduction.

Voix de synthèse vocale disponibles dans les services Azure AI

Vous pouvez vous poser la question suivante : si je souhaite une synthèse vocale OpenAI, dois-je l’utiliser via Azure OpenAI Service ou Azure AI Speech ? Quels scénarios peuvent me guider pour utiliser l’un ou l’autre ?

Chaque modèle vocal offre des caractéristiques et des capacités différentes, ce qui vous permet de choisir celui qui répond le mieux à vos besoins spécifiques. Vous souhaitez comprendre les options et les différences entre les voix de synthèse vocale disponibles dans les services Azure AI.

Vous pouvez choisir parmi les voix de synthèse vocale suivantes dans les services Azure AI :

Voix de synthèse vocale OpenAI dans Azure OpenAI Service. Disponible dans les régions suivantes : USA Centre Nord et Suède Centre.
Voix de synthèse vocale OpenAI dans Azure AI Speech. Disponible dans les régions suivantes : USA Centre Nord et Suède Centre.
Service Azure AI Speech de synthèse vocale. Disponible dans des dizaines de régions. Consultez la liste des régions.

Synthèse vocale OpenAI via Azure OpenAI Service ou via Azure AI Speech ?

Si vous souhaitez utiliser du texte OpenAI pour la synthèse vocale, vous pouvez choisir de les utiliser via Azure OpenAI ou par le biais d’Azure AI Speech. Dans les deux cas, le résultat de la synthèse vocale est le même.

Voici une comparaison des caractéristiques des voix de synthèse vocale OpenAI dans Azure OpenAI Service et des voix de synthèse vocale OpenAI dans Azure AI Speech.

Fonctionnalité	Azure OpenAI Service (voix OpenAI)	Azure AI Speech (voix OpenAI)	Voix Azure AI Speech
Région	USA Centre Nord, Suède Centre	USA Centre Nord, Suède Centre	Disponible dans des dizaines de régions. Consultez la liste des régions.
Variété de voix	6	6	Plus de 400
Nombre de voix multilingues	6	6	14
Couverture linguistique multilingue maximale	57	57	77
Prise en charge du langage de balisage de synthèse vocale (SSML, Speech Synthesis Markup Language)	Non pris en charge	Prise en charge d’un sous-ensemble d’éléments SSML.	Prise en charge de l’ensemble complet de SSML dans Azure AI Speech.
Options de développement	API REST	SDK Speech, Interface CLI Speech, API REST	SDK Speech, Interface CLI Speech, API REST
Option de déploiement	Cloud uniquement	Cloud uniquement	Cloud, incorporé, hybride et conteneurs.
Synthèse en temps réel ou par lot	Temps réel	Synthèse en temps réel et par lot	Synthèse en temps réel et par lot
Latence	supérieur à 500 ms	supérieur à 500 ms	inférieur à 300 ms
Échantillonnage de l’audio synthétisé	24 kHz	8, 16, 24 et 48 kHz	8, 16, 24 et 48 kHz
Format audio de sortie vocale	opus, mp3, aac, flocon	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Il existe d’autres fonctionnalités disponibles dans Azure AI Speech qui ne sont pas disponibles avec les voix OpenAI. Par exemple :

Les voix de synthèse vocale OpenAI dans Azure AI Speech prennent uniquement en charge un sous-ensemble d’éléments SSML. Les voix Azure AI Speech prennent en charge l’ensemble complet des éléments SSML.
Azure AI Speech prend en charge les événements de limite de mot. Les voix OpenAI ne prennent pas en charge les événements de limite de mot.

Éléments SSML pris en charge par les voix de synthèse vocale OpenAI dans Azure AI Speech

Le langage SSML (Speech Synthesis Markup Language) avec texte d’entrée détermine la structure, le contenu et d’autres caractéristiques de la sortie de synthèse vocale. Par exemple, vous pouvez utiliser SSML pour définir un paragraphe, une phrase, une pause ou un silence. Vous pouvez entourer du texte à l’aide de balises d’événement, comme un signet ou un visème, qui peuvent être traitées ultérieurement par votre application.

Le tableau suivant présente les éléments du langage de balisage de la synthèse vocale (SSML) pris en charge par les voix de synthèse vocale OpenAI dans Azure AI speech. Seul le sous-ensemble suivant de balises SSML est pris en charge pour les voix OpenAI. Consultez Événements et structure de document SSML pour plus d’informations.

Nom de l’élément SSML	Description
`<speak>`	Entoure l’ensemble du contenu à prononcer. C’est l’élément racine d’un document SSML.
`<voice>`	Spécifie la voix utilisée pour la sortie de synthèse vocale.
`<sub>`	Indique que la valeur de texte de l’attribut alias doit être prononcée au lieu du texte joint de l’élément.
`<say-as>`	Indique le type de contenu, par exemple un nombre ou une date, du texte de l’élément. Toutes les valeurs de propriété `interpret-as` sont prises en charge pour cet élément, sauf `interpret-as="name"`. Par exemple, `<say-as interpret-as="date" format="dmy">10-12-2016</say-as>` est pris en charge, mais `<say-as interpret-as="name">ED</say-as>` ne l’est pas. Pour plus d’informations, consultez la prononciation avec SSML.
`<s>`	Indique les phrases.
`<lang>`	Indique les paramètres régionaux par défaut pour la langue dans laquelle la voix neuronale doit s’exprimer.
`<break>`	Utiliser pour remplacer le comportement par défaut des interruptions ou pauses entre les mots.

Share via

Qu’est-ce que la synthèse vocale OpenAI ?

Voix de synthèse vocale disponibles dans les services Azure AI

Synthèse vocale OpenAI via Azure OpenAI Service ou via Azure AI Speech ?

Éléments SSML pris en charge par les voix de synthèse vocale OpenAI dans Azure AI Speech

Étapes suivantes

Ressources supplémentaires