Améliorer la synthèse avec le langage de balisage de synthèse vocale (SSML, Speech Synthesis Markup Language)Improve synthesis with Speech Synthesis Markup Language (SSML)

Le langage de balisage de synthèse vocale (SSML) est un langage de balisage basé sur XML qui permet aux développeurs de spécifier la manière dont un texte en entrée est converti en parole synthétisée via le service de synthèse vocale.Speech Synthesis Markup Language (SSML) is an XML-based markup language that lets developers specify how input text is converted into synthesized speech using the text-to-speech service. Comparé à du texte brut, le SSML permet aux développeurs de régler finement la tonalité, la prononciation, le débit, le volume et d’autres paramètres de la synthèse vocale.Compared to plain text, SSML allows developers to fine-tune the pitch, pronunciation, speaking rate, volume, and more of the text-to-speech output. La ponctuation normale, telle que la pause après un point ou l’utilisation de l’intonation correcte quand une phrase se termine par un point d’interrogation, est traitée automatiquement.Normal punctuation, such as pausing after a period, or using the correct intonation when a sentence ends with a question mark are automatically handled.

L’implémentation par SSML du service Speech est basée sur le langage SSML version 1.0 du World Wide Web Consortium.The Speech service implementation of SSML is based on World Wide Web Consortium's Speech Synthesis Markup Language Version 1.0.

Important

Les caractères chinois, japonais et coréens comptent pour deux en matière de facturation.Chinese, Japanese, and Korean characters count as two characters for billing. Pour plus d’informations, voir la tarification.For more information, see Pricing.

Voix standard, neuronales et personnaliséesStandard, neural, and custom voices

Choisissez parmi les voix standard et neuronales, ou créez une voix personnalisée propre à votre produit ou votre marque.Choose from standard and neural voices, or create your own custom voice unique to your product or brand. Plus de 75 voix standard sont disponibles dans plus de 45 langues et paramètres régionaux, et 5 voix neurales sont disponibles dans 4 langues et paramètres régionaux.75+ standard voices are available in more than 45 languages and locales, and 5 neural voices are available in four languages and locales. Pour obtenir la liste complète des langues, paramètres régionaux et voix (neuronales et standard) pris en charge, consultez prise en charge linguistique.For a complete list of supported languages, locales, and voices (neural and standard), see language support.

Pour en savoir plus sur les voix standard, neuronales et personnalisées, voir Vue d’ensemble de la synthèse vocale.To learn more about standard, neural, and custom voices, see Text-to-speech overview.

Notes

Vous pouvez entendre les voix dans différents styles et la lecture de texte d’exemple à l’aide de la page de Synthèse vocale.You can hear voices in different styles and pitches reading example text using the Text to Speech page.

Caractères spéciauxSpecial characters

Lorsque vous utilisez SSML, n’oubliez pas que les caractères spéciaux, tels que les guillemets, les apostrophes et les crochets, doivent être placés dans une séquence d’échappement.While using SSML, keep in mind that special characters, such as quotation marks, apostrophes, and brackets must be escaped. Pour plus d’informations, consultez la page Extensible Markup Language (XML) 1.0 : Annexe D.For more information, see Extensible Markup Language (XML) 1.0: Appendix D.

Éléments SSML pris en chargeSupported SSML elements

Chaque document SSML est créé avec des éléments SSML (ou les balises).Each SSML document is created with SSML elements (or tags). Ces éléments sont utilisés pour ajuster la tonalité, la prosodie, le volume et d’autres paramètres.These elements are used to adjust pitch, prosody, volume, and more. Les sections suivantes détaillent la manière dont chaque élément est utilisé, et quand il est obligatoire ou facultatif.The following sections detail how each element is used, and when an element is required or optional.

Important

N’oubliez pas d’entourer les valeurs d’attribut de guillemets.Don't forget to use double quotes around attribute values. Les normes pour un code XML bien formé valide exigent que les valeurs d’attribut soient placées entre guillemets.Standards for well-formed, valid XML requires attribute values to be enclosed in double quotation marks. Par exemple, <prosody volume="90"> est un élément bien formé valide, mais <prosody volume=90> ne l’est pas.For example, <prosody volume="90"> is a well-formed, valid element, but <prosody volume=90> is not. Le SSML peut ne pas reconnaître des valeurs d’attribut non entourées de guillemets.SSML may not recognize attribute values that are not in quotes.

Créer un document SSMLCreate an SSML document

speak est l’élément racine requis pour tous les documents SSML.speak is the root element, and is required for all SSML documents. L’élément speak contient des informations importantes, telles que la version, la langue et la définition de vocabulaire de balisage.The speak element contains important information, such as version, language, and the markup vocabulary definition.

SyntaxeSyntax

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="string"></speak>

AttributsAttributes

AttributAttribute DescriptionDescription Obligatoire/facultatifRequired / Optional
version Indique la version de la spécification SSML utilisée pour interpréter le balisage de document.Indicates the version of the SSML specification used to interpret the document markup. La version actuelle est 1.0.The current version is 1.0. ObligatoireRequired
xml:lang Spécifie la langue du document racine.Specifies the language of the root document. La valeur peut contenir un code langue de deux lettres minuscules (par exemple, en), ou le code langue associé au code du pays ou de la région en majuscules (par exemple, en-US).The value may contain a lowercase, two-letter language code (for example, en), or the language code and uppercase country/region (for example, en-US). ObligatoireRequired
xmlns Spécifie l’URI du document définissant le vocabulaire de balisage (types d’éléments et noms d’attribut) du document SSML.Specifies the URI to the document that defines the markup vocabulary (the element types and attribute names) of the SSML document. L’URI en cours est http://www.w3.org/2001/10/synthesis.The current URI is http://www.w3.org/2001/10/synthesis. ObligatoireRequired

Choisir une voix de synthèse vocaleChoose a voice for text-to-speech

L’élément voice est obligatoire.The voice element is required. Il spécifie la voix utilisée pour la synthèse vocale.It is used to specify the voice that is used for text-to-speech.

SyntaxeSyntax

<voice name="string">
    This text will get converted into synthesized speech.
</voice>

AttributsAttributes

AttributAttribute DescriptionDescription Obligatoire/facultatifRequired / Optional
name Identifie la voix utilisée pour la sortie de synthèse vocale.Identifies the voice used for text-to-speech output. Pour accéder à la liste complète des voix prises en charge, voir Prise en charge des langues.For a complete list of supported voices, see Language support. ObligatoireRequired

ExempleExample

Notes

Cet exemple utilise la voix en-US-JennyNeural.This example uses the en-US-JennyNeural voice. Pour accéder à la liste complète des voix prises en charge, voir Prise en charge des langues.For a complete list of supported voices, see Language support.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        This is the text that is spoken.
    </voice>
</speak>

Utiliser plusieurs voixUse multiple voices

Dans l’élément speak, vous pouvez spécifier plusieurs voix pour la sortie de synthèse vocale.Within the speak element, you can specify multiple voices for text-to-speech output. Ces voix peuvent être dans différentes langues.These voices can be in different languages. Pour chaque voix, le texte doit être encapsulé dans un élément voice.For each voice, the text must be wrapped in a voice element.

AttributsAttributes

AttributAttribute DescriptionDescription Obligatoire/facultatifRequired / Optional
name Identifie la voix utilisée pour la sortie de synthèse vocale.Identifies the voice used for text-to-speech output. Pour accéder à la liste complète des voix prises en charge, voir Prise en charge des langues.For a complete list of supported voices, see Language support. ObligatoireRequired

Important

Les voix multiples sont incompatibles avec la fonctionnalité de limite de mot.Multiple voices are incompatible with the word boundary feature. La fonctionnalité de limite de mot doit être désactivée pour pouvoir utiliser plusieurs voix.The word boundary feature needs to be disabled in order to use multiple voices.

Désactiver la limite de motDisable word boundary

Selon la langue du Kit de développement logiciel (SDK) Speech, vous définirez la propriété "SpeechServiceResponse_Synthesis_WordBoundaryEnabled" sur false sur une instance de l’objet SpeechConfig.Depending on the Speech SDK language, you'll set the "SpeechServiceResponse_Synthesis_WordBoundaryEnabled" property to false on an instance of the SpeechConfig object.

Pour plus d’informations, consultez SetProperty .For more information, see SetProperty .

speechConfig.SetProperty(
    "SpeechServiceResponse_Synthesis_WordBoundaryEnabled", "false");

ExempleExample

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        Good morning!
    </voice>
    <voice name="en-US-GuyNeural">
        Good morning to you too Jenny!
    </voice>
</speak>

Ajuster les styles orauxAdjust speaking styles

Important

L’ajustement des styles oraux ne fonctionne qu’avec les voix neurales.The adjustment of speaking styles will only work with neural voices.

Par défaut, le service de synthèse vocale synthétise le texte à l’aide d’un style oral neutre pour les voix standard et neuronales.By default, the text-to-speech service synthesizes text using a neutral speaking style for both standard and neural voices. Avec les voix neurales, vous pouvez ajuster le ton pour exprimer différentes émotions, comme la joie, l’empathie ou le calme, ou bien optimiser la voix pour différents scénarios comme le service client, la diffusion d’informations et les assistants vocaux, à l’aide de l’élément mstts:express-as.With neural voices, you can adjust the speaking style to express different emotions like cheerfulness, empathy, and calm, or optimize the voice for different scenarios like customer service, newscasting and voice assistant, using the mstts:express-as element. Il s’agit d’un élément facultatif propre au service Speech.This is an optional element unique to the Speech service.

Actuellement, des ajustements de style oral sont pris en charge pour ces voix neuronales :Currently, speaking style adjustments are supported for these neural voices:

  • en-US-AriaNeural
  • en-US-JennyNeural
  • en-US-GuyNeural
  • pt-BR-FranciscaNeural
  • zh-CN-XiaoxiaoNeural
  • zh-CN-YunyangNeural
  • zh-CN-YunyeNeural
  • zh-CN-YunxiNeural (version préliminaire)zh-CN-YunxiNeural (Preview)
  • zh-CN-XiaohanNeural (version préliminaire)zh-CN-XiaohanNeural (Preview)
  • zh-CN-XiaomoNeural (version préliminaire)zh-CN-XiaomoNeural (Preview)
  • zh-CN-XiaoxuanNeural (version préliminaire)zh-CN-XiaoxuanNeural (Preview)
  • zh-CN-XiaoruiNeural (version préliminaire)zh-CN-XiaoruiNeural (Preview)

L’intensité du style d’élocution peut être modifiée pour mieux correspondre à votre cas d’usage.The intensity of speaking style can be further changed to better fit your use case. Vous pouvez spécifier un style plus fort ou plus doux avec styledegree pour rendre la voix plus expressive ou feutrée.You can specify a stronger or softer style with styledegree to make the speech more expressive or subdued. Actuellement, les ajustements de style oral sont pris en charge pour les voix neuronales en chinois (mandarin, simplifié).Currently, speaking style adjustments are supported for Chinese (Mandarin, Simplified) neural voices.

En plus d’ajuster les styles d’élocution et le degré de style, vous pouvez aussi ajuster le paramètre role afin que la voix imite un âge et un sexe différents.Apart from adjusting the speaking styles and style degree, you can also adjust the role parameter so that the voice will imitate a different age and gender. Par exemple, une voix masculine peut devenir plus aigüe et changer d’intonation pour imiter une voix féminine, mais le nom de la voix ne changera pas.For example, a male voice can raise the pitch and change the intonation to imitate a female voice, but the voice name will not be changed. Actuellement, les ajustements de jeux de rôle sont pris en charge pour ces voix neuronales en chinois (mandarin, simplifié) :Currently, role-play adjustments are supported for these Chinese (Mandarin, Simplified) neural voices:

  • zh-CN-XiaomoNeural
  • zh-CN-XiaoxuanNeural

Les modifications ci-dessus sont appliquées au niveau de la phrase, et les styles et jeux de rôle varient selon la voix.Above changes are applied at the sentence level, and styles and role-plays vary by voice. Si un style ou jeu de rôle n’est pas pris en charge, le service retourne la voix dans le style d’élocution neutre par défaut.If a style or role-play isn't supported, the service will return speech in the default neutral speaking way. Vous pouvez voir les styles et jeux de rôle pris en charge pour chaque voix par le biais de l’API Voice List ou celui de la plateforme de création de contenu audio sans code.You can see what styles and role-play are supported for each voice through the voice list API or through the code-free Audio Content Creation platform.

SyntaxeSyntax

<mstts:express-as style="string"></mstts:express-as>
<mstts:express-as style="string" styledegree="value"></mstts:express-as>
<mstts:express-as role="string" style="string"></mstts:express-as>

Notes

À l’heure actuelle, styledegree ne prend en charge que les voix neuronales en chinois (mandarin, simplifié).At the moment, styledegree only supports Chinese (Mandarin, Simplified) neural voices. role prend uniquement en charge zh-CN-XiaomoNeural et zh-CN-XiaoxuanNeural.role only supports zh-CN-XiaomoNeural and zh-CN-XiaoxuanNeural.

AttributsAttributes

AttributAttribute DescriptionDescription Obligatoire/facultatifRequired / Optional
style Spécifie le style oral.Specifies the speaking style. Actuellement, les styles oraux sont spécifiques à la voix.Currently, speaking styles are voice-specific. Obligatoire en cas d’ajustement du style oral pour une voix neuronale.Required if adjusting the speaking style for a neural voice. Si vous utilisez mstts:express-as, le style doit être fourni.If using mstts:express-as, then style must be provided. Si une valeur non valide est fournie, cet élément est ignoré.If an invalid value is provided, this element will be ignored.
styledegree Spécifie l’intensité du style d’élocution.Specifies the intensity of speaking style. Valeurs acceptées : 0,01 à 2 incluse.Accepted values: 0.01 to 2 inclusive. La valeur par défaut est 1, ce qui correspond à l’intensité de style prédéfinie.The default value is 1 which means the predefined style intensity. L’unité minimale est 0,01, ce qui aboutit à une légère tendance pour le style cible.The minimum unit is 0.01 which results in a slightly tendency for the target style. La valeur 2 produit un doublement de l’intensité de style par défaut.A value of 2 results in a doubling of the default style intensity. Facultatif (à l’heure actuelle, styledegree ne prend en charge que les voix neuronales en chinois (mandarin, simplifié).)Optional (At the moment, styledegree only supports Chinese (Mandarin, Simplified) neural voices.)
role Spécifie le jeu de rôle.Specifies the speaking role-play. La voix correspondra à un âge et un sexe différents, mais le nom de la voix ne changera pas.The voice will act as a different age and gender, but the voice name will not be changed. Facultatif (Pour le moment, role prend uniquement en charge zh-CN-XiaomoNeural et zh-CN-XiaoxuanNeural.)Optional (At the moment, role only supports zh-CN-XiaomoNeural and zh-CN-XiaoxuanNeural.)

Reportez-vous à ce tableau pour déterminer les styles oraux pris en charge pour chaque voix neuronale.Use this table to determine which speaking styles are supported for each neural voice.

VoixVoice StyleStyle DescriptionDescription
en-US-AriaNeural style="newscast-formal" Exprime un ton formel, confiant et autoritaire pour la diffusion des actualitésExpresses a formal, confident and authoritative tone for news delivery
style="newscast-casual" Exprime un ton polyvalent et décontracté pour la diffusion d’informations généralesExpresses a versatile and casual tone for general news delivery
style="narration-professional" Exprime un ton professionnel et objectif pour la lecture de contenuExpress a professional, objective tone for content reading
style="customerservice" Exprime un ton convivial et pragmatique pour le support techniqueExpresses a friendly and helpful tone for customer support
style="chat" Exprime un ton informel et détenduExpresses a casual and relaxed tone
style="cheerful" Exprime un ton positif et joyeuxExpresses a positive and happy tone
style="empathetic" Exprime une de la compassion et de la compréhensionExpresses a sense of caring and understanding
en-US-JennyNeural style="customerservice" Exprime un ton convivial et pragmatique pour le support techniqueExpresses a friendly and helpful tone for customer support
style="chat" Exprime un ton informel et détenduExpresses a casual and relaxed tone
style="assistant" Exprime un ton chaud et détendu pour les assistants numériquesExpresses a warm and relaxed tone for digital assistants
style="newscast" Exprime un ton polyvalent et décontracté pour la diffusion d’informations généralesExpresses a versatile and casual tone for general news delivery
en-US-GuyNeural style="newscast" Exprime un ton formel et professionnel pour la présentation des actualitésExpresses a formal and professional tone for narrating news
pt-BR-FranciscaNeural style="calm" Exprime une attitude sympathique, calme et posée dans une conversation.Expresses a cool, collected, and composed attitude when speaking. Le ton, la hauteur de la voix, la prosodie sont bien plus uniformes par rapport aux autres types de voix.Tone, pitch, prosody is much more uniform compared to other types of speech.
zh-CN-XiaoxiaoNeural style="newscast" Exprime un ton formel et professionnel pour la présentation des actualitésExpresses a formal and professional tone for narrating news
style="customerservice" Exprime un ton convivial et pragmatique pour le support techniqueExpresses a friendly and helpful tone for customer support
style="assistant" Exprime un ton chaud et détendu pour les assistants numériquesExpresses a warm and relaxed tone for digital assistants
style="chat" Exprime un ton informel et détendu pour un échange de conversation (chit-chat)Expresses a casual and relaxed tone for chit-chat
style="calm" Exprime une attitude sympathique, calme et posée dans une conversation.Expresses a cool, collected, and composed attitude when speaking. Le ton, la hauteur de la voix, la prosodie sont bien plus uniformes par rapport aux autres types de voix.Tone, pitch, prosody is much more uniform compared to other types of speech.
style="cheerful" Exprime un ton optimiste et enthousiaste, avec une plus grande hauteur de voix et énergie vocale.Expresses an upbeat and enthusiastic tone, with higher pitch and vocal energy
style="sad" Exprime un ton triste, avec une plus grande hauteur de voix, une intensité moindre et une énergie vocale plus faible.Expresses a sorrowful tone, with higher pitch, less intensity, and lower vocal energy. Les gémissements ou les pleurs pendant l’élocution indiquent généralement cette émotion.Common indicators of this emotion would be whimpers or crying during speech.
style="angry" Exprime un ton fâché et énervé, avec une hauteur de voix plus basse, une intensité plus grande et une énergie vocale plus élevée.Expresses an angry and annoyed tone, with lower pitch, higher intensity, and higher vocal energy. L’orateur est en colère, mécontent et offensé.The speaker is in a state of being irate, displeased, and offended.
style="fearful" Exprime un ton effrayé et nerveux, avec une plus grande hauteur de voix, une plus grande énergie vocale et un débit plus rapide.Expresses a scared and nervous tone, with higher pitch, higher vocal energy, and faster rate. L’orateur est dans un état de tension et de malaise.The speaker is in a state of tenseness and uneasiness.
style="disgruntled" Exprime un ton dédaigneux et plaintif.Expresses a disdainful and complaining tone. L’expression de cette émotion témoigne du mécontentement et du mépris.Speech of this emotion displays displeasure and contempt.
style="serious" Exprime un ton strict et autoritaire.Expresses a strict and commanding tone. L’orateur a souvent l’air sévère et peu détendu et sa cadence reste ferme.Speaker often sounds stiffer and much less relaxed with firm cadence.
style="affectionate" Exprime un ton chaleureux et affectueux, avec une hauteur de voix et une énergie vocale plus grandes.Expresses a warm and affectionate tone, with higher pitch and vocal energy. L’orateur attire l’attention de celui qui écoute.The speaker is in a state of attracting the attention of the listener. La « personnalité » de l’orateur est souvent d’une nature attachante.The “personality” of the speaker is often endearing in nature.
style="gentle" Exprime un ton doux, poli et agréable, avec une hauteur de voix et une énergie vocale moins élevéesExpresses a mild, polite, and pleasant tone, with lower pitch and vocal energy
style="lyrical" Exprime les émotions d’une manière mélodique et sentimentaleExpresses emotions in a melodic and sentimental way
zh-CN-YunyangNeural style="customerservice" Exprime un ton convivial et pragmatique pour le support techniqueExpresses a friendly and helpful tone for customer support
zh-CN-YunyeNeural style="calm" Exprime une attitude sympathique, calme et posée dans une conversation.Expresses a cool, collected, and composed attitude when speaking. Le ton, la hauteur de la voix, la prosodie sont bien plus uniformes par rapport aux autres types de voix.Tone, pitch, prosody is much more uniform compared to other types of speech.
style="cheerful" Exprime un ton optimiste et enthousiaste, avec une plus grande hauteur de voix et énergie vocale.Expresses an upbeat and enthusiastic tone, with higher pitch and vocal energy
style="sad" Exprime un ton triste, avec une plus grande hauteur de voix, une intensité moindre et une énergie vocale plus faible.Expresses a sorrowful tone, with higher pitch, less intensity, and lower vocal energy. Les gémissements ou les pleurs pendant l’élocution indiquent généralement cette émotion.Common indicators of this emotion would be whimpers or crying during speech.
style="angry" Exprime un ton fâché et énervé, avec une hauteur de voix plus basse, une intensité plus grande et une énergie vocale plus élevée.Expresses an angry and annoyed tone, with lower pitch, higher intensity, and higher vocal energy. L’orateur est en colère, mécontent et offensé.The speaker is in a state of being irate, displeased, and offended.
style="fearful" Exprime un ton effrayé et nerveux, avec une plus grande hauteur de voix, une plus grande énergie vocale et un débit plus rapide.Expresses a scared and nervous tone, with higher pitch, higher vocal energy, and faster rate. L’orateur est dans un état de tension et de malaise.The speaker is in a state of tenseness and uneasiness.
style="disgruntled" Exprime un ton dédaigneux et plaintif.Expresses a disdainful and complaining tone. L’expression de cette émotion témoigne du mécontentement et du mépris.Speech of this emotion displays displeasure and contempt.
style="serious" Exprime un ton strict et autoritaire.Expresses a strict and commanding tone. L’orateur a souvent l’air sévère et peu détendu et sa cadence reste ferme.Speaker often sounds stiffer and much less relaxed with firm cadence.
zh-CN-YunxiNeural style="cheerful" Exprime un ton optimiste et enthousiaste, avec une plus grande hauteur de voix et énergie vocale.Expresses an upbeat and enthusiastic tone, with higher pitch and vocal energy
style="sad" Exprime un ton triste, avec une plus grande hauteur de voix, une intensité moindre et une énergie vocale plus faible.Expresses a sorrowful tone, with higher pitch, less intensity, and lower vocal energy. Les gémissements ou les pleurs pendant l’élocution indiquent généralement cette émotion.Common indicators of this emotion would be whimpers or crying during speech.
style="angry" Exprime un ton fâché et énervé, avec une hauteur de voix plus basse, une intensité plus grande et une énergie vocale plus élevée.Expresses an angry and annoyed tone, with lower pitch, higher intensity, and higher vocal energy. L’orateur est en colère, mécontent et offensé.The speaker is in a state of being irate, displeased, and offended.
style="fearful" Exprime un ton effrayé et nerveux, avec une plus grande hauteur de voix, une plus grande énergie vocale et un débit plus rapide.Expresses a scared and nervous tone, with higher pitch, higher vocal energy, and faster rate. L’orateur est dans un état de tension et de malaise.The speaker is in a state of tenseness and uneasiness.
style="disgruntled" Exprime un ton dédaigneux et plaintif.Expresses a disdainful and complaining tone. L’expression de cette émotion témoigne du mécontentement et du mépris.Speech of this emotion displays displeasure and contempt.
style="serious" Exprime un ton strict et autoritaire.Expresses a strict and commanding tone. L’orateur a souvent l’air sévère et peu détendu et sa cadence reste ferme.Speaker often sounds stiffer and much less relaxed with firm cadence.
style="depressed" Exprime un ton mélancolique et découragé avec une hauteur de voix plus basse et moins d’énergieExpresses a melancholic and despondent tone with lower pitch and energy
style="embarrassed" Exprime un ton incertain et hésitant quand l’orateur se sent mal à l’aiseExpresses an uncertain and hesitant tone when the speaker is feeling uncomfortable
zh-CN-XiaohanNeural style="cheerful" Exprime un ton optimiste et enthousiaste, avec une plus grande hauteur de voix et énergie vocale.Expresses an upbeat and enthusiastic tone, with higher pitch and vocal energy
style="sad" Exprime un ton triste, avec une plus grande hauteur de voix, une intensité moindre et une énergie vocale plus faible.Expresses a sorrowful tone, with higher pitch, less intensity, and lower vocal energy. Les gémissements ou les pleurs pendant l’élocution indiquent généralement cette émotion.Common indicators of this emotion would be whimpers or crying during speech.
style="angry" Exprime un ton fâché et énervé, avec une hauteur de voix plus basse, une intensité plus grande et une énergie vocale plus élevée.Expresses an angry and annoyed tone, with lower pitch, higher intensity, and higher vocal energy. L’orateur est en colère, mécontent et offensé.The speaker is in a state of being irate, displeased, and offended.
style="fearful" Exprime un ton effrayé et nerveux, avec une plus grande hauteur de voix, une plus grande énergie vocale et un débit plus rapide.Expresses a scared and nervous tone, with higher pitch, higher vocal energy, and faster rate. L’orateur est dans un état de tension et de malaise.The speaker is in a state of tenseness and uneasiness.
style="disgruntled" Exprime un ton dédaigneux et plaintif.Expresses a disdainful and complaining tone. L’expression de cette émotion témoigne du mécontentement et du mépris.Speech of this emotion displays displeasure and contempt.
style="serious" Exprime un ton strict et autoritaire.Expresses a strict and commanding tone. L’orateur a souvent l’air sévère et peu détendu et sa cadence reste ferme.Speaker often sounds stiffer and much less relaxed with firm cadence.
style="embarrassed" Exprime un ton incertain et hésitant quand l’orateur se sent mal à l’aiseExpresses an uncertain and hesitant tone when the speaker is feeling uncomfortable
style="affectionate" Exprime un ton chaleureux et affectueux, avec une hauteur de voix et une énergie vocale plus grandes.Expresses a warm and affectionate tone, with higher pitch and vocal energy. L’orateur attire l’attention de celui qui écoute.The speaker is in a state of attracting the attention of the listener. La « personnalité » de l’orateur est souvent d’une nature attachante.The “personality” of the speaker is often endearing in nature.
style="gentle" Exprime un ton doux, poli et agréable, avec une hauteur de voix et une énergie vocale moins élevéesExpresses a mild, polite, and pleasant tone, with lower pitch and vocal energy
zh-CN-XiaomoNeural style="cheerful" Exprime un ton optimiste et enthousiaste, avec une plus grande hauteur de voix et énergie vocale.Expresses an upbeat and enthusiastic tone, with higher pitch and vocal energy
style="angry" Exprime un ton fâché et énervé, avec une hauteur de voix plus basse, une intensité plus grande et une énergie vocale plus élevée.Expresses an angry and annoyed tone, with lower pitch, higher intensity, and higher vocal energy. L’orateur est en colère, mécontent et offensé.The speaker is in a state of being irate, displeased, and offended.
style="fearful" Exprime un ton effrayé et nerveux, avec une plus grande hauteur de voix, une plus grande énergie vocale et un débit plus rapide.Expresses a scared and nervous tone, with higher pitch, higher vocal energy, and faster rate. L’orateur est dans un état de tension et de malaise.The speaker is in a state of tenseness and uneasiness.
style="disgruntled" Exprime un ton dédaigneux et plaintif.Expresses a disdainful and complaining tone. L’expression de cette émotion témoigne du mécontentement et du mépris.Speech of this emotion displays displeasure and contempt.
style="serious" Exprime un ton strict et autoritaire.Expresses a strict and commanding tone. L’orateur a souvent l’air sévère et peu détendu et sa cadence reste ferme.Speaker often sounds stiffer and much less relaxed with firm cadence.
style="depressed" Exprime un ton mélancolique et découragé avec une hauteur de voix plus basse et moins d’énergieExpresses a melancholic and despondent tone with lower pitch and energy
style="gentle" Exprime un ton doux, poli et agréable, avec une hauteur de voix et une énergie vocale moins élevéesExpresses a mild, polite, and pleasant tone, with lower pitch and vocal energy
zh-CN-XiaoxuanNeural style="cheerful" Exprime un ton optimiste et enthousiaste, avec une plus grande hauteur de voix et énergie vocale.Expresses an upbeat and enthusiastic tone, with higher pitch and vocal energy
style="angry" Exprime un ton fâché et énervé, avec une hauteur de voix plus basse, une intensité plus grande et une énergie vocale plus élevée.Expresses an angry and annoyed tone, with lower pitch, higher intensity, and higher vocal energy. L’orateur est en colère, mécontent et offensé.The speaker is in a state of being irate, displeased, and offended.
style="fearful" Exprime un ton effrayé et nerveux, avec une plus grande hauteur de voix, une plus grande énergie vocale et un débit plus rapide.Expresses a scared and nervous tone, with higher pitch, higher vocal energy, and faster rate. L’orateur est dans un état de tension et de malaise.The speaker is in a state of tenseness and uneasiness.
style="disgruntled" Exprime un ton dédaigneux et plaintif.Expresses a disdainful and complaining tone. L’expression de cette émotion témoigne du mécontentement et du mépris.Speech of this emotion displays displeasure and contempt.
style="serious" Exprime un ton strict et autoritaire.Expresses a strict and commanding tone. L’orateur a souvent l’air sévère et peu détendu et sa cadence reste ferme.Speaker often sounds stiffer and much less relaxed with firm cadence.
style="depressed" Exprime un ton mélancolique et découragé avec une hauteur de voix plus basse et moins d’énergieExpresses a melancholic and despondent tone with lower pitch and energy
style="gentle" Exprime un ton doux, poli et agréable, avec une hauteur de voix et une énergie vocale moins élevéesExpresses a mild, polite, and pleasant tone, with lower pitch and vocal energy
zh-CN-XiaoruiNeural style="sad" Exprime un ton triste, avec une plus grande hauteur de voix, une intensité moindre et une énergie vocale plus faible.Expresses a sorrowful tone, with higher pitch, less intensity, and lower vocal energy. Les gémissements ou les pleurs pendant l’élocution indiquent généralement cette émotion.Common indicators of this emotion would be whimpers or crying during speech.
style="angry" Exprime un ton fâché et énervé, avec une hauteur de voix plus basse, une intensité plus grande et une énergie vocale plus élevée.Expresses an angry and annoyed tone, with lower pitch, higher intensity, and higher vocal energy. L’orateur est en colère, mécontent et offensé.The speaker is in a state of being irate, displeased, and offended.
style="fearful" Exprime un ton effrayé et nerveux, avec une plus grande hauteur de voix, une plus grande énergie vocale et un débit plus rapide.Expresses a scared and nervous tone, with higher pitch, higher vocal energy, and faster rate. L’orateur est dans un état de tension et de malaise.The speaker is in a state of tenseness and uneasiness.

Utilisez ce tableau pour vérifier les rôles pris en charge et leurs définitions.Use this table to check the supported roles and their definitions.

RoleRole DescriptionDescription
role="Girl" La voix imite celle d’une petite fille.The voice imitates to a girl.
role="Boy" La voix imite celle d’un petit garçon.The voice imitates to a boy.
role="YoungAdultFemale" La voix imite celle d’une jeune femme adulte.The voice imitates to a young adult female.
role="YoungAdultMale" La voix imite celle d’un jeune homme adulte.The voice imitates to a young adult male.
role="OlderAdultFemale" La voix imite celle d’une femme adulte plus âgée.The voice imitates to an older adult female.
role="OlderAdultMale" La voix imite celle d’un homme adulte plus âgé.The voice imitates to an older adult male.
role="SeniorFemale" La voix imite celle d’une femme d’âge mûr.The voice imitates to a senior female.
role="SeniorMale" La voix imite celle d’un homme d’âge mûr.The voice imitates to a senior male.

ExempleExample

Cet extrait de code SSML illustre la manière dont l’élément <mstts:express-as> est utilisé pour modifier le style oral en cheerful.This SSML snippet illustrates how the <mstts:express-as> element is used to change the speaking style to cheerful.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AriaNeural">
        <mstts:express-as style="cheerful">
            That'd be just amazing!
        </mstts:express-as>
    </voice>
</speak>

Cet extrait de code SSML illustre la manière dont l’attribut styledegree est utilisé pour modifier l’intensité du style d’élocution pour XiaoxiaoNeural.This SSML snippet illustrates how the styledegree attribute is used to change the intensity of speaking style for XiaoxiaoNeural.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaoxiaoNeural">
        <mstts:express-as style="sad" styledegree="2">
            快走吧,路上一定要注意安全,早去早回。
        </mstts:express-as>
    </voice>
</speak>

Cet extrait de code SSML illustre la manière dont l’attribut role est utilisé pour changer le jeu de rôle pour XiaomoNeural.This SSML snippet illustrates how the role attribute is used to change the role-play for XiaomoNeural.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        女儿看见父亲走了进来,问道:
        <mstts:express-as role="YoungAdultFemale" style="calm">
            “您来的挺快的,怎么过来的?”
        </mstts:express-as>
        父亲放下手提包,说:
        <mstts:express-as role="OlderAdultMale" style="calm">
            “刚打车过来的,路上还挺顺畅。”
        </mstts:express-as>
    </voice>
</speak>

Ajouter ou supprimer une interruption/pauseAdd or remove a break/pause

Utilisez l’élément break pour insérer des pauses (ou des interruptions) entre des mots ou empêcher l’ajout automatique de pauses par le service de synthèse vocale.Use the break element to insert pauses (or breaks) between words, or prevent pauses automatically added by the text-to-speech service.

Notes

Utilisez cet élément pour remplacer le comportement par défaut de la synthèse vocale (TTS) d’un mot ou d’une phrase dont le rendu en parole synthétisée ne semble pas naturel.Use this element to override the default behavior of text-to-speech (TTS) for a word or phrase if the synthesized speech for that word or phrase sounds unnatural. Définissez strength sur none pour empêcher le service de synthèse vocale d’insérer automatiquement une interruption prosodique.Set strength to none to prevent a prosodic break, which is automatically inserted by the text-to-speech service.

SyntaxeSyntax

<break strength="string" />
<break time="string" />

AttributsAttributes

AttributAttribute DescriptionDescription Obligatoire/facultatifRequired / Optional
strength Spécifie la durée relative d’une pause à l’aide de l’une des valeurs suivantes :Specifies the relative duration of a pause using one of the following values:
  • Aucunnone
  • x-weakx-weak
  • weakweak
  • medium (par défaut)medium (default)
  • strongstrong
  • x-strongx-strong
FacultatifOptional
time Spécifie la durée absolue d’une pause en secondes ou en millisecondes. Cette valeur doit être inférieure à 5 000 ms.Specifies the absolute duration of a pause in seconds or milliseconds,this value should be set less than 5000ms. Exemples de valeurs valides : 2s et 500msExamples of valid values are 2s and 500ms FacultatifOptional
PuissanceStrength DescriptionDescription
Aucune, ou si aucune valeur fournieNone, or if no value provided 0 ms0 ms
x-weakx-weak 250 ms250 ms
weakweak 500 ms500 ms
moyennemedium 750 ms750 ms
strongstrong 1000 ms1000 ms
x-strongx-strong 1250 ms1250 ms

ExempleExample

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AriaNeural">
        Welcome to Microsoft Cognitive Services <break time="100ms" /> Text-to-Speech API.
    </voice>
</speak>

Ajouter un silenceAdd silence

Utilisez l’élément mstts:silence pour insérer des pauses avant ou après le texte, ou entre 2 phrases adjacentes.Use the mstts:silence element to insert pauses before or after text, or between the 2 adjacent sentences.

Notes

La différence entre mstts:silence et break est que break peut être ajouté à n’importe quel endroit dans le texte, alors qu’un silence fonctionne uniquement au début ou à la fin du texte d’entrée, ou encore entre 2 phrases adjacentes.The difference between mstts:silence and break is that break can be added to any place in the text, but silence only works at the beginning or end of input text, or at the boundary of 2 adjacent sentences.

SyntaxeSyntax

<mstts:silence  type="string"  value="string"/>

AttributsAttributes

AttributAttribute DescriptionDescription Obligatoire/facultatifRequired / Optional
type Spécifie l’emplacement auquel ajouter le silence :Specifies the location of silence be added:
  • Leading : au début du texteLeading – at the beginning of text
  • Tailing : à la fin du texteTailing – in the end of text
  • Sentenceboundary : entre phrases adjacentesSentenceboundary – between adjacent sentences
ObligatoireRequired
Value Spécifie la durée absolue d’une pause en secondes ou en millisecondes. Cette valeur doit être inférieure à 5 000 ms.Specifies the absolute duration of a pause in seconds or milliseconds,this value should be set less than 5000ms. Exemples de valeurs valides : 2s et 500msExamples of valid values are 2s and 500ms ObligatoireRequired

Exemple : Dans cet exemple, mtts:silence est utilisé pour ajouter 200 ms de silence entre deux phrases.Example In this example, mtts:silence is used to add 200 ms of silence between two sentences.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AriaNeural">
<mstts:silence  type="Sentenceboundary" value="200ms"/>
If we’re home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>

Spécifier des paragraphes et des phrasesSpecify paragraphs and sentences

Les éléments p et s sont utilisés pour désigner respectivement des paragraphes et des phrases.p and s elements are used to denote paragraphs and sentences, respectively. En l’absence de ces éléments, le service de synthèse vocale détermine automatiquement la structure du document SSML.In the absence of these elements, the text-to-speech service automatically determines the structure of the SSML document.

L’élément p peut contenir du texte et les éléments suivants : audio, break, phoneme, prosody, say-as, sub, mstts:express-as et s.The p element may contain text and the following elements: audio, break, phoneme, prosody, say-as, sub, mstts:express-as, and s.

L’élément s peut contenir du texte et les éléments suivants : audio, break, phoneme, prosody, say-as, mstts:express-as et sub.The s element may contain text and the following elements: audio, break, phoneme, prosody, say-as, mstts:express-as, and sub.

SyntaxeSyntax

<p></p>
<s></s>

ExempleExample

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        <p>
            <s>Introducing the sentence element.</s>
            <s>Used to mark individual sentences.</s>
        </p>
        <p>
            Another simple paragraph.
            Sentence structure in this paragraph is not explicitly marked.
        </p>
    </voice>
</speak>

Utiliser des phonèmes pour améliorer la prononciationUse phonemes to improve pronunciation

L’élément ph est utilisé pour la prononciation phonétique dans des documents SSML.The ph element is used to for phonetic pronunciation in SSML documents. L’élément ph ne peut rien contenir d’autre que du texte.The ph element can only contain text, no other elements. Fournissez toujours un discours contrôlable de visu comme solution de secours.Always provide human-readable speech as a fallback.

Les alphabets phonétiques sont constitués de phonèmes composés de lettres, de chiffres ou de caractères parfois combinés.Phonetic alphabets are composed of phones, which are made up of letters, numbers, or characters, sometimes in combination. Chaque phonème décrit un son vocal unique.Each phone describes a unique sound of speech. Cela contraste avec l’alphabet latin où chaque lettre peut représenter plusieurs sons parlés.This is in contrast to the Latin alphabet, where any letter may represent multiple spoken sounds. Considérez les différentes prononciations de la lettre « c » dans les mots « casser » et « cesser », ou les différentes prononciations de la combinaison de lettres « ch » dans les mots « chose » et « almanach ».Consider the different pronunciations of the letter "c" in the words "candy" and "cease", or the different pronunciations of the letter combination "th" in the words "thing" and "those".

Notes

Actuellement, les étiquettes de phonèmes ne sont pas prises en charge pour ces 5 voix (et-EE-AnuNeural, ga-IE-OrlaNeural, lt-LT-OnaNeural, lv-LV-EveritaNeural et mt-MT-GarceNeural).Phonemes tag is not supported for these 5 voices (et-EE-AnuNeural, ga-IE-OrlaNeural, lt-LT-OnaNeural, lv-LV-EveritaNeural and mt-MT-GarceNeural) at the moment.

SyntaxeSyntax

<phoneme alphabet="string" ph="string"></phoneme>

AttributsAttributes

AttributAttribute DescriptionDescription Obligatoire/facultatifRequired / Optional
alphabet Spécifie l’alphabet phonétique à utiliser lors de la synthèse de la prononciation de la chaîne dans l’attribut ph.Specifies the phonetic alphabet to use when synthesizing the pronunciation of the string in the ph attribute. La chaîne spécifiant l’alphabet doit être en lettres minuscules.The string specifying the alphabet must be specified in lowercase letters. Les alphabets que vous pouvez spécifier sont les suivants.The following are the possible alphabets that you may specify.
L’alphabet s’applique uniquement au phoneme dans l’élément.The alphabet applies only to the phoneme in the element..
FacultatifOptional
ph Chaîne contenant des phonèmes spécifiant la prononciation du mot figurant dans l’élément phoneme.A string containing phones that specify the pronunciation of the word in the phoneme element. Si la chaîne spécifiée contient des phonèmes non reconnus, le service de synthèse vocale rejette la totalité du document SSML et ne produit aucune des sorties vocales spécifiées dans le document.If the specified string contains unrecognized phones, the text-to-speech (TTS) service rejects the entire SSML document and produces none of the speech output specified in the document. Requis en cas d’utilisation de phonèmes.Required if using phonemes.

ExemplesExamples

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        <phoneme alphabet="ipa" ph="t&#x259;mei&#x325;&#x27E;ou&#x325;"> tomato </phoneme>
    </voice>
</speak>
<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        <phoneme alphabet="sapi" ph="iy eh n y uw eh s"> en-US </phoneme>
    </voice>
</speak>
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        <s>His name is Mike <phoneme alphabet="ups" ph="JH AU"> Zhou </phoneme></s>
    </voice>
</speak>

Utiliser un lexique personnalisé pour améliorer la prononciationUse custom lexicon to improve pronunciation

Parfois, le service de synthèse vocale ne peut pas prononcer un mot de façon correcte.Sometimes the text-to-speech service cannot accurately pronounce a word. Par exemple, le nom d’une société ou un terme médical.For example, the name of a company, or a medical term. Les développeurs peuvent définir le mode de lecture des entités uniques dans SSML à l’aide des balises phoneme et sub.Developers can define how single entities are read in SSML using the phoneme and sub tags. Toutefois, si vous devez définir le mode de lecture de plusieurs entités, vous pouvez créer un lexique personnalisé à l’aide de la balise lexicon.However, if you need to define how multiple entities are read, you can create a custom lexicon using the lexicon tag.

Notes

Le lexique personnalisé prend actuellement en charge l’encodage UTF-8.Custom lexicon currently supports UTF-8 encoding.

Notes

Actuellement, le lexique personnalisé n’est pas pris en charge pour ces 5 voix (t-EE-AnuNeural, ga-IE-OrlaNeural, lt-LT-OnaNeural, lv-LV-EveritaNeural et mt-MT-GarceNeural).Custom lexicon is not supported for these 5 voices (et-EE-AnuNeural, ga-IE-OrlaNeural, lt-LT-OnaNeural, lv-LV-EveritaNeural and mt-MT-GarceNeural) at the moment.

SyntaxeSyntax

<lexicon uri="string"/>

AttributsAttributes

AttributAttribute DescriptionDescription Obligatoire/facultatifRequired / Optional
uri Adresse du document PLS externe.The address of the external PLS document. Obligatoire.Required.

UtilisationUsage

Pour définir le mode de lecture de plusieurs entités, vous pouvez créer un lexique personnalisé, qui est stocké sous forme de fichier .xml ou .pls.To define how multiple entities are read, you can create a custom lexicon, which is stored as an .xml or .pls file. Voici un exemple de fichier .xml.The following is a sample .xml file.

<?xml version="1.0" encoding="UTF-8"?>
<lexicon version="1.0"
      xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
      xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon
        http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
      alphabet="ipa" xml:lang="en-US">
  <lexeme>
    <grapheme>BTW</grapheme>
    <alias>By the way</alias>
  </lexeme>
  <lexeme>
    <grapheme> Benigni </grapheme>
    <phoneme> bɛˈniːnji</phoneme>
  </lexeme>
</lexicon>

L’élément lexicon contient au moins un élément lexeme.The lexicon element contains at least one lexeme element. Chaque élément lexeme contient au moins un élément grapheme et un ou plusieurs éléments grapheme, alias et phoneme.Each lexeme element contains at least one grapheme element and one or more grapheme, alias, and phoneme elements. L’élément grapheme contient le texte décrivant l’orthographe .The grapheme element contains text describing the orthography . Les éléments alias sont utilisés pour indiquer la prononciation d’un acronyme ou d’un terme abrégé.The alias elements are used to indicate the pronunciation of an acronym or an abbreviated term. L’élément phoneme fournit du texte décrivant la façon dont le lexeme est prononcé.The phoneme element provides text describing how the lexeme is pronounced.

Il est important de noter que vous ne pouvez pas définir directement la prononciation d’une phrase à l’aide du lexique personnalisé.It's important to note, that you cannot directly set the pronunciation of a phrase using the custom lexicon. Si vous devez définir la prononciation d’un acronyme ou d’un terme abrégé, fournissez d’abord un alias, puis associez phoneme à alias.If you need to set the pronunciation for an acronym or an abbreviated term, first provide an alias, then associate the phoneme with that alias. Par exemple :For example:

  <lexeme>
    <grapheme>Scotland MV</grapheme>
    <alias>ScotlandMV</alias>
  </lexeme>
  <lexeme>
    <grapheme>ScotlandMV</grapheme>
    <phoneme>ˈskɒtlənd.ˈmiːdiəm.weɪv</phoneme>
  </lexeme>

Vous pouvez également fournir directement l’alias attendu pour l’acronyme ou le terme abrégé.You could also directly provide your expected alias for the acronym or abbreviated term. Par exemple :For example:

  <lexeme>
    <grapheme>Scotland MV</grapheme>
    <alias>Scotland Media Wave</alias>
  </lexeme>

Important

L’élément phoneme ne peut pas contenir d’espaces pour l’utilisation de l’IPA.The phoneme element cannot contain white spaces when using IPA.

Pour plus d’informations sur le fichier de lexique personnalisé, consultez Pronunciation Lexicon Specification (PLS) Version 1.0.For more information about custom lexicon file, see Pronunciation Lexicon Specification (PLS) Version 1.0.

Ensuite, publiez votre fichier de lexique personnalisé.Next, publish your custom lexicon file. Bien qu’il n’y ait aucune restriction sur l’emplacement de ce fichier, nous vous recommandons d’utiliser le Stockage Blob Azure.While we don't have restrictions on where this file can be stored, we do recommend using Azure Blob Storage.

Une fois que vous avez publié votre lexique personnalisé, vous pouvez le référencer à partir de votre SSML.After you've published your custom lexicon, you can reference it from your SSML.

Notes

L’élément lexicon doit être dans l’élément voice.The lexicon element must be inside the voice element.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
          xmlns:mstts="http://www.w3.org/2001/mstts"
          xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        <lexicon uri="http://www.example.com/customlexicon.xml"/>
        BTW, we will be there probably at 8:00 tomorrow morning.
        Could you help leave a message to Robert Benigni for me?
    </voice>
</speak>

Lors de l’utilisation de ce lexique personnalisé, « BTW » est prononcé comme « by the way ».When using this custom lexicon, "BTW" will be read as "By the way". « Benigni » sera prononcé « bɛˈniːnji » avec l’alphabet phonétique international fourni."Benigni" will be read with the provided IPA "bɛˈniːnji".

LimitationsLimitations

  • Taille du fichier : la limite maximale de la taille du fichier de lexique personnalisé est de 100 Ko. Au-delà, la demande de synthèse échoue.File size: custom lexicon file size maximum limit is 100KB, if beyond this size, synthesis request will fail.
  • Actualisation du cache du lexique : le lexique personnalisé est mis en cache avec l’URI en tant que clé sur le service TTS lorsqu’il est chargé pour la première fois.Lexicon cache refresh: custom lexicon will be cached with URI as key on TTS Service when it's first loaded. Un lexique avec le même URI ne sera pas rechargé dans un délai de 15 minutes. Il est donc nécessaire de patienter au maximum 15 minutes avant qu’une modification du lexique personnalisé ne prenne effet.Lexicon with same URI won't be reloaded within 15 mins, so custom lexicon change needs to wait at most 15 mins to take effect.

Jeux de phonèmes du service SpeechSpeech service phonetic sets

Dans l’exemple ci-dessus, nous utilisons l’alphabet phonétique international, connu également sous le nom de jeu de phonèmes API.In the sample above, we're using the International Phonetic Alphabet, also known as the IPA phone set. Nous suggérons aux développeurs d’utiliser l’API, car il s’agit de la norme internationale.We suggest developers use the IPA, because it is the international standard. Pour certains caractères de l’alphabet phonétique international, il existe une version « précomposée » et un version « décomposée » lorsqu’ils sont représentés en Unicode.For some IPA characters, they have the 'precomposed' and 'decomposed' version when being represented with Unicode. Le lexique personnalisé ne prend en charge que les Unicode décomposés.Custom lexicon only support the decomposed unicodes.

Sachant que l’API n’est pas facile à mémoriser, le service Speech définit un jeu de phonèmes pour sept langues (en-US, fr-FR, de-DE, es-ES, ja-JP, zh-CN et zh-TW).Considering that the IPA is not easy to remember, the Speech service defines a phonetic set for seven languages (en-US, fr-FR, de-DE, es-ES, ja-JP, zh-CN, and zh-TW).

Vous pouvez utiliser sapi comme valeur pour l’attribut alphabet avec des lexiques personnalisés, comme illustré ci-dessous :You can use the sapi as the vale for the alphabet attribute with custom lexicons as demonstrated below:

<?xml version="1.0" encoding="UTF-8"?>
<lexicon version="1.0"
      xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
      xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon
        http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
      alphabet="sapi" xml:lang="en-US">
  <lexeme>
    <grapheme>BTW</grapheme>
    <alias> By the way </alias>
  </lexeme>
  <lexeme>
    <grapheme> Benigni </grapheme>
    <phoneme> b eh 1 - n iy - n y iy </phoneme>
  </lexeme>
</lexicon>

Pour plus d’informations sur l’alphabet phonétique détaillé du service Speech, reportez-vous aux jeux de phonèmes du service Speech.For more information on the detailed Speech service phonetic alphabet, see the Speech service phonetic sets.

Ajuster la prosodieAdjust prosody

L’élément prosody est utilisé pour spécifier des modifications apportées au timbre, au contour, à la tessiture, au débit, à la durée et au volume de la sortie de synthèse vocale.The prosody element is used to specify changes to pitch, contour, range, rate, duration, and volume for the text-to-speech output. L’élément prosody peut contenir du texte et les éléments suivants : audio, break, p, phoneme, prosody, say-as, sub et s.The prosody element may contain text and the following elements: audio, break, p, phoneme, prosody, say-as, sub, and s.

Étant donné que les valeurs d’attribut prosodique peuvent varier sur une vaste plage, le module de reconnaissance vocale interprète les valeurs affectées comme une suggestion de ce que les valeurs prosodiques réelles de la voix sélectionnée devraient être.Because prosodic attribute values can vary over a wide range, the speech recognizer interprets the assigned values as a suggestion of what the actual prosodic values of the selected voice should be. Le service de synthèse vocale limite ou remplace les valeurs non prises en charge.The text-to-speech service limits or substitutes values that are not supported. Des valeurs non prises en charge sont, par exemple, une tonalité de 1 MHz ou un volume de 120.Examples of unsupported values are a pitch of 1 MHz or a volume of 120.

SyntaxeSyntax

<prosody pitch="value" contour="value" range="value" rate="value" duration="value" volume="value"></prosody>

AttributsAttributes

AttributAttribute DescriptionDescription Obligatoire/facultatifRequired / Optional
pitch Indique la tonalité de base pour le texte.Indicates the baseline pitch for the text. Vous pouvez spécifier la tonalité comme suit :You may express the pitch as:
  • Valeur absolue, exprimée sous la forme d’un nombre suivi de « Hz » (Hertz).An absolute value, expressed as a number followed by "Hz" (Hertz). Par exemple : <prosody pitch="600Hz">some text</prosody>.For example, <prosody pitch="600Hz">some text</prosody>.
  • Valeur relative, exprimée sous la forme d’un nombre précédé du signe « + » ou « - » et suivi de « Hz » ou « st », qui spécifie l’importance d’un changement de tonalité.A relative value, expressed as a number preceded by "+" or "-" and followed by "Hz" or "st", that specifies an amount to change the pitch. Par exemple, <prosody pitch="+80Hz">some text</prosody> ou <prosody pitch="-2st">some text</prosody>.For example: <prosody pitch="+80Hz">some text</prosody> or <prosody pitch="-2st">some text</prosody>. « st » indique que l’unité de changement est le demi-ton, c’est-à-dire la moitié d’un ton sur l’échelle diatonique standard.The "st" indicates the change unit is semitone, which is half of a tone (a half step) on the standard diatonic scale.
  • Valeur constante :A constant value:
    • x-lowx-low
    • lowlow
    • moyennemedium
    • highhigh
    • x-highx-high
    • defaultdefault
FacultatifOptional
contour Le contour prend désormais en charge les voix neurales et standard.Contour now supports both neural and standard voices. Le contour représente les changements de tonalité.Contour represents changes in pitch. Ces changements sont représentés sous la forme d’un tableau de cibles aux positions temporelles spécifiées dans la sortie vocale.These changes are represented as an array of targets at specified time positions in the speech output. Chaque cible est définie par des ensembles de paires de paramètres.Each target is defined by sets of parameter pairs. Par exemple :For example:

<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">

La première valeur dans chaque paire de paramètres spécifie l’emplacement du changement de tonalité sous la forme d’un pourcentage de la durée du texte.The first value in each set of parameters specifies the location of the pitch change as a percentage of the duration of the text. La deuxième valeur spécifie la quantité de hausse ou de baisse de la tonalité, à l’aide d’une valeur relative ou une valeur d’énumération pour la tonalité (voir pitch).The second value specifies the amount to raise or lower the pitch, using a relative value or an enumeration value for pitch (see pitch).
FacultatifOptional
range Valeur représentant la plage de tonalités pour le texte.A value that represents the range of pitch for the text. Vous pouvez exprimer range à l’aide des mêmes valeurs absolues, relatives ou d’énumération que celles utilisées pour décrire pitch.You may express range using the same absolute values, relative values, or enumeration values used to describe pitch. FacultatifOptional
rate Indique la cadence d’énonciation du texte.Indicates the speaking rate of the text. Vous pouvez exprimer rate comme suit :You may express rate as:
  • Valeur relative exprimée sous forme de nombre agissant comme multiplicateur de la valeur par défaut.A relative value, expressed as a number that acts as a multiplier of the default. Par exemple, la valeur 1 n’entraîne aucun changement de cadence.For example, a value of 1 results in no change in the rate. La valeur 0.5 entraîne une réduction de moitié de la cadence.A value of 0.5 results in a halving of the rate. La valeur 3 entraîne un triplement de la cadence.A value of 3 results in a tripling of the rate.
  • Valeur constante :A constant value:
    • x-slowx-slow
    • slowslow
    • moyennemedium
    • fastfast
    • x-fastx-fast
    • defaultdefault
FacultatifOptional
duration Période de temps qui doit s’écouler pendant que le service de synthèse vocale (TTS) lit le texte, exprimée en secondes ou millisecondes.The period of time that should elapse while the speech synthesis (TTS) service reads the text, in seconds or milliseconds. Par exemple, 2 s ou 1800 ms.For example, 2s or 1800ms. La durée prend uniquement en charge les voix standard.Duration supports standard voices only. FacultatifOptional
volume Indique le niveau de volume de la voix.Indicates the volume level of the speaking voice. Vous pouvez exprimer le volume comme suit :You may express the volume as:
  • Valeur absolue, exprimée sous la forme d’un nombre dans la plage de 0,0 à 100,0, du plus bas au plus fort.An absolute value, expressed as a number in the range of 0.0 to 100.0, from quietest to loudest. Par exemple, 75.For example, 75. La valeur par défaut est 100,0.The default is 100.0.
  • Valeur relative, exprimée sous la forme d’un nombre précédé du signe « + » ou « - » spécifie une quantité de changement de volume.A relative value, expressed as a number preceded by "+" or "-" that specifies an amount to change the volume. Par exemple, +10 ou -5.5.For example, +10 or -5.5.
  • Valeur constante :A constant value:
    • silentsilent
    • x-softx-soft
    • softsoft
    • moyennemedium
    • loudloud
    • x-loudx-loud
    • defaultdefault
FacultatifOptional

Modifier le débitChange speaking rate

La cadence d’élocution peut s’appliquer aux voix neurales et standard au niveau de la phrase ou du mot.Speaking rate can be applied to Neural voices and standard voices at the word or sentence-level.

ExempleExample

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-GuyNeural">
        <prosody rate="+30.00%">
            Welcome to Microsoft Cognitive Services Text-to-Speech API.
        </prosody>
    </voice>
</speak>

Modifier le volumeChange volume

Les modifications de volume peuvent s’appliquer aux voix standard au niveau de la phrase ou du mot.Volume changes can be applied to standard voices at the word or sentence-level. Cependant, les modifications de volume ne s’appliquent aux voix neuronales qu’au niveau de la phrase.Whereas volume changes can only be applied to neural voices at the sentence level.

ExempleExample

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        <prosody volume="+20.00%">
            Welcome to Microsoft Cognitive Services Text-to-Speech API.
        </prosody>
    </voice>
</speak>

Modifier la tonalitéChange pitch

Les modifications de ton peuvent s’appliquer aux voix standard au niveau de la phrase ou du mot.Pitch changes can be applied to standard voices at the word or sentence-level. Cependant, les modifications de ton ne s’appliquent aux voix neuronales qu’au niveau de la phrase.Whereas pitch changes can only be applied to neural voices at the sentence level.

ExempleExample

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-Guy24kRUS">
        Welcome to <prosody pitch="high">Microsoft Cognitive Services Text-to-Speech API.</prosody>
    </voice>
</speak>

Modifier le contour intonatifChange pitch contour

Important

Les changements de contour de ton sont désormais pris en charge avec les voix neurales.Pitch contour changes are now supported with neural voices.

ExempleExample

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AriaNeural">
        <prosody contour="(60%,-60%) (100%,+80%)" >
            Were you the only person in the room?
        </prosody>
    </voice>
</speak>

élément say-assay-as element

say-as est un élément facultatif qui indique le type de contenu (nombre ou date, par exemple) du texte de l’élément.say-as is an optional element that indicates the content type (such as number or date) of the element's text. Il fournit des conseils au moteur de synthèse vocale sur la manière de prononcer le texte.This provides guidance to the speech synthesis engine about how to pronounce the text.

SyntaxeSyntax

<say-as interpret-as="string" format="digit string" detail="string"> <say-as>

AttributsAttributes

AttributAttribute DescriptionDescription Obligatoire/facultatifRequired / Optional
interpret-as Indique le type de contenu du texte de l’élément.Indicates the content type of element's text. Pour obtenir la liste des types, consultez le tableau ci-dessous.For a list of types, see the table below. ObligatoireRequired
format Fournit des informations supplémentaires sur la mise en forme précise du texte de l’élément pour les types de contenu susceptibles de présenter des formats ambigus.Provides additional information about the precise formatting of the element's text for content types that may have ambiguous formats. SSML définit les formats des types de contenu qui les utilisent (voir le tableau ci-dessous).SSML defines formats for content types that use them (see table below). FacultatifOptional
detail Indique le niveau de détail à prononcer.Indicates the level of detail to be spoken. Par exemple, cet attribut peut demander à ce que le moteur de synthèse vocale prononce les signes de ponctuation.For example, this attribute might request that the speech synthesis engine pronounce punctuation marks. Aucune valeur standard n’est définie pour detail.There are no standard values defined for detail. FacultatifOptional

Les types de contenu suivants sont pris en charge pour les attributs interpret-as et format.The following are the supported content types for the interpret-as and format attributes. Incluez l’attribut format uniquement si interpret-as est défini sur date et heure.Include the format attribute only if interpret-as is set to date and time.

interpret-asinterpret-as formatformat InterprétationInterpretation
address Le texte est prononcé sous forme d'adresse.The text is spoken as an address. Le moteur de synthèse vocale prononce :The speech synthesis engine pronounces:

I'm at <say-as interpret-as="address">150th CT NE, Redmond, WA</say-as>

Par exemple, « Je suis au 150e court nord est redmond washington. »As "I'm at 150th court north east redmond washington."
cardinal, numbercardinal, number Le texte est prononcé sous forme de nombre cardinal.The text is spoken as a cardinal number. Le moteur de synthèse vocale prononce :The speech synthesis engine pronounces:

There are <say-as interpret-as="cardinal">3</say-as> alternatives

Par exemple, « Il existe trois alternatives ».As "There are three alternatives."
characters, spell-outcharacters, spell-out Le texte est prononcé sous forme de lettres individuelles (épelées).The text is spoken as individual letters (spelled out). Le moteur de synthèse vocale prononce :The speech synthesis engine pronounces:

<say-as interpret-as="characters">test</say-as>

Par exemple, « T E S T ».As "T E S T."
date dmy, mdy, ymd, ydm, ym, my, md, dm, d, m, ydmy, mdy, ymd, ydm, ym, my, md, dm, d, m, y Le texte est prononcé sous forme de date.The text is spoken as a date. L’attribut format spécifie le format de la date (j=day (jour), m=month (mois) et y=year (année) ).The format attribute specifies the date's format (d=day, m=month, and y=year). Le moteur de synthèse vocale prononce :The speech synthesis engine pronounces:

Today is <say-as interpret-as="date" format="mdy">10-19-2016</say-as>

Par exemple, « Nous sommes le 19 octobre 2016 ».As "Today is October nineteenth two thousand sixteen."
digits, number_digitdigits, number_digit Le texte est prononcé sous forme de séquence de chiffres individuels.The text is spoken as a sequence of individual digits. Le moteur de synthèse vocale prononce :The speech synthesis engine pronounces:

<say-as interpret-as="number_digit">123456789</say-as>

Par exemple, « 1 2 3 4 5 6 7 8 9 ».As "1 2 3 4 5 6 7 8 9."
fraction Le texte est prononcé sous forme de nombre fractionnaire.The text is spoken as a fractional number. Le moteur de synthèse vocale prononce :The speech synthesis engine pronounces:

<say-as interpret-as="fraction">3/8</say-as> of an inch

Par exemple, « Trois huitièmes de pouce ».As "three eighths of an inch."
ordinal Le texte est prononcé sous forme de nombre ordinal.The text is spoken as an ordinal number. Le moteur de synthèse vocale prononce :The speech synthesis engine pronounces:

Select the <say-as interpret-as="ordinal">3rd</say-as> option

Par exemple, « Sélectionnez la troisième option ».As "Select the third option".
telephone Le texte est prononcé sous forme de numéro de téléphone.The text is spoken as a telephone number. L’attribut format peut contenir des chiffres correspondant à l’indicatif d’un pays.The format attribute may contain digits that represent a country code. Par exemple, « 1 » pour les États-Unis ou « 39 » pour l’Italie.For example, "1" for the United States or "39" for Italy. Le moteur de synthèse vocale peut utiliser ces informations pour guider la prononciation d’un numéro de téléphone.The speech synthesis engine may use this information to guide its pronunciation of a phone number. Le numéro de téléphone peut également inclure l’indicatif du pays qui, le cas échéant, est prioritaire sur l’indicatif du pays dans format.The phone number may also include the country code, and if so, takes precedence over the country code in the format. Le moteur de synthèse vocale prononce :The speech synthesis engine pronounces:

The number is <say-as interpret-as="telephone" format="1">(888) 555-1212</say-as>

Par exemple, « Mon numéro avec indicatif régional est huit huit huit cinq cinq cinq un deux un deux ».As "My number is area code eight eight eight five five five one two one two."
time hms12, hms24hms12, hms24 Le texte est prononcé sous forme d'heure.The text is spoken as a time. L’attribut format indique si l’heure correspond à l'horloge de 12 heures (hms12) ou 24 heures (hms24).The format attribute specifies whether the time is specified using a 12-hour clock (hms12) or a 24-hour clock (hms24). Utilisez deux points pour séparer les nombres représentant les heures, les minutes et les secondes.Use a colon to separate numbers representing hours, minutes, and seconds. Voici quelques exemples d'heure valides : 12:35, 1:14:32, 08:15 et 02:50:45.The following are valid time examples: 12:35, 1:14:32, 08:15, and 02:50:45. Le moteur de synthèse vocale prononce :The speech synthesis engine pronounces:

The train departs at <say-as interpret-as="time" format="hms12">4:00am</say-as>

Par exemple, « Le train part à 4 heures ».As "The train departs at four A M."

UtilisationUsage

L’élément say-as peut uniquement contenir du texte.The say-as element may contain only text.

ExempleExample

Le moteur de synthèse vocale prononce l’exemple ci-dessous comme suit : « Votre première requête portait sur une chambre le dix-neuf octobre deux mille dix, avec une arrivée à douze heure trente-cinq. »The speech synthesis engine speaks the following example as "Your first request was for one room on October nineteenth twenty ten with early arrival at twelve thirty five PM."

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        <p>
        Your <say-as interpret-as="ordinal"> 1st </say-as> request was for <say-as interpret-as="cardinal"> 1 </say-as> room
        on <say-as interpret-as="date" format="mdy"> 10/19/2010 </say-as>, with early arrival at <say-as interpret-as="time" format="hms12"> 12:35pm </say-as>.
        </p>
    </voice>
</speak>

Ajouter un audio enregistréAdd recorded audio

audio est un élément facultatif qui vous permet d’insérer un audio MP3 dans un document SSML.audio is an optional element that allows you to insert MP3 audio into an SSML document. Le corps de l’élément audio peut contenir du texte brut ou un balisage SSML qui est prononcé si le fichier audio n’est pas disponible ou ne peut pas être lu.The body of the audio element may contain plain text or SSML markup that's spoken if the audio file is unavailable or unplayable. De plus, l’élément audio peut contenir du texte et les éléments suivants : audio, break, p, s, phoneme, prosody, say-as et sub.Additionally, the audio element can contain text and the following elements: audio, break, p, s, phoneme, prosody, say-as, and sub.

Tout audio inclus dans le document SSML doit respecter les exigences suivantes :Any audio included in the SSML document must meet these requirements:

  • Le MP3 doit être hébergé sur un point de terminaison HTTPS accessible via Internet.The MP3 must be hosted on an Internet-accessible HTTPS endpoint. HTTPS est requis et le domaine qui héberge le fichier MP3 doit présenter un certificat TLS/SSL approuvé valide.HTTPS is required, and the domain hosting the MP3 file must present a valid, trusted TLS/SSL certificate.
  • Le MP3 doit être un fichier MP3 valide (MPEG v2).The MP3 must be a valid MP3 file (MPEG v2).
  • La vitesse de transmission doit être de 48 Kbits/s.The bit rate must be 48 kbps.
  • L’échantillonnage doit être de 16 000 Hz.The sample rate must be 16,000 Hz.
  • La durée totale cumulée de tous les fichiers texte et audio dans une réponse unique ne peut pas dépasser 90 secondes.The combined total time for all text and audio files in a single response cannot exceed ninety (90) seconds.
  • Le MP3 ne doit pas contenir d’informations propres à un client ou d’autres informations sensibles.The MP3 must not contain any customer-specific or other sensitive information.

SyntaxeSyntax

<audio src="string"/></audio>

AttributsAttributes

AttributAttribute DescriptionDescription Obligatoire/facultatifRequired / Optional
src Spécifie l’emplacement/URL du fichier audio.Specifies the location/URL of the audio file. Obligatoire en cas d’utilisation de l’élément audio dans votre document SSML.Required if using the audio element in your SSML document.

ExempleExample

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-JennyNeural">
        <p>
            <audio src="https://contoso.com/opinionprompt.wav"/>
            Thanks for offering your opinion. Please begin speaking after the beep.
            <audio src="https://contoso.com/beep.wav">
                Could not play the beep, please voice your opinion now.
            </audio>
        </p>
    </voice>
</speak>

Ajouter un arrière-plan audioAdd background audio

L’élément mstts:backgroundaudio vous permet d’ajouter de l’audio en arrière-plan à vos documents SSML (ou de combiner un fichier audio avec la synthèse vocale).The mstts:backgroundaudio element allows you to add background audio to your SSML documents (or mix an audio file with text-to-speech). Avec mstts:backgroundaudio, vous pouvez exécuter en boucle un fichier audio en arrière-plan, l’estomper au début de la synthèse vocale et l’estomper à la fin de la synthèse vocale.With mstts:backgroundaudio you can loop an audio file in the background, fade in at the beginning of text-to-speech, and fade out at the end of text-to-speech.

Si l’audio en arrière-plan fourni est plus court que la synthèse vocale ou la diminution du son, il est répété en boucle.If the background audio provided is shorter than the text-to-speech or the fade out, it will loop. S’il est plus long que la synthèse vocale, il s’arrête lorsque la diminution du son est terminée.If it is longer than the text-to-speech, it will stop when the fade out has finished.

Un seul fichier audio en arrière-plan est autorisé par document SSML.Only one background audio file is allowed per SSML document. Toutefois, vous pouvez intercaler des balises audio dans l’élément voice pour ajouter de l’audio supplémentaire à votre document SSML.However, you can intersperse audio tags within the voice element to add additional audio to your SSML document.

SyntaxeSyntax

<mstts:backgroundaudio src="string" volume="string" fadein="string" fadeout="string"/>

AttributsAttributes

AttributAttribute DescriptionDescription Obligatoire/facultatifRequired / Optional
src Spécifie l’emplacement/URL du fichier audio en arrière-plan.Specifies the location/URL of the background audio file. Obligatoire en cas d’utilisation de l’audio en arrière-plan dans votre document SSML.Required if using background audio in your SSML document.
volume Spécifie le volume du fichier audio en arrière-plan.Specifies the volume of the background audio file. Les valeurs acceptées vont de 0 à 100 inclus.Accepted values: 0 to 100 inclusive. La valeur par défaut est 1.The default value is 1. FacultatifOptional
fadein Spécifie la durée de l’apparition en fondu de l’audio d’arrière-plan, en millisecondes.Specifies the duration of the background audio "fade in" as milliseconds. La valeur par défaut est 0, ce qui équivaut à aucune apparition en fondu audio.The default value is 0, which is the equivalent to no fade in. Les valeurs acceptées vont de 0 à 10000 inclus.Accepted values: 0 to 10000 inclusive. FacultatifOptional
fadeout Spécifie la durée de la disparition en fondu de l’audio d’arrière-plan, en millisecondes.Specifies the duration of the background audio fade out in milliseconds. La valeur par défaut est 0, ce qui équivaut à aucune disparition en fondu audio. Les valeurs acceptées vont de 0 à 10000 inclus.The default value is 0, which is the equivalent to no fade out. Accepted values: 0 to 10000 inclusive. FacultatifOptional

ExempleExample

<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
    <mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
    <voice name="Microsoft Server Speech Text to Speech Voice (en-US, JennyNeural)">
        The text provided in this document will be spoken over the background audio.
    </voice>
</speak>

Élément bookmarkBookmark element

L’élément bookmark vous permet d’insérer des marqueurs personnalisés dans SSML pour récupérer le décalage de chaque marqueur dans le flux audio.The bookmark element allows you to insert custom markers in SSML to get the offset of each marker in the audio stream. Nous n’allons pas lire les éléments bookmark.We will not read out the bookmark elements. L’élément bookmark peut être utilisé pour faire référence à un emplacement spécifique dans le texte ou la séquence de balises.The bookmark element can be used to reference a specific location in the text or tag sequence.

Notes

Actuellement, l’élément bookmark ne fonctionne que pour la voix en-US-AriaNeural.bookmark element only works for en-US-AriaNeural voice for now.

SyntaxeSyntax

<bookmark mark="string"/>

AttributsAttributes

AttributAttribute DescriptionDescription Obligatoire/facultatifRequired / Optional
mark Spécifie le texte de référence de l’élément bookmark.Specifies the reference text of the bookmark element. Obligatoire.Required.

ExempleExample

Par exemple, vous souhaiterez peut-être connaître le décalage dans le temps de chaque mot flower comme suitAs an example, you might want to know the time offset of each flower word as following

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AriaNeural">
        We are selling <bookmark mark='flower_1'/>roses and <bookmark mark='flower_2'/>daisies.
    </voice>
</speak>

Recevoir un élément bookmark à l’aide du SDK SpeechGet bookmark using Speech SDK

Vous pouvez vous abonner à l’événement BookmarkReached dans le kit de développement logiciel (SDK) Speech pour récupérer les décalages de bookmark.You can subscribe to the BookmarkReached event in Speech SDK to get the bookmark offsets.

Notes

L’événement BookmarkReached est uniquement disponible depuis la version 1.16.0 du kit de développement logiciel (SDK) Speech.BookmarkReached event is only available since Speech SDK version 1.16.0.

Les événements BookmarkReached sont déclenchés à mesure que les données audio de sortie deviennent disponibles (ce qui va plus vite que la lecture sur un appareil de sortie).BookmarkReached events are raised as the output audio data becomes available, which will be faster than playback to an output device.

  • AudioOffset signale le temps écoulé dans l’audio de sortie entre le début de la synthèse et l’élément bookmark.AudioOffset reports the output audio's elapsed time between the beginning of synthesis and the bookmark element. Cette valeur est mesurée en centaines de nanosecondes (HNS), 10 000 HNS équivalant à 1 milliseconde.This is measured in hundred-nanosecond units (HNS) with 10,000 HNS equivalent to 1 millisecond.
  • Text est le texte de référence de l’élément bookmark, qui est la chaîne que vous définissez dans l’attribut mark.Text is the reference text of the bookmark element, which is the string you set in the mark attribute.

Pour plus d’informations, consultez BookmarkReached .For more information, see BookmarkReached .

synthesizer.BookmarkReached += (s, e) =>
{
    // The unit of e.AudioOffset is tick (1 tick = 100 nanoseconds), divide by 10,000 to convert to milliseconds.
    Console.WriteLine($"Bookmark reached. Audio offset: " +
        $"{e.AudioOffset / 10000}ms, bookmark text: {e.Text}.");
};

Pour l’exemple SSML ci-dessus, l’événement BookmarkReached est déclenché deux fois, et la sortie de la console estFor the example SSML above, the BookmarkReached event will be triggered twice, and the console output will be

Bookmark reached. Audio offset: 825ms, bookmark text: flower_1.
Bookmark reached. Audio offset: 1462.5ms, bookmark text: flower_2.

Étapes suivantesNext steps