Instructions pour le déploiement responsable de la technologie des voix de synthèseGuidelines for responsible deployment of synthetic voice technology

Voici les instructions de conception générale de Microsoft pour l’utilisation de la technologie des voix de synthèse.Here are Microsoft’s general design guidelines for using synthetic voice technology. Elles ont été développées dans des études menées par Microsoft auprès de voix professionnelles, de consommateurs, ainsi que de personnes ayant des troubles de la parole pour guider le développement responsable des voix de synthèse.These were developed in studies that Microsoft conducted with voice talent, consumers, as well as individuals with speech disorders to guide the responsible development of synthetic voice.

Considérations d’ordre généralGeneral considerations

Pour le déploiement de la technologie des voix de synthèse, les instructions suivantes s’appliquent dans la plupart des scénarios.For deployment of synthetic speech technology, the following guidelines apply across most scenarios.

Révéler qu’il s’agit d’une voix de synthèseDisclose when the voice is synthetic

Le fait de révéler qu’une voix est générée par ordinateur permet de réduire les déceptions éventuelles, mais aussi d’augmenter la confiance en l’organisation qui fournit la voix.Disclosing that a voice is computer generated not only minimizes the risk of harmful outcomes from deception but also increases the trust in the organization delivering the voice. En savoir plus sur comment le révéler.Learn more about how to disclose.

Sélectionner les types de voix appropriés pour votre scénarioSelect appropriate voice types for your scenario

Examinez attentivement le contexte d’utilisation et les risques potentiels associés à l’utilisation de voix de synthèse.Carefully consider the context of use and the potential harms associated with using synthetic voice. Par exemple, des voix de synthèse très fidèles ne sont pas forcément appropriées pour les scénarios à haut risque, tels que les messages personnels, les transactions financières ou les situations complexes pour lesquels une certaine empathie ou humanité est nécessaire.For example, high-fidelity synthetic voices may not be appropriate in high-risk scenarios, such as for personal messaging, financial transactions, or complex situations that require human adaptability or empathy. Les utilisateurs peuvent également avoir des attentes différentes pour les types de voix.Users may also have different expectations for voice types. Par exemple, lorsqu’ils écoutent les dernières actualités sensibles lues par une voix de synthèse, certains utilisateurs préféreront un ton plus humain et plus empathique, tandis que d’autres aimeraient une voix plus monotone et neutre.For example, when listening to sensitive news being read by a synthetic voice, some users prefer a more empathetic and human-like reading of the news, while others preferred a more monotone, unbiased voice. Pensez à tester votre application pour mieux comprendre les préférences des utilisateurs.Consider testing your application to better understand user preferences.

Faire preuve de transparence au sujet des capacités et des limitationsBe transparent about capabilities and limitations

Les utilisateurs auront vraisemblablement des attentes plus élevées s’ils interagissent avec des agents vocaux de synthèse.Users are more likely to have higher expectations when interacting with high-fidelity synthetic voice agents. Par conséquent, lorsque les capacités du système sont en deçà de ces attentes, une baisse de confiance peut être observée et conduire à des expériences désagréables voire négatives.Consequently, when system capabilities don't meet those expectations, trust can suffer, and may result in unpleasant, or even harmful experiences.

Proposer une assistance humaine facultativeProvide optional human support

Dans certains scénarios transactionnels et ambigus (par exemple, un centre d’appel), les utilisateurs ne font pas toujours confiance à un agent virtuel pour répondre correctement à leurs demandes.In ambiguous, transactional scenarios (for example, a call support center), users don't always trust a computer agent to appropriately respond to their requests. Une assistance humaine peut être nécessaire dans ces situations, quels que soient le degré de réalisme de la voix ou les capacités du système.Human support may be necessary in these situations, regardless of the realistic quality of the voice or capability of the system.

Considérations relatives aux voix professionnellesConsiderations for voice talent

Lorsque vous travaillez avec des voix professionnelles (p. ex. des acteurs) pour créer des voix de synthèse, l’instruction suivante s’applique.When working with voice talent, such as voice actors, to create synthetic voices, the guideline below applies.

Les voix professionnelles s’attendent à avoir un contrôle sur leur police vocale (comment et où elle sera utilisée) et à être rémunérées chaque fois qu’elle est utilisée.Voice talent expect to have control over their voice font (how and where it will be used) and be compensated anytime it's used. Les propriétaires du système doivent donc obtenir une autorisation écrite explicite de la part des voix professionnelles et établir un contrat clair sur les cas d’utilisation, la durée d’utilisation, la rémunération, etc.System owners should therefore obtain explicit written permission from voice talent, and have clear contractual specifications on use cases, duration of use, compensation, and so on. Certaines voix professionnelles n’ont pas conscience des utilisations potentiellement malveillantes de la technologie ; les propriétaires du système doivent donc les informer à ce sujet.Some voice talent are unaware of the potential malicious uses of the technology and should be educated by system owners about the capabilities of the technology. Pour plus d’informations sur le talent vocal et le consentement, lisez notre Divulgation d’un talent vocal.For more on voice talent and consent, read our Disclosure for Voice Talent.

Considérations relatives aux personnes ayant des troubles de la paroleConsiderations for those with speech disorders

Lorsque vous travaillez avec des personnes ayant des troubles de la parole, pour créer ou déployer une technologie de voix de synthèse, les instructions suivantes s’appliquent.When working with individuals with speech disorders, to create or deploy synthetic voice technology, the following guidelines apply.

Fournir des instructions pour établir des contratsProvide guidelines to establish contracts

Fournir des instructions pour établir des contrats avec les personnes qui utilisent les voix de synthèse pour s’exprimer.Provide guidelines for establishing contracts with individuals who use synthetic voice for assistance in speaking. Le contrat doit indiquer les parties propriétaires de la voix, la durée d’utilisation, les critères de transfert de propriété, les procédures pour supprimer la police vocale et comment empêcher les accès non autorisés.The contract should consider specifying the parties who own the voice, duration of use, ownership transfer criteria, procedures for deleting the voice font, and how to prevent unauthorized access. En outre, permettez le transfert du contrat de propriété de la police vocale après le décès aux membres de la famille si la personne concernée en a donné l’autorisation.Additionally, enable the contractual transfer of voice font ownership after death to family members if that person has given permission.

Tenir compte des incohérences dans les modèles vocauxAccount for inconsistencies in speech patterns

Pour les personnes ayant des troubles de la parole et qui enregistrent leurs propres polices vocales, les incohérences dans leur modèle de discours (déformation ou incapacité à prononcer certains mots) peuvent compliquer le processus d’enregistrement.For individuals with speech disorders who record their own voice fonts, inconsistencies in their speech pattern (slurring or inability to pronounce certain words) may complicate the recording process. Dans ce cas, la technologie de voix de synthèse et des sessions d’enregistrement doivent les aider (autrement dit, proposer des pauses et d’autres sessions d’enregistrement).In these cases, synthetic voice technology and recording sessions should accommodate them (that is, provide breaks and additional number of recording sessions).

Pouvoir appliquer des modifications ultérieurementAllow modification over time

Les personnes ayant des troubles de la parole souhaitent modifier leur voix de synthèse pour qu’elle tienne compte de leur âge (par exemple, un enfant qui devient adolescent).Individuals with speech disorders desire to make updates to their synthetic voice to reflect aging (for example, a child reaching puberty). Les utilisateurs peuvent également avoir des préférences stylistiques évoluant au fil du temps et peuvent souhaiter modifier la tonalité, l’accent ou d’autres caractéristiques vocales.Individuals may also have stylistic preferences that change over time, and may want to make changes to pitch, accent, or other voice characteristics.

Documents de référenceReference docs

Étapes suivantesNext steps