À propos du kit SDK SpeechAbout the Speech SDK

Le kit de développement logiciel (SDK) Speech expose de nombreuses fonctionnalités du service Speech afin de vous permettre de développer des applications à reconnaissance vocale.The Speech software development kit (SDK) exposes many of the Speech service capabilities, to empower you to develop speech-enabled applications. Le kit de développement logiciel (SDK) Speech est disponible dans de nombreux langages de programmation et sur toutes les plateformes.The Speech SDK is available in many programming languages and across all platforms.

Langage de programmationProgramming language PlateformePlatform Informations de référence sur le SDKSDK reference
C# 1C# 1 Windows, Linux, macOS, Mono, Xamarin.iOS, Xamarin.Mac, Xamarin.Android, UWP, UnityWindows, Linux, macOS, Mono, Xamarin.iOS, Xamarin.Mac, Xamarin.Android, UWP, Unity Kit de développement logiciel (SDK) .NET.NET SDK
C++C++ Windows, Linux, macOSWindows, Linux, macOS Kit de développement logiciel (SDK) C++C++ SDK
Java 2Java 2 Android, Windows, Linux, macOSAndroid, Windows, Linux, macOS Kit SDK JavaJava SDK
JavaScriptJavaScript Browser, Node.jsBrowser, Node.js Kit de développement logiciel (SDK) JavaScriptJavaScript SDK
Objective-C / SwiftObjective-C / Swift iOS, macOSiOS, macOS Kit de développement logiciel (SDK) Objective-CObjective-C SDK
PythonPython Windows, Linux, macOSWindows, Linux, macOS Kit de développement logiciel (SDK) PythonPython SDK

1 le Kit de développement logiciel (SDK) Speech .NET est basé sur .NET Standard 2.0. Il prend donc en charge de nombreuses plateformes. Pour plus d’informations, consultez Prise en charge de l’implémentation .NET. .1 The .NET Speech SDK is based on .NET Standard 2.0, thus it supports many platforms. For more information, see .NET implementation support .

2 Le Kit de développement logiciel (SDK) Java est également disponible dans le cadre du Kit de développement logiciel (SDK) Speech Devices.2 The Java Speech SDK is also available as part of the Speech Devices SDK.

Fonctionnalités associées aux scénariosScenario capabilities

Le SDK Speech expose de nombreuses fonctionnalités du service Speech, mais pas toutes.The Speech SDK exposes many features from the Speech service, but not all of them. Les fonctionnalités du Speech SDK sont souvent associées à des scénarios.The capabilities of the Speech SDK are often associated with scenarios. Le SDK Speech est idéal pour les scénarios, en temps réel ou non, qui utilisent des appareils locaux, des fichiers, un espace de stockage d'objets blob Azure et même des flux d'entrée et de sortie.The Speech SDK is ideal for both real-time and non-real-time scenarios, using local devices, files, Azure blob storage, and even input and output streams. Lorsqu'un scénario n'est pas réalisable avec le SDK Speech, recherchez une alternative avec l'API REST.When a scenario is not achievable with the Speech SDK, look for a REST API alternative.

Reconnaissance vocaleSpeech-to-text

La reconnaissance vocale transcrit des flux audio en texte que vos applications, outils ou appareils peuvent utiliser ou afficher.Speech-to-text (also known as speech recognition) transcribes audio streams to text that your applications, tools, or devices can consume or display. Utilisez la reconnaissance vocale avec LUIS (Language Understanding Intelligent Service) pour déduire les intentions de l’utilisateur à partir des transcriptions et agir sur des commandes vocales.Use speech-to-text with Language Understanding (LUIS) to derive user intents from transcribed speech and act on voice commands. Utilisez la Traduction vocale pour traduire une entrée vocale dans une autre langue en un seul appel.Use Speech Translation to translate speech input to a different language with a single call. Pour plus d'informations, consultez Les bases de la reconnaissance vocale.For more information, see Speech-to-text basics.

Reconnaissance vocale (SR), Liste d’expressions, Intention, Traduction et Conteneurs locaux sont disponibles sur les plateformes suivantes :Speech-Recognition (SR), Phrase List, Intent, Translation, and On-premises containers are available on the following platforms:

  • C++/Windows & Linux & macOSC++/Windows & Linux & macOS
  • C#(Framework & .NET Core)/Windows & UWP & Unity & Xamarin & Linux & macOSC# (Framework & .NET Core)/Windows & UWP & Unity & Xamarin & Linux & macOS
  • Java (JRE et Android)Java (Jre and Android)
  • JavaScript (navigateur et NodeJS)JavaScript (Brower and NodeJS)
  • PythonPython
  • SwiftSwift
  • Objective-CObjective-C
  • Go (SR uniquement)Go (SR only)

Synthèse vocaleText-to-speech

La Synthèse vocale convertit le texte en discours synthétisé proche de celui d'un être humain.Text-to-speech (also known as speech synthesis) converts text into human-like synthesized speech. Le texte d'entrée correspond à des littéraux de chaîne ou utilise SSML (Speech Synthesis Markup Language).The input text is either string literals or using the Speech Synthesis Markup Language (SSML). Pour plus d'informations sur les voix standard ou neurales, consultez Langage de synthèse vocale et prise en charge vocale.For more information on standard or neural voices, see Text-to-speech language and voice support.

La Synthèse vocale (TTS) est disponible sur les plateformes suivantes :Text-to-speech (TTS) is available on the following platforms:

  • C++/Windows & LinuxC++/Windows & Linux
  • C#/Windows & UWP & UnityC#/Windows & UWP & Unity
  • Java (JRE et Android)Java (Jre and Android)
  • PythonPython
  • SwiftSwift
  • Objective-CObjective-C
  • L’API REST TTS peut être utilisée dans tous les autres cas.TTS REST API can be used in every other situation.

Assistants vocauxVoice assistants

Les assistants vocaux qui utilisent le SDK Speech permettent aux développeurs de créer des interfaces conversationnelles naturelles pour leurs applications et leurs expériences.Voice assistants using the Speech SDK enable developers to create natural, human-like conversational interfaces for their applications and experiences. Le service d'assistance vocale permet une interaction rapide et fiable entre un appareil et un assistant.The voice assistant service provides fast, reliable interaction between a device and an assistant. L'implémentation utilise le canal Direct Line Speech de Bot Framework ou le service intégré Commandes personnalisées pour la réalisation des tâches.The implementation uses the Bot Framework's Direct Line Speech channel or the integrated Custom Commands service for task completion. En outre, des assistants vocaux peuvent utiliser des voix personnalisées dans le Portail Custom Voice pour ajouter une expérience de sortie vocale unique.Additionally, voice assistants can use custom voices created in the Custom Voice Portal to add a unique voice output experience.

Les Assistants vocaux sont disponibles sur les plateformes suivantes :Voice assistants is available on the following platforms:

  • C++/Windows & Linux & macOSC++/Windows & Linux & macOS
  • C#/WindowsC#/Windows
  • Java/Windows & Linux & macOS & Android (SDK Speech Devices)Java/Windows & Linux & macOS & Android (Speech Devices SDK)

Identification de mot cléKeyword spotting

Le SDK Speech prend en charge le concept d'identification de mot clé.The concept of keyword spotting is supported in the Speech SDK. Il s'agit d'identifier un mot clé dans le discours, puis de déclencher l'action correspondante.Keyword spotting is the act of identifying a keyword in speech, followed by an action upon hearing the keyword. Par exemple, « Bonjour Cortana » active de l'Assistant Cortana.For example, "Hey Cortana" would activate the Cortana assistant.

L’Identification de mot clé (KWS) est disponible sur les plateformes suivantes :Keyword Spotting (KWS) is available on the following platforms:

  • C++/Windows & LinuxC++/Windows & Linux
  • C#/Windows & LinuxC#/Windows & Linux
  • Python/Windows & LinuxPython/Windows & Linux
  • Java/Windows & Linux & Android (SDK Speech Devices)Java/Windows & Linux & Android (Speech Devices SDK)
  • La fonctionnalité d’identification de mot clé (KWS) peut fonctionner avec n’importe quel type de microphone. Toutefois, sa prise en charge officielle est actuellement limitée aux réseaux de microphones présents dans le matériel Azure Kinect DK ou dans le Kit de développement logiciel (SDK) Speech DevicesKeyword spotting (KWS) functionality might work with any microphone type, official KWS support, however, is currently limited to the microphone arrays found in the Azure Kinect DK hardware or the Speech Devices SDK

Scénarios de réunionMeeting scenarios

Le SDK Speech est parfait pour transcrire des scénarios de réunion, que ce soit à partir d'un seul appareil ou d'une conversation multi-appareils.The Speech SDK is perfect for transcribing meeting scenarios, whether from a single device or multi-device conversation.

Transcription de conversationConversation Transcription

La Transcription de conversation permet la reconnaissance vocale en temps réel (et asynchrone), l'identification de l'orateur et l'attribution de phrases à chaque orateur (également appelée diarisation).Conversation Transcription enables real-time (and asynchronous) speech recognition, speaker identification, and sentence attribution to each speaker (also known as diarization). Il est parfait pour la transcription de rencontres en personne, avec possibilité de distinguer les orateurs.It's perfect for transcribing in-person meetings with the ability to distinguish speakers.

La Transcription de conversation est disponible sur les plateformes suivantes :Conversation Transcription is available on the following platforms:

  • C++/Windows & LinuxC++/Windows & Linux
  • C# (Framework & .NET Core)/Windows & UWP & LinuxC# (Framework & .NET Core)/Windows & UWP & Linux
  • Java/Windows & Linux & Android (SDK Speech Devices)Java/Windows & Linux & Android (Speech Devices SDK)

Conversation multi-appareilMulti-device Conversation

Avec la Conversation multi-appareils, connectez plusieurs appareils ou clients à une conversation pour envoyer des messages vocaux ou textuels, avec une prise en charge aisée de la transcription et de la traduction.With Multi-device Conversation, connect multiple devices or clients in a conversation to send speech-based or text-based messages, with easy support for transcription and translation.

La Conversation multi-appareils est disponible sur les plateformes suivantes :Multi-device Conversation is available on the following platforms:

  • C++/WindowsC++/Windows
  • C# (Framework & .NET Core)/WindowsC# (Framework & .NET Core)/Windows

Scénarios personnalisés / d'agentCustom / agent scenarios

Le SDK Speech peut être utilisé pour transcrire des scénarios de centre d'appels, dans lesquels des données téléphoniques sont générées.The Speech SDK can be used for transcribing call center scenarios, where telephony data is generated.

Transcription de centre d’appelCall Center Transcription

La Transcription de centre d'appels est un scénario courant de reconnaissance vocale pour la transcription de gros volumes de données téléphoniques qui peuvent provenir de différents systèmes, tels que la réponse vocale interactive (RVI).Call Center Transcription is common scenario for speech-to-text for transcribing large volumes of telephony data that may come from various systems, such as Interactive Voice Response (IVR). Les derniers modèles de reconnaissance vocale du service Speech excellent à retranscrire ces données de téléphonie, même quand celles-ci sont difficiles à comprendre pour un humain.The latest speech recognition models from the Speech service excel at transcribing this telephony data, even in cases when the data is difficult for a human to understand.

La Transcription de centre d'appels est disponible par le biais du service Reconnaissance vocale par lots via son API REST et peut être utilisée dans n’importe quelle situation.Call Center Transcription is available through the Batch Speech Service via its REST API and can be used in any situation.

Entrée audio compressée par codecCodec compressed audio input

Plusieurs des langages de programmation du SDK Speech prennent en charge les flux d'entrée audio compressés par codec.Several of the Speech SDK programming languages support codec compressed audio input streams. Pour plus d'informations, consultez Utiliser des formats d'entrée audio compressés.For more information, see use compressed audio input formats .

L’entrée audio compressée par codec est disponible sur les plateformes suivantes :Codec compressed audio input is available on the following platforms:

  • C++/LinuxC++/Linux
  • C#/LinuxC#/Linux
  • Java/Linux, Android et iOSJava/Linux, Android, and iOS

API RESTREST API

Bien que le SDK Speech englobe de nombreuses fonctionnalités du service Speech, pour certains scénarios, vous pouvez utiliser l'API REST.While the Speech SDK covers many feature capabilities of the Speech Service, for some scenarios you might want to use the REST API.

Transcription BatchBatch transcription

La Transcription par lots permet de transcrire une reconnaissance vocale asynchrone de gros volumes de données.Batch transcription enables asynchronous speech-to-text transcription of large volumes of data. Elle n'est possible qu'à partir de l'API REST.Batch transcription is only possible from the REST API. En plus de convertir l'audio en texte, la reconnaissance vocale par lots permet également la diarisation et l'analyse des sentiments.In addition to converting speech audio to text, batch speech-to-text also allows for diarization and sentiment-analysis.

PersonnalisationCustomization

Le service Speech fournit d'excellentes fonctionnalités avec ses modèles par défaut dédiés à la reconnaissance vocale, à la synthèse vocale et à la traduction vocale.The Speech Service delivers great functionality with its default models across speech-to-text, text-to-speech, and speech-translation. Vous pouvez également améliorer les performances de base du service pour l'adapter à votre cas d'usage unique.Sometimes you may want to increase the baseline performance to work even better with your unique use case. Le service Speech propose différents outils de personnalisation sans code qui vous facilitent la tâche et vous permettent de bénéficier d'un avantage concurrentiel grâce à des modèles personnalisés basés sur vos propres données.The Speech Service has a variety of no-code customization tools that make it easy, and allow you to create a competitive advantage with custom models based on your own data. Votre organisation et vous êtes les seuls à avoir accès à ces modèles.These models will only be available to you and your organization.

Reconnaissance vocale personnaliséeCustom Speech-to-text

Si vous utilisez la reconnaissance vocale pour la reconnaissance et la transcription dans un environnement unique, vous pouvez créer et former des modèles acoustiques, linguistiques et de prononciation personnalisés pour traiter le bruit ambiant ou le vocabulaire spécifique au secteur.When using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary. La création et la gestion de modèles vocaux personnalisés sans code sont disponibles via le portail Custom Speech.The creation and management of no-code Custom Speech models is available through the Custom Speech Portal. Une fois le modèle Custom Speech publié, il peut être utilisé par le SDK Speech.Once the Custom Speech model is published, it can be consumed by the Speech SDK.

Synthèse vocale personnaliséeCustom Text-to-speech

La synthèse vocale personnalisée, également appelée Custom Voice, est un ensemble d'outils en ligne qui vous permettent de créer une voix unique reconnaissable entre toutes pour votre marque.Custom text-to-speech, also known as Custom Voice is a set of online tools that allow you to create a recognizable, one-of-a-kind voice for your brand. La création et la gestion de modèles Custom Voice sans code sont disponibles via le portail Custom Voice.The creation and management of no-code Custom Voice models is available through the Custom Voice Portal. Une fois le modèle Custom Voice publié, il peut être utilisé par le SDK Speech.Once the Custom Voice model is published, it can be consumed by the Speech SDK.

Obtenir le Kit de développement logiciel (SDK) de reconnaissance vocaleGet the Speech SDK

Le Kit de développement logiciel (SDK) Speech prend en charge Windows 10 et Windows Server 2016, ou versions ultérieures.The Speech SDK supports Windows 10 and Windows Server 2016, or later versions. Les versions antérieures ne sont pas prises en charge.Earlier versions are not officially supported. Il est possible d’utiliser certaines parties du Kit de développement logiciel (SDK) Speech avec des versions antérieures de Windows, mais ce n’est pas conseillé.It is possible to use parts of the Speech SDK with earlier versions of Windows, although it's not advised.


Windows

Configuration système requiseSystem requirements

Le Kit de développement logiciel (SDK) Speech sur Windows nécessite que Microsoft Visual C++ Redistributable pour Visual Studio 2019 soit installé sur le système.The Speech SDK on Windows requires the Microsoft Visual C++ Redistributable for Visual Studio 2019 on the system.

C#C#

Le Kit de développement logiciel (SDK) Speech .NET est disponible sous la forme d’un package NuGet, et implémente .NET Standard 2.0. Pour plus d’informations, consultez Microsoft.CognitiveServices.Speech .The .NET Speech SDK is available as a NuGet package and implements .NET Standard 2.0, for more information, see Microsoft.CognitiveServices.Speech .


C#

Package NuGet C#C# NuGet Package

Le Kit de développement logiciel (SDK) Speech .NET peut être installé à partir de CLI .NET Core avec la commande dotnet add suivante.The .NET Speech SDK can be installed from the .NET Core CLI with the following dotnet add command.

dotnet add package Microsoft.CognitiveServices.Speech

Le Kit de développement logiciel (SDK) Speech .NET peut être installé à partir du Gestionnaire de package avec la commande Install-Package suivante.The .NET Speech SDK can be installed from the Package Manager with the following Install-Package command.

Install-Package Microsoft.CognitiveServices.Speech

Ressources supplémentairesAdditional resources

Pour l’entrée du microphone, les bibliothèques Media Foundation doivent être installées.For microphone input, the Media Foundation libraries must be installed. Ces bibliothèques font partie de Windows 10 et de Windows Server 2016.These libraries are part of Windows 10 and Windows Server 2016. Il est possible d’utiliser le SDK Speech sans ces bibliothèques, tant qu’un microphone n’est pas utilisé comme périphérique d’entrée audio.It's possible to use the Speech SDK without these libraries, as long as a microphone isn't used as the audio input device.

Les fichiers du kit de développement logiciel (SDK) Speech requis peuvent être déployés dans le même répertoire que votre application.The required Speech SDK files can be deployed in the same directory as your application. De cette façon, votre application peut accéder directement aux bibliothèques.This way your application can directly access the libraries. Veillez à sélectionner la version appropriée (x86/x64) correspondant à votre application.Make sure you select the correct version (x86/x64) that matches your application.

NomName FonctionFunction
Microsoft.CognitiveServices.Speech.core.dll SDK principal, requis pour le déploiement natif et managéCore SDK, required for native and managed deployment
Microsoft.CognitiveServices.Speech.csharp.dll Requis pour le déploiement managéRequired for managed deployment

Notes

Depuis la version 1.3.0, le fichier Microsoft.CognitiveServices.Speech.csharp.bindings.dll (fourni dans les versions précédentes) n’est plus nécessaire.Starting with the release 1.3.0 the file Microsoft.CognitiveServices.Speech.csharp.bindings.dll (shipped in previous releases) isn't needed anymore. La fonctionnalité est désormais intégrée dans le kit SDK principal.The functionality is now integrated in the core SDK.

Important

Pour le projet C# Windows Forms App (.NET Framework), vérifiez que les bibliothèques sont incluses dans les paramètres de déploiement de votre projet.For the Windows Forms App (.NET Framework) C# project, make sure the libraries are included in your project's deployment settings. Vous pouvez vérifier cela dans Properties -> Publish Section.You can check this under Properties -> Publish Section. Cliquez sur le bouton Application Files et recherchez les bibliothèques correspondantes dans la liste déroulante.Click the Application Files button and find corresponding libraries from the scroll down list. Assurez-vous que la valeur est définie sur Included.Make sure the value is set to Included. Visual Studio inclut le fichier lorsque le projet est publié/déployé.Visual Studio will include the file when project is published/deployed.

C++C++

Le Kit de développement logiciel (SDK) Speech C++ est disponible sur Windows, Linux et macOS.The C++ Speech SDK is available on Windows, Linux, and macOS. Pour plus d’informations, consultez Microsoft.CognitiveServices.Speech .For more information, see Microsoft.CognitiveServices.Speech .


C++

Package NuGet C++C++ NuGet package

Le Kit de développement logiciel (SDK) Speech C++ peut être installé à partir du Gestionnaire de package avec la commande Install-Package suivante.The C++ Speech SDK can be installed from the Package Manager with the following Install-Package command.

Install-Package Microsoft.CognitiveServices.Speech

Ressources supplémentairesAdditional resources

PythonPython

Le Kit de développement logiciel (SDK) Speech Python est disponible sous la forme d’un module d’index de package Python (PyPI). Pour plus d’informations, consultez azure-cognitiveservices-speech .The Python Speech SDK is available as a Python Package Index (PyPI) module, for more information, see azure-cognitiveservices-speech . Le Kit de développement logiciel (SDK) Speech Python est compatible avec Windows, Linux et macOS.The Python Speech SDK is compatible with Windows, Linux, and macOS.


Python
pip install azure-cognitiveservices-speech

Conseil

Si vous utilisez macOS, il se peut que vous deviez exécuter la commande suivante pour faire fonctionner la commande pip ci-dessus :If you are on macOS, you may need to run the following command to get the pip command above to work:

python3 -m pip install --upgrade pip

Ressources supplémentairesAdditional resources

JavaJava

Le kit de développement logiciel (SDK) Java pour Android est empaqueté au format AAR (bibliothèque Android), qui inclut les bibliothèques nécessaires et les autorisations Android requises.The Java SDK for Android is packaged as an AAR (Android Library) , which includes the necessary libraries and required Android permissions. Il est hébergé dans un référentiel Maven dans https://csspeechstorage.blob.core.windows.net/maven/ sous la forme d’un package com.microsoft.cognitiveservices.speech:client-sdk:1.15.0.It's hosted in a Maven repository at https://csspeechstorage.blob.core.windows.net/maven/ as package com.microsoft.cognitiveservices.speech:client-sdk:1.15.0.


Java

Pour utiliser le package dans votre projet Android Studio, effectuez les changements suivants :To consume the package from your Android Studio project, make the following changes:

  1. Dans le fichier build.gradle au niveau du projet, ajoutez le texte suivant à la section repositories :In the project-level build.gradle file, add the following to the repositories section:
maven { url 'https://csspeechstorage.blob.core.windows.net/maven/' }
  1. Dans le fichier build.gradle au niveau du module, ajoutez le texte suivant à la section dependencies :In the module-level build.gradle file, add the following to the dependencies section:
implementation 'com.microsoft.cognitiveservices.speech:client-sdk:1.15.0'

Le Kit de développement logiciel (SDK) Java fait aussi partie du Kit de développement logiciel (SDK) Speech Devices.The Java SDK is also part of the Speech Devices SDK.

Ressources supplémentairesAdditional resources

Important

En téléchargeant l’un des différents kit SDK Speech Azure Cognitive Services, vous reconnaissez son utilisation sous licence.By downloading any of the Azure Cognitive Services Speech SDKs, you acknowledge its license. Pour plus d'informations, consultez les pages suivantes :For more information, see:

Exemple de code sourceSample source code

L’équipe du kit de développement logiciel (SDK) Speech gère activement un grand nombre d’exemples dans un référentiel open source.The Speech SDK team actively maintains a large set of examples in an open-source repository. Pour obtenir un exemple de référentiel de code source, consultez le Kit de développement logiciel (SDK) Speech Microsoft Cognitive Services sur GitHub .For the sample source code repository, visit the Microsoft Cognitive Services Speech SDK on GitHub . Des exemples sont disponibles pour C#, C++, Java, Python, Objective-C, Swift, JavaScript, UWP, Unity et Xamarin.There are samples for C#, C++, Java, Python, Objective-C, Swift, JavaScript, UWP, Unity, and Xamarin.


GitHub

Étapes suivantesNext steps