Informationen zum Speech SDKAbout the Speech SDK
Das Speech SDK (Software Development Kit) macht viele der Funktionen des Speech-Dienstes verfügbar und ermöglicht Ihnen das Entwickeln sprachaktivierter Anwendungen.The Speech software development kit (SDK) exposes many of the Speech service capabilities, to empower you to develop speech-enabled applications. Das Speech SDK ist in vielen Programmiersprachen und für alle Plattformen verfügbar.The Speech SDK is available in many programming languages and across all platforms.
ProgrammierspracheProgramming language | PlattformPlatform | SDK-ReferenzSDK reference |
---|---|---|
C#1C# 1 | Windows, Linux, macOS, Mono, Xamarin.iOS, Xamarin.Mac, Xamarin.Android, UWP, UnityWindows, Linux, macOS, Mono, Xamarin.iOS, Xamarin.Mac, Xamarin.Android, UWP, Unity | .NET SDK.NET SDK |
C++C++ | Windows, Linux, macOSWindows, Linux, macOS | C++ SDKC++ SDK |
GoGo | LinuxLinux | Go SDKGo SDK |
Java2Java 2 | Android, Windows, Linux, macOSAndroid, Windows, Linux, macOS | Java SDKJava SDK |
JavaScriptJavaScript | Browser, Node.jsBrowser, Node.js | JavaScript SDKJavaScript SDK |
Objective-C, SwiftObjective-C / Swift | iOS, macOSiOS, macOS | Objective-C SDKObjective-C SDK |
PythonPython | Windows, Linux, macOSWindows, Linux, macOS | Python SDKPython SDK |
1 Das .NET Speech SDK basiert auf .NET Standard 2.0 und unterstützt daher viele Plattformen. Weitere Informationen finden Sie unter Unterstützung der .NET-Implementierung .1 The .NET Speech SDK is based on .NET Standard 2.0, thus it supports many platforms. For more information, see .NET implementation support .
2 Das Java SDK ist auch als Teil des Speech-Geräte-SDK verfügbar.2 The Java Speech SDK is also available as part of the Speech Devices SDK.
Funktionen für SzenarienScenario capabilities
Das Speech SDK macht eine Vielzahl von Features aus dem Spracherkennungsdienst verfügbar, jedoch nicht alle.The Speech SDK exposes many features from the Speech service, but not all of them. Die Funktionen des Speech SDK sind häufig mit Szenarien verknüpft.The capabilities of the Speech SDK are often associated with scenarios. Das Speech SDK eignet sich ideal für Echtzeit- und Nicht-Echtzeitszenarien, für die Verwendung lokaler Geräte, Dateien, von Azure-Blobspeicher und sogar für Eingabe-und Ausgabestreams.The Speech SDK is ideal for both real-time and non-real-time scenarios, using local devices, files, Azure blob storage, and even input and output streams. Wenn ein Szenario für das Speech SDK nicht zugänglich ist, suchen Sie nach einer REST-API-Alternative.When a scenario is not achievable with the Speech SDK, look for a REST API alternative.
SpracherkennungSpeech-to-text
Die Spracherkennung (auch als Speech-to-Text bezeichnet) wandelt Audiodatenströme in Text um, der von Ihren Anwendungen, Tools oder Geräten genutzt oder angezeigt werden kann.Speech-to-text (also known as speech recognition) transcribes audio streams to text that your applications, tools, or devices can consume or display. In Kombination mit Language Understanding (LUIS) können Sie Benutzerabsichten aus transkribierter Sprache ableiten und auf Sprachbefehle reagieren.Use speech-to-text with Language Understanding (LUIS) to derive user intents from transcribed speech and act on voice commands. Verwenden Sie die Sprachübersetzung, um Spracheingaben mit einem einzigen Aufruf in eine andere Sprache zu übersetzen.Use Speech Translation to translate speech input to a different language with a single call. Weitere Informationen finden Sie unter Spracherkennung – Grundlagen.For more information, see Speech-to-text basics.
Spracherkennung (SR), Begriffsliste, Absicht, Übersetzung und lokale Container sind auf den folgenden Plattformen verfügbar:Speech-Recognition (SR), Phrase List, Intent, Translation, and On-premises containers are available on the following platforms:
- C++/Windows und Linux und macOSC++/Windows & Linux & macOS
- C# (Framework und .NET Core)/Windows, UWP, Unity, Xamarin, Linux und macOSC# (Framework & .NET Core)/Windows & UWP & Unity & Xamarin & Linux & macOS
- Java (JRE und Android)Java (Jre and Android)
- JavaScript (Browser und NodeJS)JavaScript (Brower and NodeJS)
- PythonPython
- SwiftSwift
- Objective-CObjective-C
- Go (nur SR)Go (SR only)
Text-zu-SpracheText-to-speech
Text-zu-Sprache (auch als Sprachsynthese bezeichnet) konvertiert Text in menschenähnliche synthetische Sprache.Text-to-speech (also known as speech synthesis) converts text into human-like synthesized speech. Beim Eingabetext handelt es sich um Zeichenfolgenliterale, oder Sie können Speech Synthesis Markup Language (SSML) verwenden.The input text is either string literals or using the Speech Synthesis Markup Language (SSML). Weitere Informationen zu standardmäßigen oder neuronalen Stimmen finden Sie unter Sprach- und Stimmunterstützung für Text-zu-Sprache.For more information on standard or neural voices, see Text-to-speech language and voice support.
Text-zu-Sprache ist auf den folgenden Plattformen verfügbar:Text-to-speech (TTS) is available on the following platforms:
- C++/Windows und LinuxC++/Windows & Linux
- C#/Windows, UWP und UnityC#/Windows & UWP & Unity
- Java (JRE und Android)Java (Jre and Android)
- PythonPython
- SwiftSwift
- Objective-CObjective-C
- Die TTS-REST-API kann in allen anderen Situationen verwendet werden.TTS REST API can be used in every other situation.
SprachassistentenVoice assistants
Sprachassistenten, die das Speech SDK verwenden, ermöglichen es Entwicklern, natürliche Konversationsschnittstellen für ihre Anwendungen und Umgebungen zu erstellen, die der menschlichen Sprache nahekommen.Voice assistants using the Speech SDK enable developers to create natural, human-like conversational interfaces for their applications and experiences. Der Sprachassistentendienst ermöglicht die schnelle, zuverlässige Interaktion zwischen einem Gerät und einem Assistenten.The voice assistant service provides fast, reliable interaction between a device and an assistant. Die Implementierung verarbeitet Aufgaben über den Kanal „Direct Line Speech“ von Bot Framework oder den integrierten Dienst „Benutzerdefinierte Befehle“.The implementation uses the Bot Framework's Direct Line Speech channel or the integrated Custom Commands service for task completion. Darüber hinaus können Sprachassistenten benutzerdefinierte Stimmen verwenden, die über das Custom Voice-Portal erstellt werden, um eine unverwechselbare Sprachausgabe zu erzielen.Additionally, voice assistants can use custom voices created in the Custom Voice Portal to add a unique voice output experience.
Sprach-Assistent ist auf den folgenden Plattformen verfügbar:Voice assistants is available on the following platforms:
- C++/Windows und Linux und macOSC++/Windows & Linux & macOS
- C#/WindowsC#/Windows
- Java/Windows und Linux und macOS und Android (Speech Devices SDK)Java/Windows & Linux & macOS & Android (Speech Devices SDK)
SchlüsselworterkennungKeyword spotting
Das Konzept der -Schlüsselworterkennung wird im Speech SDK unterstützt.The concept of keyword spotting is supported in the Speech SDK. Bei der Schlüsselworterkennung wird ein Schlüsselwort in der Sprache erkannt, und nach der Erfassung des Schlüsselworts folgt eine Aktion.Keyword spotting is the act of identifying a keyword in speech, followed by an action upon hearing the keyword. Mit dem Schlüsselwort „Hey Cortana“ wird beispielsweise der Cortana-Assistent aktiviert.For example, "Hey Cortana" would activate the Cortana assistant.
Schlüsselworterkennung ist auf den folgenden Plattformen verfügbar:Keyword Spotting (KWS) is available on the following platforms:
- C++/Windows und LinuxC++/Windows & Linux
- C#/Windows und LinuxC#/Windows & Linux
- Python/Windows und LinuxPython/Windows & Linux
- Java/Windows und Linux und Android (Speech Devices SDK)Java/Windows & Linux & Android (Speech Devices SDK)
- Die Funktionalität zur Schlüsselworterkennung (Keyword Spotting, KWS) kann eventuell mit allen Mikrofontypen verwendet werden, offiziell wird KWS derzeit jedoch nur für die Mikrofonarrays in der Azure Kinect DK-Hardware oder im Speech-Geräte-SDK unterstützt.Keyword spotting (KWS) functionality might work with any microphone type, official KWS support, however, is currently limited to the microphone arrays found in the Azure Kinect DK hardware or the Speech Devices SDK
BesprechungsszenarienMeeting scenarios
Das Speech SDK eignet sich perfekt für die Transkription von Besprechungsszenarien, egal, ob aus einer Unterhaltung von einem einzelnen Gerät oder von mehreren Geräten.The Speech SDK is perfect for transcribing meeting scenarios, whether from a single device or multi-device conversation.
UnterhaltungstranskriptionConversation Transcription
Die Unterhaltungstranskription ermöglicht die Echtzeit- (und asynchrone) Spracherkennung, die Sprecheridentifikation und die Satzzuschreibung zu den einzelnen Sprechern (auch als Diarisierung bezeichnet).Conversation Transcription enables real-time (and asynchronous) speech recognition, speaker identification, and sentence attribution to each speaker (also known as diarization). Er eignet sich optimal für das Transkribieren persönlicher Besprechungen, wobei zwischen Sprechern unterschieden werden kann.It's perfect for transcribing in-person meetings with the ability to distinguish speakers.
Unterhaltungstranskription ist auf den folgenden Plattformen verfügbar:Conversation Transcription is available on the following platforms:
- C++/Windows und LinuxC++/Windows & Linux
- C# (Framework und .NET Core)/Windows und UWP und LinuxC# (Framework & .NET Core)/Windows & UWP & Linux
- Java/Windows und Linux und Android (Speech Devices SDK)Java/Windows & Linux & Android (Speech Devices SDK)
Konversation mit mehreren GerätenMulti-device Conversation
Über die Konversation mit mehreren Geräten verbinden Sie mehrere Geräte oder Clients in einer Konversation, um sprach- oder textbasierte Nachrichten mit einfacher Unterstützung von Transkription und Übersetzung zu senden.With Multi-device Conversation, connect multiple devices or clients in a conversation to send speech-based or text-based messages, with easy support for transcription and translation.
Konversation mit mehreren Geräten ist auf den folgenden Plattformen verfügbar:Multi-device Conversation is available on the following platforms:
- C++/WindowsC++/Windows
- C# (Framework und .NET Core)/WindowsC# (Framework & .NET Core)/Windows
Benutzerdefinierte/Agent-SzenariosCustom / agent scenarios
Das Speech SDK kann für die Transkription in Callcenterszenarien verwendet werden, in denen Telefoniedaten generiert werden.The Speech SDK can be used for transcribing call center scenarios, where telephony data is generated.
CallcentertranskriptionCall Center Transcription
Die Callcentertranskription ist ein häufiges Szenario für die Spracherkennung zum Transkribieren großer Mengen von Telefoniedaten, die aus verschiedenen Systemen stammen können, z. B. Systemen für interaktive Sprachantworten (Interactive Voice Response, IVR).Call Center Transcription is common scenario for speech-to-text for transcribing large volumes of telephony data that may come from various systems, such as Interactive Voice Response (IVR). Die neuesten Spracherkennungsmodelle des Speech-Diensts zeichnen sich durch das Transkribieren dieser Telefoniedaten auch in solchen Fällen aus, in denen die Daten für den Menschen schwer verständlich sind.The latest speech recognition models from the Speech service excel at transcribing this telephony data, even in cases when the data is difficult for a human to understand.
Callcentertranskription steht über die REST-API des Batch-Sprachdiensts zur Verfügung und kann in jeder Situation verwendet werden.Call Center Transcription is available through the Batch Speech Service via its REST API and can be used in any situation.
Per Codec komprimierte AudioeingabeCodec compressed audio input
Einige der Speech SDK-Programmiersprachen unterstützen per Codec komprimierte Audioeingabestreams.Several of the Speech SDK programming languages support codec compressed audio input streams. Weitere Informationen finden Sie unter Verwenden komprimierter Audioeingabeformate.For more information, see use compressed audio input formats .
Per Codec komprimierte Audioeingabe ist auf den folgenden Plattformen verfügbar:Codec compressed audio input is available on the following platforms:
- C++/LinuxC++/Linux
- C#/LinuxC#/Linux
- Java/Linux, Android und iOSJava/Linux, Android, and iOS
REST-APIREST API
Obwohl das Speech SDK viele Features des Spracherkennungsdiensts abdeckt, sollten Sie in einigen Szenarien die REST-API verwenden.While the Speech SDK covers many feature capabilities of the Speech Service, for some scenarios you might want to use the REST API.
Batch-TranskriptionBatch transcription
Die Batch-Transkription ermöglicht eine asynchrone Spracherkennung/Transkription großer Datenmengen.Batch transcription enables asynchronous speech-to-text transcription of large volumes of data. Die Batch-Transkription ist nur über die REST-API möglich.Batch transcription is only possible from the REST API. Außer der Konvertierung von Sprachaudiodaten in Text sind mit der Batch-Spracherkennung auch die Diarisierung und Stimmungsanalyse möglich.In addition to converting speech audio to text, batch speech-to-text also allows for diarization and sentiment-analysis.
AnpassungCustomization
Der Spracherkennungsdienst bietet über seine Standardmodelle hervorragende Funktionen – von Spracherkennung und Text-to-Speech bis hin zu Sprachübersetzung.The Speech Service delivers great functionality with its default models across speech-to-text, text-to-speech, and speech-translation. Gelegentlich empfiehlt es sich, die Baseline-Leistung für Ihren konkreten Anwendungsfall zu erhöhen.Sometimes you may want to increase the baseline performance to work even better with your unique use case. Der Spracherkennungsdienst bietet eine Vielzahl von Anpassungstools, die ohne Code auskommen und mit denen Sie über benutzerdefinierte Modelle auf Grundlage Ihrer Daten einen Wettbewerbsvorteil erzielen können.The Speech Service has a variety of no-code customization tools that make it easy, and allow you to create a competitive advantage with custom models based on your own data. Diese Modelle sind nur für Sie und Ihre Organisation verfügbar.These models will only be available to you and your organization.
Benutzerdefinierte SpracherkennungCustom Speech-to-text
Wenn Sie die Spracherkennung für die Erkennung und Transkription in einer individuellen Umgebung verwenden, können Sie benutzerdefinierte Akustik-, Sprach- und Aussprachemodelle erstellen, um Umgebungsgeräusche zu kompensieren oder branchenspezifisches Vokabular zu berücksichtigen.When using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary. Die Erstellung und Verwaltung von Custom Speech-Modellen ohne Code ist über das Custom Speech-Portal möglich.The creation and management of no-code Custom Speech models is available through the Custom Speech Portal. Nach seiner Veröffentlichung kann das Custom Speech-Modell vom Speech SDK genutzt werden.Once the Custom Speech model is published, it can be consumed by the Speech SDK.
Benutzerdefinierte SprachsyntheseCustom Text-to-speech
Bei der benutzerdefinierten Sprachsynthese (auch als Custom Voice bezeichnet) handelt es sich um eine Reihe von Onlinetools, mit denen Sie eine wiedererkennbare, einzigartige Stimme für Ihre Marke erstellen können.Custom text-to-speech, also known as Custom Voice is a set of online tools that allow you to create a recognizable, one-of-a-kind voice for your brand. Die Erstellung und Verwaltung von Custom Voice-Modellen ohne Code ist über das Custom Voice-Portal möglich.The creation and management of no-code Custom Voice models is available through the Custom Voice Portal. Nach seiner Veröffentlichung kann das Custom Voice-Modell vom Speech SDK genutzt werden.Once the Custom Voice model is published, it can be consumed by the Speech SDK.
Abrufen des Speech SDKGet the Speech SDK
Das Speech SDK unterstützt Windows 10 und Windows Server 2016 oder höhere Versionen.The Speech SDK supports Windows 10 and Windows Server 2016, or later versions. Frühere Versionen werden nicht offiziell unterstützt.Earlier versions are not officially supported. Es ist möglich, Teile des Speech SDK mit früheren Versionen von Windows zu verwenden, obwohl dies nicht empfohlen wird.It is possible to use parts of the Speech SDK with earlier versions of Windows, although it's not advised.
SystemanforderungenSystem requirements
Für das Speech SDK unter Windows muss Microsoft Visual C++ Redistributable für Visual Studio 2019 auf dem System installiert sein.The Speech SDK on Windows requires the Microsoft Visual C++ Redistributable for Visual Studio 2019 on the system.
- Installation für x86 Install for x86
- Installation für x64 Install for x64
- Installation für ARMx64 Install for ARMx64
C#C#
Das .NET Speech SDK ist als NuGet-Paket verfügbar und implementiert .NET Standard 2.0. Weitere Informationen finden Sie unter Microsoft.CognitiveServices.Speech .The .NET Speech SDK is available as a NuGet package and implements .NET Standard 2.0, for more information, see Microsoft.CognitiveServices.Speech .
NuGet-Paket für C#C# NuGet Package
Das .NET Speech SDK kann mit dem folgenden dotnet add
-Befehl über die .NET Core-CLI installiert werden.The .NET Speech SDK can be installed from the .NET Core CLI with the following dotnet add
command.
dotnet add package Microsoft.CognitiveServices.Speech
Das .NET Speech SDK kann mit dem folgenden Install-Package
-Befehl über den Paket-Manager installiert werden.The .NET Speech SDK can be installed from the Package Manager with the following Install-Package
command.
Install-Package Microsoft.CognitiveServices.Speech
Zusätzliche RessourcenAdditional resources
- Quellcode zum Schnellstart für .NET Core, .NET Framework, Unity, UWP und Xamarin für C# .NET Core, .NET Framework, Unity, UWP, and Xamarin quickstart C# source code
Für die Mikrofoneingabe müssen die Media Foundation-Bibliotheken installiert sein.For microphone input, the Media Foundation libraries must be installed. Diese Bibliotheken sind Bestandteil von Windows 10 und Windows Server 2016.These libraries are part of Windows 10 and Windows Server 2016. Das Speech SDK kann ohne diese Bibliotheken verwendet werden, wenn als Audioeingabegerät kein Mikrofon verwendet wird.It's possible to use the Speech SDK without these libraries, as long as a microphone isn't used as the audio input device.
Die erforderlichen Speech SDK-Dateien können im gleichen Verzeichnis wie die Anwendung bereitgestellt werden.The required Speech SDK files can be deployed in the same directory as your application. Auf diese Weise kann die Anwendung direkt auf die Bibliotheken zugreifen.This way your application can directly access the libraries. Stellen Sie sicher, dass Sie die richtige, der Anwendung entsprechende Version (x86/x64) auswählen.Make sure you select the correct version (x86/x64) that matches your application.
NameName | FunktionFunction |
---|---|
Microsoft.CognitiveServices.Speech.core.dll |
Core SDK, erforderlich für die native und verwaltete BereitstellungCore SDK, required for native and managed deployment |
Microsoft.CognitiveServices.Speech.csharp.dll |
Erforderlich für die verwaltete BereitstellungRequired for managed deployment |
Hinweis
Ab Release 1.3.0 ist die Datei Microsoft.CognitiveServices.Speech.csharp.bindings.dll
(im Lieferumfang von früheren Releases enthalten) nicht mehr erforderlich.Starting with the release 1.3.0 the file Microsoft.CognitiveServices.Speech.csharp.bindings.dll
(shipped in previous releases) isn't needed anymore. Die Funktion ist jetzt in das Core-SDK integriert.The functionality is now integrated in the core SDK.
Wichtig
Stellen Sie für das Windows Forms App-C#-Projekt (.NET Framework) sicher, dass die Bibliotheken in den Bereitstellungseinstellungen Ihres Projekts enthalten sind.For the Windows Forms App (.NET Framework) C# project, make sure the libraries are included in your project's deployment settings. Sie können dies unter Properties -> Publish Section
überprüfen.You can check this under Properties -> Publish Section
. Klicken Sie auf die Application Files
-Schaltfläche, und suchen Sie die entsprechenden Bibliotheken in der nach unten gescrollten Liste.Click the Application Files
button and find corresponding libraries from the scroll down list. Stellen Sie sicher, dass der Wert auf Included
festgelegt ist.Make sure the value is set to Included
. Visual Studio wird die Datei enthalten, wenn das Projekt veröffentlicht/bereitgestellt wird.Visual Studio will include the file when project is published/deployed.
C++C++
Das Speech SDK für C++ ist unter Windows, Linux und macOS verfügbar.The C++ Speech SDK is available on Windows, Linux, and macOS. Weitere Informationen finden Sie unter Microsoft.CognitiveServices.Speech .For more information, see Microsoft.CognitiveServices.Speech .
NuGet-Paket für C++C++ NuGet package
Das Speech SDK für C++ kann mit dem folgenden Install-Package
-Befehl über den Paket-Manager installiert werden.The C++ Speech SDK can be installed from the Package Manager with the following Install-Package
command.
Install-Package Microsoft.CognitiveServices.Speech
Zusätzliche RessourcenAdditional resources
- C++-Quellcode für den Schnellstart unter Windows, Linux und macOS Windows, Linux, and macOS quickstart C++ source code
PythonPython
Das Python Speech SDK ist als PyPI-Modul (Python Package Index) verfügbar. Weitere Informationen finden Sie unter azure-cognitiveservices-speech .The Python Speech SDK is available as a Python Package Index (PyPI) module, for more information, see azure-cognitiveservices-speech . Das Python Speech SDK ist mit Windows, Linux und macOS kompatibel.The Python Speech SDK is compatible with Windows, Linux, and macOS.
pip install azure-cognitiveservices-speech
Tipp
Unter macOS müssen Sie möglicherweise den folgenden Befehl ausführen, damit der obige pip-Befehl funktioniert:If you are on macOS, you may need to run the following command to get the pip command above to work:
python3 -m pip install --upgrade pip
Zusätzliche RessourcenAdditional resources
JavaJava
Das Java SDK für Android ist als AAR (Android-Bibliothek) gepackt und enthält die erforderlichen Bibliotheken sowie die erforderlichen Android-Berechtigungen.The Java SDK for Android is packaged as an AAR (Android Library) , which includes the necessary libraries and required Android permissions. Es wird in einem Maven-Repository unter https://csspeechstorage.blob.core.windows.net/maven/
als Paket com.microsoft.cognitiveservices.speech:client-sdk:1.15.0
gehostet.It's hosted in a Maven repository at https://csspeechstorage.blob.core.windows.net/maven/
as package com.microsoft.cognitiveservices.speech:client-sdk:1.15.0
.
Um das Paket im Android Studio-Projekt zu nutzen, nehmen Sie die folgenden Änderungen vor:To consume the package from your Android Studio project, make the following changes:
- Fügen Sie der Datei build.gradle auf Projektebene Folgendes im Abschnitt
repositories
hinzu:In the project-level build.gradle file, add the following to therepositories
section:
maven { url 'https://csspeechstorage.blob.core.windows.net/maven/' }
- Fügen Sie der Datei build.gradle auf Modulebene Folgendes im Abschnitt
dependencies
hinzu:In the module-level build.gradle file, add the following to thedependencies
section:
implementation 'com.microsoft.cognitiveservices.speech:client-sdk:1.15.0'
Das Java SDK ist auch Teil des Speech-Geräte-SDK.The Java SDK is also part of the Speech Devices SDK.
Zusätzliche RessourcenAdditional resources
Wichtig
Durch das Herunterladen der Azure Cognitive Services Speech SDKs stimmen Sie den zugehörigen Lizenzbedingungen zu.By downloading any of the Azure Cognitive Services Speech SDKs, you acknowledge its license. Weitere Informationen finden Sie unterFor more information, see:
BeispielquellcodeSample source code
Das Speech SDK-Team verwaltet eine große Anzahl von Beispielen in einem Open-Source-Repository.The Speech SDK team actively maintains a large set of examples in an open-source repository. Das Repository für Beispielquellcode finden Sie im Microsoft Cognitive Services Speech SDK auf GitHub .For the sample source code repository, visit the Microsoft Cognitive Services Speech SDK on GitHub . Dort gibt es Beispiele für C#, C++, Java, Python, Objective-C, Swift, JavaScript, UWP, Unity und Xamarin.There are samples for C#, C++, Java, Python, Objective-C, Swift, JavaScript, UWP, Unity, and Xamarin.