Informationen zum Speech SDKAbout the Speech SDK

Das Speech SDK (Software Development Kit) macht viele der Funktionen des Speech-Dienstes verfügbar und ermöglicht Ihnen das Entwickeln sprachaktivierter Anwendungen.The Speech software development kit (SDK) exposes many of the Speech service capabilities, to empower you to develop speech-enabled applications. Das Speech SDK ist in vielen Programmiersprachen und für alle Plattformen verfügbar.The Speech SDK is available in many programming languages and across all platforms.

ProgrammierspracheProgramming language PlattformPlatform SDK-ReferenzSDK reference
C#1C# 1 Windows, Linux, macOS, Mono, Xamarin.iOS, Xamarin.Mac, Xamarin.Android, UWP, UnityWindows, Linux, macOS, Mono, Xamarin.iOS, Xamarin.Mac, Xamarin.Android, UWP, Unity .NET SDK.NET SDK
C++C++ Windows, Linux, macOSWindows, Linux, macOS C++ SDKC++ SDK
GoGo LinuxLinux Go SDKGo SDK
Java2Java 2 Android, Windows, Linux, macOSAndroid, Windows, Linux, macOS Java SDKJava SDK
JavaScriptJavaScript Browser, Node.jsBrowser, Node.js JavaScript SDKJavaScript SDK
Objective-C, SwiftObjective-C / Swift iOS, macOSiOS, macOS Objective-C SDKObjective-C SDK
PythonPython Windows, Linux, macOSWindows, Linux, macOS Python SDKPython SDK

1 Das .NET Speech SDK basiert auf .NET Standard 2.0 und unterstützt daher viele Plattformen. Weitere Informationen finden Sie unter Unterstützung der .NET-Implementierung .1 The .NET Speech SDK is based on .NET Standard 2.0, thus it supports many platforms. For more information, see .NET implementation support .

2 Das Java SDK ist auch als Teil des Speech-Geräte-SDK verfügbar.2 The Java Speech SDK is also available as part of the Speech Devices SDK.

Funktionen für SzenarienScenario capabilities

Das Speech SDK macht eine Vielzahl von Features aus dem Spracherkennungsdienst verfügbar, jedoch nicht alle.The Speech SDK exposes many features from the Speech service, but not all of them. Die Funktionen des Speech SDK sind häufig mit Szenarien verknüpft.The capabilities of the Speech SDK are often associated with scenarios. Das Speech SDK eignet sich ideal für Echtzeit- und Nicht-Echtzeitszenarien, für die Verwendung lokaler Geräte, Dateien, von Azure-Blobspeicher und sogar für Eingabe-und Ausgabestreams.The Speech SDK is ideal for both real-time and non-real-time scenarios, using local devices, files, Azure blob storage, and even input and output streams. Wenn ein Szenario für das Speech SDK nicht zugänglich ist, suchen Sie nach einer REST-API-Alternative.When a scenario is not achievable with the Speech SDK, look for a REST API alternative.

SpracherkennungSpeech-to-text

Die Spracherkennung (auch als Speech-to-Text bezeichnet) wandelt Audiodatenströme in Text um, der von Ihren Anwendungen, Tools oder Geräten genutzt oder angezeigt werden kann.Speech-to-text (also known as speech recognition) transcribes audio streams to text that your applications, tools, or devices can consume or display. In Kombination mit Language Understanding (LUIS) können Sie Benutzerabsichten aus transkribierter Sprache ableiten und auf Sprachbefehle reagieren.Use speech-to-text with Language Understanding (LUIS) to derive user intents from transcribed speech and act on voice commands. Verwenden Sie die Sprachübersetzung, um Spracheingaben mit einem einzigen Aufruf in eine andere Sprache zu übersetzen.Use Speech Translation to translate speech input to a different language with a single call. Weitere Informationen finden Sie unter Spracherkennung – Grundlagen.For more information, see Speech-to-text basics.

Spracherkennung (SR), Begriffsliste, Absicht, Übersetzung und lokale Container sind auf den folgenden Plattformen verfügbar:Speech-Recognition (SR), Phrase List, Intent, Translation, and On-premises containers are available on the following platforms:

  • C++/Windows und Linux und macOSC++/Windows & Linux & macOS
  • C# (Framework und .NET Core)/Windows, UWP, Unity, Xamarin, Linux und macOSC# (Framework & .NET Core)/Windows & UWP & Unity & Xamarin & Linux & macOS
  • Java (JRE und Android)Java (Jre and Android)
  • JavaScript (Browser und NodeJS)JavaScript (Brower and NodeJS)
  • PythonPython
  • SwiftSwift
  • Objective-CObjective-C
  • Go (nur SR)Go (SR only)

Text-zu-SpracheText-to-speech

Text-zu-Sprache (auch als Sprachsynthese bezeichnet) konvertiert Text in menschenähnliche synthetische Sprache.Text-to-speech (also known as speech synthesis) converts text into human-like synthesized speech. Beim Eingabetext handelt es sich um Zeichenfolgenliterale, oder Sie können Speech Synthesis Markup Language (SSML) verwenden.The input text is either string literals or using the Speech Synthesis Markup Language (SSML). Weitere Informationen zu standardmäßigen oder neuronalen Stimmen finden Sie unter Sprach- und Stimmunterstützung für Text-zu-Sprache.For more information on standard or neural voices, see Text-to-speech language and voice support.

Text-zu-Sprache ist auf den folgenden Plattformen verfügbar:Text-to-speech (TTS) is available on the following platforms:

  • C++/Windows und LinuxC++/Windows & Linux
  • C#/Windows, UWP und UnityC#/Windows & UWP & Unity
  • Java (JRE und Android)Java (Jre and Android)
  • PythonPython
  • SwiftSwift
  • Objective-CObjective-C
  • Die TTS-REST-API kann in allen anderen Situationen verwendet werden.TTS REST API can be used in every other situation.

SprachassistentenVoice assistants

Sprachassistenten, die das Speech SDK verwenden, ermöglichen es Entwicklern, natürliche Konversationsschnittstellen für ihre Anwendungen und Umgebungen zu erstellen, die der menschlichen Sprache nahekommen.Voice assistants using the Speech SDK enable developers to create natural, human-like conversational interfaces for their applications and experiences. Der Sprachassistentendienst ermöglicht die schnelle, zuverlässige Interaktion zwischen einem Gerät und einem Assistenten.The voice assistant service provides fast, reliable interaction between a device and an assistant. Die Implementierung verarbeitet Aufgaben über den Kanal „Direct Line Speech“ von Bot Framework oder den integrierten Dienst „Benutzerdefinierte Befehle“.The implementation uses the Bot Framework's Direct Line Speech channel or the integrated Custom Commands service for task completion. Darüber hinaus können Sprachassistenten benutzerdefinierte Stimmen verwenden, die über das Custom Voice-Portal erstellt werden, um eine unverwechselbare Sprachausgabe zu erzielen.Additionally, voice assistants can use custom voices created in the Custom Voice Portal to add a unique voice output experience.

Sprach-Assistent ist auf den folgenden Plattformen verfügbar:Voice assistants is available on the following platforms:

  • C++/Windows und Linux und macOSC++/Windows & Linux & macOS
  • C#/WindowsC#/Windows
  • Java/Windows und Linux und macOS und Android (Speech Devices SDK)Java/Windows & Linux & macOS & Android (Speech Devices SDK)

SchlüsselworterkennungKeyword spotting

Das Konzept der -Schlüsselworterkennung wird im Speech SDK unterstützt.The concept of keyword spotting is supported in the Speech SDK. Bei der Schlüsselworterkennung wird ein Schlüsselwort in der Sprache erkannt, und nach der Erfassung des Schlüsselworts folgt eine Aktion.Keyword spotting is the act of identifying a keyword in speech, followed by an action upon hearing the keyword. Mit dem Schlüsselwort „Hey Cortana“ wird beispielsweise der Cortana-Assistent aktiviert.For example, "Hey Cortana" would activate the Cortana assistant.

Schlüsselworterkennung ist auf den folgenden Plattformen verfügbar:Keyword Spotting (KWS) is available on the following platforms:

  • C++/Windows und LinuxC++/Windows & Linux
  • C#/Windows und LinuxC#/Windows & Linux
  • Python/Windows und LinuxPython/Windows & Linux
  • Java/Windows und Linux und Android (Speech Devices SDK)Java/Windows & Linux & Android (Speech Devices SDK)
  • Die Funktionalität zur Schlüsselworterkennung (Keyword Spotting, KWS) kann eventuell mit allen Mikrofontypen verwendet werden, offiziell wird KWS derzeit jedoch nur für die Mikrofonarrays in der Azure Kinect DK-Hardware oder im Speech-Geräte-SDK unterstützt.Keyword spotting (KWS) functionality might work with any microphone type, official KWS support, however, is currently limited to the microphone arrays found in the Azure Kinect DK hardware or the Speech Devices SDK

BesprechungsszenarienMeeting scenarios

Das Speech SDK eignet sich perfekt für die Transkription von Besprechungsszenarien, egal, ob aus einer Unterhaltung von einem einzelnen Gerät oder von mehreren Geräten.The Speech SDK is perfect for transcribing meeting scenarios, whether from a single device or multi-device conversation.

UnterhaltungstranskriptionConversation Transcription

Die Unterhaltungstranskription ermöglicht die Echtzeit- (und asynchrone) Spracherkennung, die Sprecheridentifikation und die Satzzuschreibung zu den einzelnen Sprechern (auch als Diarisierung bezeichnet).Conversation Transcription enables real-time (and asynchronous) speech recognition, speaker identification, and sentence attribution to each speaker (also known as diarization). Er eignet sich optimal für das Transkribieren persönlicher Besprechungen, wobei zwischen Sprechern unterschieden werden kann.It's perfect for transcribing in-person meetings with the ability to distinguish speakers.

Unterhaltungstranskription ist auf den folgenden Plattformen verfügbar:Conversation Transcription is available on the following platforms:

  • C++/Windows und LinuxC++/Windows & Linux
  • C# (Framework und .NET Core)/Windows und UWP und LinuxC# (Framework & .NET Core)/Windows & UWP & Linux
  • Java/Windows und Linux und Android (Speech Devices SDK)Java/Windows & Linux & Android (Speech Devices SDK)

Konversation mit mehreren GerätenMulti-device Conversation

Über die Konversation mit mehreren Geräten verbinden Sie mehrere Geräte oder Clients in einer Konversation, um sprach- oder textbasierte Nachrichten mit einfacher Unterstützung von Transkription und Übersetzung zu senden.With Multi-device Conversation, connect multiple devices or clients in a conversation to send speech-based or text-based messages, with easy support for transcription and translation.

Konversation mit mehreren Geräten ist auf den folgenden Plattformen verfügbar:Multi-device Conversation is available on the following platforms:

  • C++/WindowsC++/Windows
  • C# (Framework und .NET Core)/WindowsC# (Framework & .NET Core)/Windows

Benutzerdefinierte/Agent-SzenariosCustom / agent scenarios

Das Speech SDK kann für die Transkription in Callcenterszenarien verwendet werden, in denen Telefoniedaten generiert werden.The Speech SDK can be used for transcribing call center scenarios, where telephony data is generated.

CallcentertranskriptionCall Center Transcription

Die Callcentertranskription ist ein häufiges Szenario für die Spracherkennung zum Transkribieren großer Mengen von Telefoniedaten, die aus verschiedenen Systemen stammen können, z. B. Systemen für interaktive Sprachantworten (Interactive Voice Response, IVR).Call Center Transcription is common scenario for speech-to-text for transcribing large volumes of telephony data that may come from various systems, such as Interactive Voice Response (IVR). Die neuesten Spracherkennungsmodelle des Speech-Diensts zeichnen sich durch das Transkribieren dieser Telefoniedaten auch in solchen Fällen aus, in denen die Daten für den Menschen schwer verständlich sind.The latest speech recognition models from the Speech service excel at transcribing this telephony data, even in cases when the data is difficult for a human to understand.

Callcentertranskription steht über die REST-API des Batch-Sprachdiensts zur Verfügung und kann in jeder Situation verwendet werden.Call Center Transcription is available through the Batch Speech Service via its REST API and can be used in any situation.

Per Codec komprimierte AudioeingabeCodec compressed audio input

Einige der Speech SDK-Programmiersprachen unterstützen per Codec komprimierte Audioeingabestreams.Several of the Speech SDK programming languages support codec compressed audio input streams. Weitere Informationen finden Sie unter Verwenden komprimierter Audioeingabeformate.For more information, see use compressed audio input formats .

Per Codec komprimierte Audioeingabe ist auf den folgenden Plattformen verfügbar:Codec compressed audio input is available on the following platforms:

  • C++/LinuxC++/Linux
  • C#/LinuxC#/Linux
  • Java/Linux, Android und iOSJava/Linux, Android, and iOS

REST-APIREST API

Obwohl das Speech SDK viele Features des Spracherkennungsdiensts abdeckt, sollten Sie in einigen Szenarien die REST-API verwenden.While the Speech SDK covers many feature capabilities of the Speech Service, for some scenarios you might want to use the REST API.

Batch-TranskriptionBatch transcription

Die Batch-Transkription ermöglicht eine asynchrone Spracherkennung/Transkription großer Datenmengen.Batch transcription enables asynchronous speech-to-text transcription of large volumes of data. Die Batch-Transkription ist nur über die REST-API möglich.Batch transcription is only possible from the REST API. Außer der Konvertierung von Sprachaudiodaten in Text sind mit der Batch-Spracherkennung auch die Diarisierung und Stimmungsanalyse möglich.In addition to converting speech audio to text, batch speech-to-text also allows for diarization and sentiment-analysis.

AnpassungCustomization

Der Spracherkennungsdienst bietet über seine Standardmodelle hervorragende Funktionen – von Spracherkennung und Text-to-Speech bis hin zu Sprachübersetzung.The Speech Service delivers great functionality with its default models across speech-to-text, text-to-speech, and speech-translation. Gelegentlich empfiehlt es sich, die Baseline-Leistung für Ihren konkreten Anwendungsfall zu erhöhen.Sometimes you may want to increase the baseline performance to work even better with your unique use case. Der Spracherkennungsdienst bietet eine Vielzahl von Anpassungstools, die ohne Code auskommen und mit denen Sie über benutzerdefinierte Modelle auf Grundlage Ihrer Daten einen Wettbewerbsvorteil erzielen können.The Speech Service has a variety of no-code customization tools that make it easy, and allow you to create a competitive advantage with custom models based on your own data. Diese Modelle sind nur für Sie und Ihre Organisation verfügbar.These models will only be available to you and your organization.

Benutzerdefinierte SpracherkennungCustom Speech-to-text

Wenn Sie die Spracherkennung für die Erkennung und Transkription in einer individuellen Umgebung verwenden, können Sie benutzerdefinierte Akustik-, Sprach- und Aussprachemodelle erstellen, um Umgebungsgeräusche zu kompensieren oder branchenspezifisches Vokabular zu berücksichtigen.When using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary. Die Erstellung und Verwaltung von Custom Speech-Modellen ohne Code ist über das Custom Speech-Portal möglich.The creation and management of no-code Custom Speech models is available through the Custom Speech Portal. Nach seiner Veröffentlichung kann das Custom Speech-Modell vom Speech SDK genutzt werden.Once the Custom Speech model is published, it can be consumed by the Speech SDK.

Benutzerdefinierte SprachsyntheseCustom Text-to-speech

Bei der benutzerdefinierten Sprachsynthese (auch als Custom Voice bezeichnet) handelt es sich um eine Reihe von Onlinetools, mit denen Sie eine wiedererkennbare, einzigartige Stimme für Ihre Marke erstellen können.Custom text-to-speech, also known as Custom Voice is a set of online tools that allow you to create a recognizable, one-of-a-kind voice for your brand. Die Erstellung und Verwaltung von Custom Voice-Modellen ohne Code ist über das Custom Voice-Portal möglich.The creation and management of no-code Custom Voice models is available through the Custom Voice Portal. Nach seiner Veröffentlichung kann das Custom Voice-Modell vom Speech SDK genutzt werden.Once the Custom Voice model is published, it can be consumed by the Speech SDK.

Abrufen des Speech SDKGet the Speech SDK

Das Speech SDK unterstützt Windows 10 und Windows Server 2016 oder höhere Versionen.The Speech SDK supports Windows 10 and Windows Server 2016, or later versions. Frühere Versionen werden nicht offiziell unterstützt.Earlier versions are not officially supported. Es ist möglich, Teile des Speech SDK mit früheren Versionen von Windows zu verwenden, obwohl dies nicht empfohlen wird.It is possible to use parts of the Speech SDK with earlier versions of Windows, although it's not advised.


Windows

SystemanforderungenSystem requirements

Für das Speech SDK unter Windows muss Microsoft Visual C++ Redistributable für Visual Studio 2019 auf dem System installiert sein.The Speech SDK on Windows requires the Microsoft Visual C++ Redistributable for Visual Studio 2019 on the system.

C#C#

Das .NET Speech SDK ist als NuGet-Paket verfügbar und implementiert .NET Standard 2.0. Weitere Informationen finden Sie unter Microsoft.CognitiveServices.Speech .The .NET Speech SDK is available as a NuGet package and implements .NET Standard 2.0, for more information, see Microsoft.CognitiveServices.Speech .


C#

NuGet-Paket für C#C# NuGet Package

Das .NET Speech SDK kann mit dem folgenden dotnet add-Befehl über die .NET Core-CLI installiert werden.The .NET Speech SDK can be installed from the .NET Core CLI with the following dotnet add command.

dotnet add package Microsoft.CognitiveServices.Speech

Das .NET Speech SDK kann mit dem folgenden Install-Package-Befehl über den Paket-Manager installiert werden.The .NET Speech SDK can be installed from the Package Manager with the following Install-Package command.

Install-Package Microsoft.CognitiveServices.Speech

Zusätzliche RessourcenAdditional resources

Für die Mikrofoneingabe müssen die Media Foundation-Bibliotheken installiert sein.For microphone input, the Media Foundation libraries must be installed. Diese Bibliotheken sind Bestandteil von Windows 10 und Windows Server 2016.These libraries are part of Windows 10 and Windows Server 2016. Das Speech SDK kann ohne diese Bibliotheken verwendet werden, wenn als Audioeingabegerät kein Mikrofon verwendet wird.It's possible to use the Speech SDK without these libraries, as long as a microphone isn't used as the audio input device.

Die erforderlichen Speech SDK-Dateien können im gleichen Verzeichnis wie die Anwendung bereitgestellt werden.The required Speech SDK files can be deployed in the same directory as your application. Auf diese Weise kann die Anwendung direkt auf die Bibliotheken zugreifen.This way your application can directly access the libraries. Stellen Sie sicher, dass Sie die richtige, der Anwendung entsprechende Version (x86/x64) auswählen.Make sure you select the correct version (x86/x64) that matches your application.

NameName FunktionFunction
Microsoft.CognitiveServices.Speech.core.dll Core SDK, erforderlich für die native und verwaltete BereitstellungCore SDK, required for native and managed deployment
Microsoft.CognitiveServices.Speech.csharp.dll Erforderlich für die verwaltete BereitstellungRequired for managed deployment

Hinweis

Ab Release 1.3.0 ist die Datei Microsoft.CognitiveServices.Speech.csharp.bindings.dll (im Lieferumfang von früheren Releases enthalten) nicht mehr erforderlich.Starting with the release 1.3.0 the file Microsoft.CognitiveServices.Speech.csharp.bindings.dll (shipped in previous releases) isn't needed anymore. Die Funktion ist jetzt in das Core-SDK integriert.The functionality is now integrated in the core SDK.

Wichtig

Stellen Sie für das Windows Forms App-C#-Projekt (.NET Framework) sicher, dass die Bibliotheken in den Bereitstellungseinstellungen Ihres Projekts enthalten sind.For the Windows Forms App (.NET Framework) C# project, make sure the libraries are included in your project's deployment settings. Sie können dies unter Properties -> Publish Section überprüfen.You can check this under Properties -> Publish Section. Klicken Sie auf die Application Files-Schaltfläche, und suchen Sie die entsprechenden Bibliotheken in der nach unten gescrollten Liste.Click the Application Files button and find corresponding libraries from the scroll down list. Stellen Sie sicher, dass der Wert auf Included festgelegt ist.Make sure the value is set to Included. Visual Studio wird die Datei enthalten, wenn das Projekt veröffentlicht/bereitgestellt wird.Visual Studio will include the file when project is published/deployed.

C++C++

Das Speech SDK für C++ ist unter Windows, Linux und macOS verfügbar.The C++ Speech SDK is available on Windows, Linux, and macOS. Weitere Informationen finden Sie unter Microsoft.CognitiveServices.Speech .For more information, see Microsoft.CognitiveServices.Speech .


C++

NuGet-Paket für C++C++ NuGet package

Das Speech SDK für C++ kann mit dem folgenden Install-Package-Befehl über den Paket-Manager installiert werden.The C++ Speech SDK can be installed from the Package Manager with the following Install-Package command.

Install-Package Microsoft.CognitiveServices.Speech

Zusätzliche RessourcenAdditional resources

PythonPython

Das Python Speech SDK ist als PyPI-Modul (Python Package Index) verfügbar. Weitere Informationen finden Sie unter azure-cognitiveservices-speech .The Python Speech SDK is available as a Python Package Index (PyPI) module, for more information, see azure-cognitiveservices-speech . Das Python Speech SDK ist mit Windows, Linux und macOS kompatibel.The Python Speech SDK is compatible with Windows, Linux, and macOS.


Python
pip install azure-cognitiveservices-speech

Tipp

Unter macOS müssen Sie möglicherweise den folgenden Befehl ausführen, damit der obige pip-Befehl funktioniert:If you are on macOS, you may need to run the following command to get the pip command above to work:

python3 -m pip install --upgrade pip

Zusätzliche RessourcenAdditional resources

JavaJava

Das Java SDK für Android ist als AAR (Android-Bibliothek) gepackt und enthält die erforderlichen Bibliotheken sowie die erforderlichen Android-Berechtigungen.The Java SDK for Android is packaged as an AAR (Android Library) , which includes the necessary libraries and required Android permissions. Es wird in einem Maven-Repository unter https://csspeechstorage.blob.core.windows.net/maven/ als Paket com.microsoft.cognitiveservices.speech:client-sdk:1.15.0 gehostet.It's hosted in a Maven repository at https://csspeechstorage.blob.core.windows.net/maven/ as package com.microsoft.cognitiveservices.speech:client-sdk:1.15.0.


Java

Um das Paket im Android Studio-Projekt zu nutzen, nehmen Sie die folgenden Änderungen vor:To consume the package from your Android Studio project, make the following changes:

  1. Fügen Sie der Datei build.gradle auf Projektebene Folgendes im Abschnitt repositories hinzu:In the project-level build.gradle file, add the following to the repositories section:
maven { url 'https://csspeechstorage.blob.core.windows.net/maven/' }
  1. Fügen Sie der Datei build.gradle auf Modulebene Folgendes im Abschnitt dependencies hinzu:In the module-level build.gradle file, add the following to the dependencies section:
implementation 'com.microsoft.cognitiveservices.speech:client-sdk:1.15.0'

Das Java SDK ist auch Teil des Speech-Geräte-SDK.The Java SDK is also part of the Speech Devices SDK.

Zusätzliche RessourcenAdditional resources

Wichtig

Durch das Herunterladen der Azure Cognitive Services Speech SDKs stimmen Sie den zugehörigen Lizenzbedingungen zu.By downloading any of the Azure Cognitive Services Speech SDKs, you acknowledge its license. Weitere Informationen finden Sie unterFor more information, see:

BeispielquellcodeSample source code

Das Speech SDK-Team verwaltet eine große Anzahl von Beispielen in einem Open-Source-Repository.The Speech SDK team actively maintains a large set of examples in an open-source repository. Das Repository für Beispielquellcode finden Sie im Microsoft Cognitive Services Speech SDK auf GitHub .For the sample source code repository, visit the Microsoft Cognitive Services Speech SDK on GitHub . Dort gibt es Beispiele für C#, C++, Java, Python, Objective-C, Swift, JavaScript, UWP, Unity und Xamarin.There are samples for C#, C++, Java, Python, Objective-C, Swift, JavaScript, UWP, Unity, and Xamarin.


GitHub

Nächste SchritteNext steps