Was ist die Bing-Spracheingabe?What is Bing Speech?

Hinweis

Der neue Spracherkennungsdienst und das SDK ersetzen die Bing-Spracheingabe, die ab dem 14. Januar 2020 nicht mehr genutzt werden kann.The new Speech Service and SDK is replacing Bing Speech, which will no longer work starting January 14, 2020. Informationen zum Umstieg auf den Spracherkennungsdienst finden Sie unter Migration von der Bing-Spracheingabe zum Spracherkennungsdienst.For information on switching to the Speech Service, see Migrating from Bing Speech to the Speech Service.

Mit der cloudbasierten Bing-Spracheingabe-API von Microsoft können Entwickler komfortabel leistungsfähige Sprachfunktionen in ihre Anwendungen integrieren. Hierzu zählen beispielsweise die Steuerung per Sprachbefehl, Benutzerdialoge in natürlicher Sprache sowie Transkription und Diktat.The cloud-based Microsoft Bing Speech API provides developers an easy way to create powerful speech-enabled features in their applications, like voice command control, user dialog using natural speech conversation, and speech transcription and dictation. Die Sprach-API von Microsoft unterstützt sowohl die Spracherkennung (Umwandlung von Sprache in Text) als auch die Sprachsynthese (Umwandlung von Text in Sprache).The Microsoft Speech API supports both Speech to Text and Text to Speech conversion.

  • Die Spracherkennungs-API wandelt gesprochene Sprache in Text um, der als Eingabe oder Befehl zur Steuerung Ihrer Anwendung verwendet werden kann.Speech to Text API converts human speech to text that can be used as input or commands to control your application.
  • Die Sprachsynthese-API wandelt Text in Audiostreams um, die für den Benutzer Ihrer Anwendung wiedergegeben werden können.Text to Speech API converts text to audio streams that can be played back to the user of your application.

Spracherkennung (Umwandlung von Sprache in Text)Speech to text (speech recognition)

Die Spracherkennungs-API von Microsoft überträgt Audiodatenströme in Text, den Ihre Anwendung dem Benutzer anzeigen oder als Befehlseingabe nutzen kann.Microsoft speech recognition API transcribes audio streams into text that your application can display to the user or act upon as command input. Er bietet Entwicklern zwei Möglichkeiten, ihre Apps mit Sprachfunktionen zu erweitern: REST-APIs oder websocketbasierte Clientbibliotheken.It provides two ways for developers to add Speech to their apps: REST APIs or Websocket-based client libraries.

  • REST-APIs: Entwickler können in ihren Apps HTTP-Aufrufe an den Spracherkennungsdienst richten.REST APIs: Developers can use HTTP calls from their apps to the service for speech recognition.
  • Clientbibliotheken: Entwickler, die erweiterte Features nutzen möchten, können Microsoft Speech-Clientbibliotheken herunterladen und in ihre Apps einbinden.Client libraries: For advanced features, developers can download Microsoft Speech client libraries, and link into their apps. Die Clientbibliotheken sind für verschiedene Plattformen (Windows, Android, iOS) mit verschiedenen Sprachen (C#, Java, JavaScript, Objective-C) verfügbar.The client libraries are available on various platforms (Windows, Android, iOS) using different languages (C#, Java, JavaScript, ObjectiveC). Im Gegensatz zu den REST-APIs nutzen die Clientbibliotheken ein auf Websockets basierendes Protokoll.Unlike the REST APIs, the client libraries utilize Websocket-based protocol.
AnwendungsfälleUse cases REST-APIsREST APIs ClientbibliothekenClient Libraries
Konvertieren von kurzem gesprochenem Audio mit einer Länge von weniger als 15 Sekunden (beispielsweise Befehle) ohne ZwischenergebnisseConvert a short spoken audio, for example, commands (audio length < 15 s) without interim results JaYes JaYes
Konvertieren von langem Audio (länger als 15 Sekunden)Convert a long audio (> 15 s) NeinNo JaYes
Streamen von Audio mit ZwischenergebnissenStream audio with interim results desired NeinNo JaYes
Verstehen des aus Audio konvertierten Texts mithilfe von LUISUnderstand the text converted from audio using LUIS NeinNo JaYes

Unabhängig vom gewählten Ansatz (REST-APIs oder Clientbibliotheken) unterstützt der Speech-Dienst von Microsoft Folgendes:Whichever approach developers choose (REST APIs or client libraries), Microsoft speech service supports the following:

  • Erweiterte Spracherkennungstechnologien von Microsoft, die von Cortana, Office-Diktat, Office-Übersetzer und anderen Microsoft-Produkten verwendet werden.Advanced speech recognition technologies from Microsoft that are used by Cortana, Office Dictation, Office Translator, and other Microsoft products.
  • Fortlaufende Erkennung in Echtzeit.Real-time continuous recognition. Die Spracherkennungs-API ermöglicht es Benutzern, Audio in Echtzeit in Text umzuwandeln, und unterstützt den Empfang von Zwischenergebnissen für die bislang erkannten Wörter.The speech recognition API enables users to transcribe audio into text in real time, and supports to receive the intermediate results of the words that have been recognized so far. Der Speech-Dienst unterstützt auch die Erkennung des Endes der Spracheingabe.The speech service also supports end-of-speech detection. Darüber hinaus können Benutzer zusätzliche Formatierungsfunktionen wie Großschreibung und Interpunktion, Filterung von anstößigen Ausdrücken und Textnormalisierung auswählen.In addition, users can choose additional formatting capabilities, like capitalization and punctuation, masking profanity, and text normalization.
  • Unterstützt optimierte Spracherkennungsergebnisse für interaktive Szenarien, Konversationen und Diktierszenarien.Supports optimized speech recognition results for interactive, conversation, and dictation scenarios. Für Benutzerszenarien, die benutzerdefinierte Sprach- und Akustikmodelle erfordern, ermöglicht Custom Speech Service die Erstellung von Sprachmodellen, die speziell auf Ihre Anwendung und Benutzer zugeschnitten sind.For user scenarios which require customized language models and acoustic models, Custom Speech Service allows you to create speech models that tailored to your application and your users.
  • Unterstützung zahlreicher gesprochener Sprachen in verschiedenen Dialekten.Support many spoken languages in multiple dialects. Eine vollständige Liste mit den unterstützten Sprachen für die einzelnen Erkennungsmodi finden Sie unter Unterstützte Sprachen.For the full list of supported languages in each recognition mode, see recognition languages.
  • Integration von Sprachverständnis.Integration with language understanding. Neben der Umwandlung von Audioeingaben in Text bietet die Spracherkennung Anwendungen zusätzlich die Möglichkeit, die Bedeutung des Texts zu erfassen.Besides converting the input audio into text, the Speech to Text provides applications an additional capability to understand what the text means. Hierzu werden mithilfe von Language Understanding Intelligent Service (LUIS) Absichten und Entitäten aus dem erkannten Text extrahiert.It uses the Language Understanding Intelligent Service(LUIS) to extract intents and entities from the recognized text.

Nächste SchritteNext steps

Sprachsynthese (Umwandlung von Text in Sprache)Text to speech (speech synthesis)

Sprachsynthese-APIs verwenden REST, um strukturierten Text in einen Audiostream umzuwandeln.Text to Speech APIs use REST to convert structured text to an audio stream. Die APIs bieten eine schnelle Umwandlung von Text in Sprache mit verschiedenen Stimmen und Sprachen.The APIs provide fast text to speech conversion in various voices and languages. Darüber hinaus können Benutzer Audioeigenschaften wie Aussprache, Lautstärke, Tonlage usw.In addition users also have the ability to change audio characteristics like pronunciation, volume, pitch etc. mithilfe von SSML-Tags ändern.using SSML tags.

Nächste SchritteNext steps