Was sind Speech-Dienste?What are the Speech Services?

Die Speech-Dienste dienen zur Vereinheitlichung von Spracherkennung, Sprachsynthese und Sprachübersetzung in einem einzelnen Azure-Abonnement.The Speech Services are the unification of speech-to-text, text-to-speech, and speech-translation into a single Azure subscription. Über das Speech SDK, das Speech Devices SDK oder REST-APIs können Sie Ihren Anwendungen, Tools und Geräten komfortabel mit Sprachfunktionen ausstatten.It's easy to speech enable your applications, tools, and devices with the Speech SDK, Speech Devices SDK, or REST APIs.

Wichtig

Speech-Dienste haben die Bing-Spracheingabe-API sowie Sprachübersetzung und Custom Speech abgelöst.Speech Services have replaced Bing Speech API, Translator Speech, and Custom Speech. Eine Migrationsanleitung finden Sie unter Anleitungen > Migration.See How-to guides > Migration for migration instructions.

Die Azure Speech-Dienste umfassen folgende Features.These features make up the Azure Speech Services. Verwenden Sie die Links in der Tabelle, um weitere Informationen zu gängigen Anwendungsfällen für das jeweilige Feature zu erhalten oder sich die API-Referenz anzusehen.Use the links in this table to learn more about common use cases for each feature or browse the API reference.

DienstService FeatureFeature BESCHREIBUNGDescription SDKSDK RESTREST
SpracherkennungSpeech-to-Text SpracherkennungSpeech-to-text Die Spracherkennung wandelt Audiodatenströme in Echtzeit in Text um, der von Ihren Anwendungen, Tools oder Geräten genutzt oder angezeigt werden kann.Speech-to-text transcribes audio streams to text in real time that your applications, tools, or devices can consume or display. In Kombination mit Language Understanding (LUIS) können Sie Benutzerabsichten aus transkribierter Sprache ableiten und auf Sprachbefehle reagieren.Use speech-to-text with Language Understanding (LUIS) to derive user intents from transcribed speech and act on voice commands. JaYes JaYes
Batch-TranskriptionBatch Transcription Die Batch-Transkription ermöglicht eine asynchrone Spracherkennung/Transkription großer Datenmengen.Batch transcription enables asynchronous speech-to-text transcription of large volumes of data. Dieser REST-basierte Dienst verwendet den gleichen Endpunkt wie die Anpassung und Modellverwaltung.This is a REST-based service, which uses same endpoint as customization and model management. NeinNo JaYes
UnterhaltungstranskriptionConversation Transcription Dieser Dienst ermöglicht Spracherkennung, Sprecheridentifikation und Diarisierung in Echtzeit.Enables real-time speech recognition, speaker identification, and diarization. Er eignet sich optimal für das Transkribieren persönlicher Besprechungen, wobei zwischen Sprechern unterschieden werden kann.It's perfect for transcribing in-person meetings with the ability to distinguish speakers. JaYes NeinNo
Erstellen von benutzerdefinierten SprachmodellenCreate Custom Speech Models Wenn Sie die Spracherkennung für die Erkennung und Transkription in einer individuellen Umgebung verwenden, können Sie benutzerdefinierte Akustik-, Sprach- und Aussprachemodelle erstellen, um Umgebungsgeräusche zu kompensieren oder branchenspezifisches Vokabular zu berücksichtigen.If you are using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary. NeinNo JaYes
Text-zu-SpracheText-to-Speech Text-zu-SpracheText-to-speech Die Sprachsynthese konvertiert Eingabetext mithilfe von Speech Synthesis Markup Language (SSML) in menschenähnliche synthetische Sprache.Text-to-speech converts input text into human-like synthesized speech using Speech Synthesis Markup Language (SSML). Sie haben die Wahl zwischen Standardstimmen und neuronalen Stimmen. (Weitere Informationen finden Sie unter Sprach- und Regionsunterstützung für die API für den Spracherkennungsdienst.)Choose from standard voices and neural voices (see Language support). JaYes JaYes
Erstellen benutzerdefinierter StimmenCreate Custom Voices Erstellen Sie spezielle benutzerdefinierte Voicefonts für Ihre Marke oder Ihr Produkt.Create custom voice fonts unique to your brand or product. NeinNo JaYes
SprachübersetzungSpeech Translation SprachübersetzungSpeech translation Die Sprachübersetzung ermöglicht Echtzeitübersetzungen in mehreren Sprachen für Ihre Anwendungen, Tools und Geräte.Speech translation enables real-time, multi-language translation of speech to your applications, tools, and devices. Verwenden Sie diesen Dienst für die Übersetzung von Sprache in Sprache und Sprache in Text.Use this service for speech-to-speech and speech-to-text translation. JaYes NeinNo
SprachassistentenVoice assistants SprachassistentenVoice assistants Sprachassistenten, die Azure Speech-Dienste verwenden, ermöglichen es Entwicklern, natürliche, menschenähnliche Konversationsschnittstellen für ihre Anwendungen und Umgebungen zu erstellen.Voice assistants using Azure Speech Services empower developers to create natural, human-like conversational interfaces for their applications and experiences. Der Dienst für Sprachassistenten ermöglicht eine schnelle und zuverlässige Interaktion zwischen einem Gerät und einer Assistentenimplementierung über den Direct Line Speech-Kanal des Bot-Frameworks oder über benutzerdefinierte Befehle (Vorschauversion) für die Aufgabenausführung.The voice assistant service provides fast, reliable interaction between a device and an assistant implementation that uses the Bot Framework's Direct Line Speech channel or the integrated Custom Commands (Preview) service for task completion. JaYes NeinNo

Neuigkeiten und AktualisierungenNews and updates

Hier finden Sie Neuigkeiten im Zusammenhang mit den Azure Speech-Diensten.Learn what's new with the Azure Speech Services.

Ausprobieren der Speech-DiensteTry Speech Services

Wir stellen Schnellstartanleitungen für die gängigsten Programmiersprachen bereit. Diese sind jeweils so konzipiert, dass Sie in weniger als zehn Minuten über ausführbaren Code verfügen.We offer quickstarts in most popular programming languages, each designed to have you running code in less than 10 minutes. Die folgende Tabelle enthält die beliebtesten Schnellstartanleitungen für die einzelnen Features.This table contains the most popular quickstarts for each feature. Über die Navigationsleiste auf der linken Seite gelangen Sie auf Wunsch zu weiteren Programmiersprachen und Plattformen.Use the left-hand navigation to explore additional languages and platforms.

Spracherkennung (SDK)Speech-to-text (SDK) Sprachsynthese (SDK)Text-to-Speech (SDK) Übersetzung (SDK)Translation (SDK)
Erkennen von Sprache aus einer AudiodateiRecognize speech from an audio file Synthetisieren von Sprache in eine AudiodateiSynthesize speech into an audio file Übersetzen von gesprochener Sprache in TextTranslate speech to text
Erkennen von Sprache mit einem MikrofonRecognize speech with a microphone Synthetisieren von Sprache über einen LautsprecherSynthesize speech to a speaker Übersetzen von Sprache in mehrere ZielsprachenTranslate speech to multiple target languages
Erkennen von Sprache aus einem BlobspeicherRecognize speech stored in blob storage Asynchrone Synthese für lange AudioinhalteAsync synthesis for long-form audio Übersetzen von Sprache in SpracheTranslate speech-to-speech

Hinweis

Spracherkennung und Sprachsynthese verfügen ebenfalls über REST-Endpunkte und die zugehörigen Schnellstartanleitungen.Speech-to-text and text-to-speech also have REST endpoints and associated quickstarts.

Nachdem Sie Gelegenheit hatten, die Speech-Dienste zu verwenden, erfahren Sie in unserem Tutorial, wie Sie mithilfe des Speech SDK und LUIS Absichten in gesprochener Sprache erkennen.After you've had a chance to use the Speech Services, try our tutorial that teaches you how to recognize intents from speech using the Speech SDK and LUIS.

Abrufen des BeispielcodesGet sample code

Auf GitHub steht Beispielcode für jeden der Azure Speech-Dienste zur Verfügung.Sample code is available on GitHub for each of the Azure Speech Services. In den Beispielen werden gängige Szenarien wie etwa das Lesen von Audiodaten aus einer Datei oder einem Stream, die kontinuierliche und einmalige Erkennung oder die Verwendung benutzerdefinierter Modelle behandelt.These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition, and working with custom models. Über die folgenden Links gelangen Sie zu den SDK- und REST-Beispielen:Use these links to view SDK and REST samples:

Anpassen der Speech-FunktionenCustomize your speech experience

Die Azure Speech-Dienste funktionieren bestens mit integrierten Modellen, können auf Wunsch aber auch speziell für Ihr Produkt oder Ihre Umgebung angepasst und optimiert werden.Azure Speech Services works well with built-in models, however, you may want to further customize and tune the experience for your product or environment. Die Anpassungsoptionen reichen von der Feinabstimmung des Akustikmodells bis hin zu individuellen Voicefonts für Ihre Marke.Customization options range from acoustic model tuning to unique voice fonts for your brand. Nachdem Sie ein benutzerdefiniertes Modell erstellt haben, können Sie es mit allen Azure Speech-Diensten verwenden.After you've built a custom model, you can use it with any of the Azure Speech Services.

SpracherkennungsdienstSpeech Service PlattformPlatform BESCHREIBUNGDescription
SpracherkennungSpeech-to-Text Custom Speech ServiceCustom Speech Passen Sie Spracherkennungsmodelle an Ihre Anforderungen und verfügbaren Daten an.Customize speech recognition models to your needs and available data. Überwinden Sie Grenzen der Spracherkennung wie z. B. Sprachstil, Vokabular und Hintergrundgeräusche.Overcome speech recognition barriers such as speaking style, vocabulary and background noise.
SprachsyntheseText-to-Speech Custom VoiceCustom Voice Erstellen Sie mit Ihren verfügbaren Sprachdaten eine erkennbare, einzigartige Stimme für Ihre Sprachsynthese-Apps.Build a recognizable, one-of-a-kind voice for your Text-to-Speech apps with your speaking data available. Sie können die Sprachausgaben weiter optimieren, indem Sie eine Reihe von Sprachparametern anpassen.You can further fine-tune the voice outputs by adjusting a set of voice parameters.

ReferenzReference docs

Nächste SchritteNext steps