Worum handelt es sich beim Speech-Dienst?What is the Speech service?

Der Speech-Dienst dient zur Vereinheitlichung von Spracherkennung, Sprachsynthese und Sprachübersetzung in einem einzelnen Azure-Abonnement.The Speech service is the unification of speech-to-text, text-to-speech, and speech-translation into a single Azure subscription. Über die Speech-Befehlszeilenschnittstelle, das Speech SDK, das Speech Devices SDK, Speech Studio oder REST-APIs können Sie Ihre Anwendungen, Tools und Geräten komfortabel mit Sprachfunktionen ausstatten.It's easy to speech enable your applications, tools, and devices with the Speech CLI, Speech SDK, Speech Devices SDK, Speech Studio, or REST APIs.

Wichtig

Der Speech-Dienst hat die Bing-Spracheingabe-API sowie die Sprachübersetzung abgelöst.The Speech service has replaced Bing Speech API and Translator Speech. Eine Migrationsanleitung finden Sie unter Anleitungen > Migration.See How-to guides > Migration for migration instructions.

Die folgenden Features sind Teil des Speech-Diensts.The following features are part of the Speech service. Verwenden Sie die Links in der Tabelle, um weitere Informationen zu gängigen Anwendungsfällen für das jeweilige Feature zu erhalten oder sich die API-Referenz anzusehen.Use the links in this table to learn more about common use-cases for each feature, or browse the API reference.

DienstService FunktionFeature BESCHREIBUNGDescription SDKSDK RESTREST
SpracherkennungSpeech-to-Text Spracherkennung in EchtzeitReal-time Speech-to-text Bei der Spracherkennung werden Sie Audiodatenströme oder lokale Dateien in Echtzeit in Text umgewandelt oder übersetzt, der von Ihren Anwendungen, Tools oder Geräten genutzt oder angezeigt werden kann.Speech-to-text transcribes or translates audio streams or local files to text in real time that your applications, tools, or devices can consume or display. In Kombination mit Language Understanding (LUIS) können Sie Benutzerabsichten aus transkribierter Sprache ableiten und auf Sprachbefehle reagieren.Use speech-to-text with Language Understanding (LUIS) to derive user intents from transcribed speech and act on voice commands. JaYes JaYes
Batch-SpracherkennungBatch Speech-to-Text Die Batch-Spracherkennung ermöglicht die asynchrone Spracherkennungstranskription großer Mengen von in Azure Blob Storage gespeicherten Sprachaudiodaten.Batch Speech-to-text enables asynchronous speech-to-text transcription of large volumes of speech audio data stored in Azure Blob Storage. Außer der Konvertierung von Sprachaudiodaten in Text sind mit der Batch-Spracherkennung auch die Diarisierung und Stimmungsanalyse möglich.In addition to converting speech audio to text, Batch Speech-to-text also allows for diarization and sentiment-analysis. NeinNo JaYes
Konversation mit mehreren GerätenMulti-device Conversation Verbinden Sie mehrere Geräte oder Clients in einer Konversation, um sprach- oder textbasierte Nachrichten mit einfacher Unterstützung von Transkription und Übersetzung zu senden.Connect multiple devices or clients in a conversation to send speech- or text-based messages, with easy support for transcription and translation JaYes NeinNo
UnterhaltungstranskriptionConversation Transcription Dieser Dienst ermöglicht Spracherkennung, Sprecheridentifikation und Diarisierung in Echtzeit.Enables real-time speech recognition, speaker identification, and diarization. Er eignet sich optimal für das Transkribieren persönlicher Besprechungen, wobei zwischen Sprechern unterschieden werden kann.It's perfect for transcribing in-person meetings with the ability to distinguish speakers. JaYes NeinNo
Erstellen von benutzerdefinierten SprachmodellenCreate Custom Speech Models Wenn Sie die Spracherkennung für die Erkennung und Transkription in einer individuellen Umgebung verwenden, können Sie benutzerdefinierte Akustik-, Sprach- und Aussprachemodelle erstellen, um Umgebungsgeräusche zu kompensieren oder branchenspezifisches Vokabular zu berücksichtigen.If you are using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary. NeinNo JaYes
Text-zu-SpracheText-to-Speech Text-zu-SpracheText-to-speech Die Sprachsynthese konvertiert Eingabetext mithilfe von Speech Synthesis Markup Language (SSML) in menschenähnliche synthetische Sprache.Text-to-speech converts input text into human-like synthesized speech using Speech Synthesis Markup Language (SSML). Sie haben die Wahl zwischen Standardstimmen und neuronalen Stimmen. (Weitere Informationen finden Sie unter Sprach- und Regionsunterstützung für die API für den Spracherkennungsdienst.)Choose from standard voices and neural voices (see Language support). JaYes JaYes
Erstellen benutzerdefinierter StimmenCreate Custom Voices Erstellen Sie spezielle benutzerdefinierte Voicefonts für Ihre Marke oder Ihr Produkt.Create custom voice fonts unique to your brand or product. NeinNo JaYes
SprachübersetzungSpeech Translation SprachübersetzungSpeech translation Die Sprachübersetzung ermöglicht Echtzeitübersetzungen in mehreren Sprachen für Ihre Anwendungen, Tools und Geräte.Speech translation enables real-time, multi-language translation of speech to your applications, tools, and devices. Verwenden Sie diesen Dienst für die Übersetzung von Sprache in Sprache und Sprache in Text.Use this service for speech-to-speech and speech-to-text translation. JaYes NeinNo
SprachassistentenVoice assistants SprachassistentenVoice assistants Sprachassistenten, die den Speech-Dienst verwenden, ermöglichen es Entwicklern, natürliche Konversationsschnittstellen für ihre Anwendungen und Umgebungen zu erstellen, die der menschlichen Sprache nahekommen.Voice assistants using the Speech service empower developers to create natural, human-like conversational interfaces for their applications and experiences. Der Dienst für Sprachassistenten ermöglicht eine schnelle und zuverlässige Interaktion zwischen einem Gerät und einer Assistentenimplementierung über den Direct Line Speech-Kanal des Bot-Frameworks oder über benutzerdefinierte Befehle (Vorschauversion) für die Aufgabenausführung.The voice assistant service provides fast, reliable interaction between a device and an assistant implementation that uses the Bot Framework's Direct Line Speech channel or the integrated Custom Commands (Preview) service for task completion. JaYes NeinNo
SprechererkennungSpeaker Recognition Sprecherüberprüfung und -identifikationSpeaker verification & identification Der Dienst „Sprechererkennung“ bietet Algorithmen, mit denen Sprecher anhand ihrer individuellen Stimmmerkmale überprüft und identifiziert werden.The Speaker Recognition service provides algorithms that verify and identify speakers by their unique voice characteristics. Sprechererkennung wird verwendet, um herauszufinden, wer spricht.Speaker Recognition is used to answer the question “who is speaking?”. JaYes JaYes

Wichtig

TLS 1.2 wird nun für alle HTTP-Anforderungen erzwungen, die an diesen Dienst gerichtet werden.TLS 1.2 is now enforced for all HTTP requests to this service. Weitere Informationen finden Sie unter Sicherheit von Azure Cognitive Services.For more information, see Azure Cognitive Services security.

Kostenloses Testen des Speech-DienstsTry the Speech service for free

Für die folgenden Schritte benötigen Sie ein Microsoft-Konto und ein Azure-Konto.For the following steps, you need both a Microsoft account and an Azure account. Wenn Sie kein Microsoft-Konto besitzen, können Sie sich kostenlos im Microsoft-Kontoportal registrieren.If you do not have a Microsoft account, you can sign up for one free of charge at the Microsoft account portal. Wählen Sie Mit Microsoft anmelden und dann Microsoft-Konto erstellen aus, wenn Sie zur Anmeldung aufgefordert werden.Select Sign in with Microsoft and then, when asked to sign in, select Create a Microsoft account. Führen Sie die Schritte zum Erstellen und Überprüfen Ihres neuen Microsoft-Kontos aus.Follow the steps to create and verify your new Microsoft account.

Wenn Sie ein Microsoft-Konto besitzen, navigieren Sie zur Azure-Registrierungsseite, wählen Sie Kostenlos starten aus, und erstellen Sie ein neues Azure-Konto mithilfe Ihres Microsoft-Kontos.Once you have a Microsoft account, go to the Azure sign-up page, select Start free, and create a new Azure account using a Microsoft account.

Hinweis

Der Speech-Dienst weist die beiden Dienstebenen „Free“ und „Abonnement“ auf, die mit unterschiedlichen Einschränkungen und Vorteilen verbunden sind.The Speech service has two service tiers: free and subscription, which have different limitations and benefits. Wenn Sie sich für ein kostenloses Azure-Konto registrieren, beinhaltet dieses ein Guthaben von 200 USD, das Sie bis zu 30 Tage lang auf ein kostenpflichtiges Abonnement für den Speech-Dienst anwenden können.When you sign up for a free Azure account it comes with $200 in service credit that you can apply toward a paid Speech service subscription, valid for up to 30 days.

Wenn Sie die Dienstebene „Free“ des Speech-Dienst für kleine Datenmengen verwenden, können Sie dieses kostenlose Abonnement auch nach Ablauf Ihrer kostenlosen Testversion oder Ihres Dienstguthabens weiterhin nutzen.If you use the free, low-volume Speech service tier you can keep this free subscription even after your free trial or service credit expires.

Weitere Informationen finden Sie unter Cognitive Services-Preise: Speech-Dienst.For more information, see Cognitive Services pricing - Speech service.

Erstellen der Azure-RessourceCreate the Azure resource

Gehen Sie wie folgt vor, um Ihrem Azure-Konto eine Ressource des Sprachdiensts (kostenloser oder kostenpflichtiger Tarif) hinzuzufügen.To add a Speech service resource (free or paid tier) to your Azure account:

  1. Melden Sie sich mit Ihrem Microsoft-Konto am Azure-Portal an.Sign in to the Azure portal using your Microsoft account.

  2. Wählen Sie links oben im Portal die Option Ressource erstellen aus.Select Create a resource at the top left of the portal. Wird Ressource erstellen nicht angezeigt, finden Sie die Option jederzeit durch Auswählen des reduzierten Menüs in der linken oberen Bildschirmecke:If you do not see Create a resource, you can always find it by selecting the collapsed menu in the upper left corner of the screen.

  3. Geben Sie im Fenster Neu die Zeichenfolge „Speech“ in das Suchfeld ein, und drücken Sie die EINGABETASTE.In the New window, type "speech" in the search box and press ENTER.

  4. Wählen Sie in den Suchergebnissen Sprache aus.In the search results, select Speech.

    Suchergebnisse für „Speech“

  5. Wählen Sie Erstellen aus, und führen Sie dann folgende Schritte aus:Select Create, then:

    • Geben Sie der neuen Ressource einen eindeutigen Namen.Give a unique name for your new resource. Über den Namen können Sie zwischen mehreren Abonnements unterscheiden, die für denselben Dienst gelten.The name helps you distinguish among multiple subscriptions tied to the same service.
    • Wählen Sie das Azure-Abonnement aus, dem die neue Ressource zugeordnet ist, um zu bestimmen, wie die Gebühren berechnet werden.Choose the Azure subscription that the new resource is associated with to determine how the fees are billed.
    • Wählen Sie die Region aus, in der die Ressource verwendet wird.Choose the region where the resource will be used.
    • Wählen Sie einen kostenlosen (F0) oder einen kostenpflichtigen (S0) Tarif aus.Choose either a free (F0) or paid (S0) pricing tier. Wählen Sie Alle Preisinformationen anzeigen aus, um vollständige Informationen zu Preisen und Verwendungskontingenten für die einzelnen Tarife zu erhalten.For complete information about pricing and usage quotas for each tier, select View full pricing details. Informationen zu den Grenzwerten für Ressourcen, die Sie für die einzelnen Abonnements erstellen können, finden Sie unter Grenzwerte für Azure Cognitive Services.For limits on resources you can create for each subscription, see Azure Cognitive Services Limits.
    • Erstellen Sie eine neue Ressourcengruppe für dieses Abonnement für den Sprachdienst, oder weisen Sie das Abonnement einer vorhandenen Ressourcengruppe zu.Create a new resource group for this Speech subscription or assign the subscription to an existing resource group. Anhand von Ressourcengruppen können Sie Ihre verschiedenen Azure-Abonnements organisieren.Resource groups help you keep your various Azure subscriptions organized.
    • Klicken Sie auf Erstellen.Select Create. Dadurch gelangen Sie zur Bereitstellungsübersicht, in der Statusmeldungen zur Bereitstellung angezeigt werden.This will take you to the deployment overview and display deployment progress messages.

Es dauert einen Moment, bis die neue Speech-Ressource bereitgestellt wird.It takes a few moments to deploy your new Speech resource. Wählen Sie nach Abschluss der Bereitstellung Zu Ressource wechseln und dann im linken Navigationsbereich Schlüssel aus, um Ihre Abonnementschlüssel für den Speech-Dienst anzuzeigen.Once deployment is complete, select Go to resource and in the left navigation pane select Keys to display your Speech service subscription keys. Jedem Abonnement sind zwei Schlüssel zugewiesen. Sie können jeden dieser Schlüssel in Ihrem Abonnement verwenden.Each subscription has two keys; you can use either key in your application. Um schnell einen Schlüssel zu kopieren und in Ihrem Code-Editor oder an einem anderen Speicherort einzufügen, wählen Sie die Schaltfläche „Kopieren“ neben dem Schlüssel aus, wechseln Sie das Fenster, und fügen Sie den Inhalt der Zwischenablage an der gewünschten Stelle einTo quickly copy/paste a key to your code editor or other location, select the copy button next to each key, switch windows to paste the clipboard contents to the desired location.

Wichtig

Diese Abonnementschlüssel werden für den Zugriff auf Ihre Cognitive Service-API verwendet.These subscription keys are used to access your Cognitive Service API. Geben Sie Ihre Schlüssel nicht weiter.Do not share your keys. Speichern Sie diese sicher, z. B. mit Azure Key Vault.Store them securely– for example, using Azure Key Vault. Es wird außerdem empfohlen, diese Schlüssel regelmäßig neu zu generieren.We also recommend regenerating these keys regularly. Für einen API-Aufruf ist nur ein Schlüssel erforderlich.Only one key is necessary to make an API call. Beim erneuten Generieren des ersten Schlüssels können Sie den zweiten Schlüssel für kontinuierlichen Zugriff auf den Dienst verwenden.When regenerating the first key, you can use the second key for continued access to the service.

Abschließen einer SchnellstartanleitungComplete a quickstart

Wir stellen Schnellstartanleitungen für die gängigsten Programmiersprachen bereit. Diese enthalten Informationen zu grundlegenden Entwurfsmustern und sind jeweils so konzipiert, dass Sie in weniger als zehn Minuten über ausführbaren Code verfügen.We offer quickstarts in most popular programming languages, each designed to teach you basic design patterns, and have you running code in less than 10 minutes. Die folgende Liste enthält Schnellstartanleitungen zu jedem Feature:See the following list for the quickstart for each feature.

Nachdem Sie Gelegenheit hatten, erste Schritte mit dem Speech-Dienst auszuführen, erfahren Sie in unseren Tutorials mehr zu verschiedenen Szenarien.After you've had a chance to get started with the Speech service, try our tutorials that show you how to solve various scenarios.

Abrufen des BeispielcodesGet sample code

Beispielcode für den Speech-Dienst finden Sie auf GitHub.Sample code is available on GitHub for the Speech service. In den Beispielen werden gängige Szenarios wie etwa das Lesen von Audiodaten aus einer Datei oder einem Stream, die kontinuierliche und einmalige Erkennung oder die Verwendung benutzerdefinierter Modelle behandelt.These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition, and working with custom models. Über die folgenden Links gelangen Sie zu den SDK- und REST-Beispielen:Use these links to view SDK and REST samples:

Anpassen der Speech-FunktionenCustomize your speech experience

Der Speech-Dienst funktioniert bestens mit integrierten Modellen, können auf Wunsch aber auch speziell für Ihr Produkt oder Ihre Umgebung angepasst und optimiert werden.The Speech service works well with built-in models, however, you may want to further customize and tune the experience for your product or environment. Die Anpassungsoptionen reichen von der Feinabstimmung des Akustikmodells bis hin zu individuellen Voicefonts für Ihre Marke.Customization options range from acoustic model tuning to unique voice fonts for your brand.

Andere Produkte bieten Sprachmodelle, die für bestimmte Zwecke wie Gesundheits- oder Versicherungswesen optimiert sind, aber für alle gleichermaßen verfügbar sind.Other products offer speech models tuned for specific purposes like healthcare or insurance, but are available to everyone equally. Durch die Anpassung in Azure Speech haben Sie einen einzigartigen Wettbewerbsvorteil, der für andere Benutzer oder Kunden nicht verfügbar ist.Customization in Azure Speech becomes part of your unique competitive advantage that is unavailable to any other user or customer. Anders ausgedrückt: Ihre Modelle sind privat und nur an Ihren Anwendungsfall angepasst.In other words, your models are private and custom-tuned for your use-case only.

SpracherkennungsdienstSpeech Service PlattformPlatform BESCHREIBUNGDescription
SpracherkennungSpeech-to-Text Custom Speech ServiceCustom Speech Passen Sie Spracherkennungsmodelle an Ihre Anforderungen und verfügbaren Daten an.Customize speech recognition models to your needs and available data. Überwinden Sie Grenzen der Spracherkennung wie z. B. Sprachstil, Vokabular und Hintergrundgeräusche.Overcome speech recognition barriers such as speaking style, vocabulary and background noise.
SprachsyntheseText-to-Speech Custom VoiceCustom Voice Erstellen Sie mit Ihren verfügbaren Sprachdaten eine erkennbare, einzigartige Stimme für Ihre Sprachsynthese-Apps.Build a recognizable, one-of-a-kind voice for your Text-to-Speech apps with your speaking data available. Sie können die Sprachausgaben weiter optimieren, indem Sie eine Reihe von Sprachparametern anpassen.You can further fine-tune the voice outputs by adjusting a set of voice parameters.

ReferenzReference docs

Nächste SchritteNext steps