Arten von Sprach-API-Diensten

Sie können den Spracherkennungsdienst von Azure Cognitive Services verwenden, um Sprachtransformationen durchzuführen, einschließlich Spracherkennung, Sprachsynthese, Sprachübersetzung und Sprecher*innenerkennung.

Hinweis

Verwenden Sie Azure Cognitive Service für Language, wenn Sie Erkenntnisse zu Begriffen oder Ausdrücken sammeln oder eine detaillierte kontextbezogene Analyse der gesprochenen oder geschriebenen Sprache erhalten möchten.

Dienste

  • Sprache-in-Text kann Audiostreams in Echtzeit oder im Batch in Text konvertieren.
  • Mit Text-zu-Sprache können Anwendungen Text in menschenähnliche Sprache konvertieren.
  • Sprachübersetzung ermöglicht eine mehrsprachige Sprache-zu-Sprache- und eine Sprache-zu-Text-Übersetzung von Audiostreams.

Auswählen eines Sprachendiensts

Dieses Flussdiagramm kann Ihnen bei der Auswahl des Sprachendiensts helfen, der Ihren Anforderungen entspricht:

Diagramm, das zeigt, wie Sie einen Sprachendienst auswählen.

Die linke Seite des Diagramms veranschaulicht Audio-zu-Audio- oder Audio-zu-Text-Prozesse.

  • Die Spracherkennung wird verwendet, um Sprache von einer Audioquelle in ein Textformat zu konvertieren.
  • Spracherkennung wird verwendet, um Sprache in einer Sprache in eine andere Sprache zu übersetzen.

Die rechte Seite des Diagramms veranschaulicht Text-zu-Audio-Prozesse.

  • Text-in-Sprache wird verwendet, um gesprochene Audiodateien aus einer Textquelle zu erzeugen.

Gängige Anwendungsfälle

In der folgenden Tabelle werden Dienste für einige häufige Anwendungsfälle empfohlen.

Anwendungsfall Zu verwendender Dienst
Bereitstellen von Untertiteln für aufgezeichnete Videos oder Livevideos Spracherkennung
Erstellen eines Transkripts für ein Telefonat oder eine Besprechung Spracherkennung
Implementieren des automatisierten Notizendiktats Spracherkennung
Bestimmen der beabsichtigten Benutzereingabe für die weitere Verarbeitung Spracherkennung
Generieren von gesprochenen Antworten auf Benutzereingaben Text-zu-Sprache
Erstellen von Sprachmenüs für Telefonanlagen Text-zu-Sprache
Lautes Vorlesen von E-Mails oder SMS in Situationen, in denen Sie keine Hand frei haben Text-zu-Sprache
Übertragung von Ankündigungen an öffentlichen Orten wie Bahnhöfen oder Flughäfen Text-zu-Sprache
Erzeugen der Untertitelung in Echtzeit für eine Rede oder die gleichzeitige bidirektionale Übersetzung einer gesprochenen Konversation Spracherkennung

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautoren:

Andere Mitwirkende:

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Nächste Schritte