Spracherkennungsdienste

Spracheingabe/-ausgabe

Lösungsidee

Wenn Sie möchten, dass wir diesen Artikel durch weitere Informationen, Implementierungsdetails, Preisinformationen oder Codebeispiele ergänzen, kontaktieren Sie uns über GitHub-Feedback.

Mit Spracherkennungsdiensten lässt sich jeder Anruf einfach transkribieren. Indizieren Sie die Transkription für die Volltextsuche, oder wenden Sie Textanalyse an, um die Stimmung, die Sprache und Schlüsselausdrücke zu erkennen. Wenn Ihre Callcenteraufzeichnungen spezielle Terminologie (beispielsweise Produktnamen oder IT-Jargon) enthalten, können Sie ein benutzerdefiniertes Sprachmodell erstellen, um den Spracherkennungsdiensten dieses Vokabular beizubringen. Ein benutzerdefiniertes Akustikmodell unterstützt die Spracherkennungsdienste bei der Spracherkennung, auch bei Hintergrundgeräuschen oder schlechten Telefonverbindungen.

Weitere Informationen finden Sie in der Beschreibung der Batch-Transkription mit Spracherkennungsdiensten.

Aufbau

Architekturdiagramm Laden Sie eine SVG-Datei für diese Architektur herunter.

Datenfluss

  1. Passen Sie das Modell für Ihren Bereich an, und stellen Sie es bereit.
  2. Laden Sie die Aufzeichnungen in einen Blobcontainer hoch.
  3. Erstellen Sie eine POST-Anforderung für die Batch-Transkription.
  4. Der Transkriptionsauftrag wird von den Spracherkennungsdiensten geplant.
  5. Stereodateien werden in zwei Kanäle aufgeteilt.
  6. Monodateien werden diarisiert, um Sprecher zu unterscheiden.
  7. Laden Sie die Aufzeichnung mithilfe der Aufzeichnungs-ID herunter.

Komponenten

Nächste Schritte