Usługi mowy

Mowa

Pomysł na rozwiązanie

Jeśli chcesz, abyśmy rozszerzyli ten artykuł o więcej informacji, takich jak potencjalne przypadki użycia, alternatywne usługi, zagadnienia dotyczące implementacji lub wskazówki dotyczące cen, daj nam znać, GitHub opinie!

Dzięki usługom Speech Services można łatwo transkrybować każde wywołanie. Indeksowanie transkrypcji wcelu wyszukiwania pełno tekstowego lub stosowanie analiza tekstu do wykrywania tonacji, języka i kluczowych fraz w celu wglądu w szczegółowe dane. Jeśli nagrania z centrów telefonicznej obsługi klienta obejmują wyspecjalizowaną terminologię, taką jak nazwy produktów lub żargon IT, utwórz niestandardowy model językowy, aby nauczyć usługi Speech Services słownictwa. Niestandardowy model akustyczny pomaga usługom Speech Services zrozumieć osoby mówiące nawet w przypadku szumu w tle lub słabych połączeń telefonicznych.

Aby uzyskać więcej informacji, przeczytaj, jak transkrypcja wsadowa współpracuje z usługami Speech Services.

Architektura

Diagram architektury Pobierz format SVG tej architektury.

Przepływ danych

  1. Dostosowanie modelu do domeny i wdrożenie tego modelu
  2. Upload nagrań do kontenera obiektów blob
  3. Tworzenie żądania POST do transkrypcji wsadowej
  4. Usługi Speech Services planuje zadanie transkrypcji
  5. Pliki Stereo są podzielone na dwa kanały
  6. Pliki mono są poddawane diaryzacji w celu rozróżnienia między prelegentami
  7. Pobieranie transkrypcji przy użyciu identyfikatora transkrypcji

Składniki

Następne kroki