Speech Services

音声

ソリューションのアイデア

さらなる情報、実装の詳細、価格ガイダンス、コード例を追加してこの記事を拡張することをお望みの場合は、GitHub のフィードバックでご連絡ください。

Speech Services を使用すると、すべての通話を簡単に文字に起こすことができます。 全文検索用に文字起こしにインデックスを作成したり、Text Analytics を適用して分析情報を得るために、センチメント、言語、キー フレーズを検出したりします。 コール センターの録音に専門用語 (製品名や IT 用語など) が含まれる場合は、カスタム言語モデルを作成して Speech Services にそのボキャブラリを学習させます。 カスタム音響モデルを使用すると、バックグラウンド ノイズがある場合や電話の接続が悪い場合でも、Speech Services による話者の解釈がしやすくなります。

詳細については、Speech Services を使用したバッチ文字起こしのしくみに関する記事を参照してください。

Architecture

アーキテクチャ図 このアーキテクチャの SVG をダウンロードしてください。

Data Flow

  1. 対象分野にモデルを適応させて、そのモデルをデプロイします
  2. 録音を BLOB コンテナーにアップロードします
  3. 文字起こしをバッチ処理する POST 要求を作成します
  4. Speech Services で文字起こしジョブをスケジュール設定します
  5. ステレオ ファイルが 2 つのチャンネルに分割されます
  6. 話者を区別するために、モノラル ファイルのダイアライゼーションが行われます
  7. 文字起こし ID を使用して、文字起こしをダウンロードします

Components

次のステップ