Speech CLI とは

Speech CLI は、コードを記述せずに Speech サービスを使用するためのコマンドライン ツールです。 Speech CLI には、最小限の設定が必要です。 この CLI は使用が簡単で、Speech サービスの主要な機能を試し、ユースケースでどのように動作するかを確認できます。 ファイルのディレクトリからのバッチ音声認識、ファイルからの文字列のコレクションのテキスト読み上げなどのシンプルなテスト ワークフローを数分以内に実行できます。 Speech CLI は、シンプルなワークフロー以外にも、実稼働で使用する準備ができており、自動化された .bat またはシェル スクリプトを使用して、より大きなプロセスを実行するようにスケールアップできます。

Speech SDK の主な機能は、Speech CLI で利用できます。また、Speech CLI では、一部の高度な機能とカスタマイズが簡略化されています。 Speech CLI または Speech SDK のどちらを使用するかを決定する際には、次のガイダンスを考慮してください。

Speech CLI を使用する場合

  • 最小限の設定で、コードを記述せずに、Speech サービスの機能を実験する必要があります。
  • Speech サービスを使用する運用アプリケーションの要件が比較的簡単です。

Speech SDK を使用する場合

  • 特定の言語またはプラットフォーム (C#、Python、C++ など) で、Speech サービスの機能を統合する必要があります。
  • 高度なサービス要求が必要となる可能性がある複雑な要件があります。
  • 応答ストリーミングなどのカスタム動作を開発しています。

コア機能

  • 音声認識: 音声ファイルから、またはマイクからの直接のいずれかの音声テキスト変換、または記録された会話の書き起こしを行います。

  • 音声合成: - テキスト ファイルからの入力、またはコマンド ラインから直接入力のいずれかを使用して、テキスト読み上げの変換を行います。 音声合成マークアップ言語 (SSML) 構成を使用して、音声出力の特性をカスタマイズします。

  • 音声翻訳: ソース言語の音声をターゲット言語のテキストまたは音声に翻訳します。

  • Azure コンピューティング リソースで実行する: - spx webjob を使用して、Azure リモート コンピューティング リソースで実行する Speech CLI コマンドを送信します。

はじめに

Speech CLI の使用を開始するには、クイックスタートを参照してください。 この記事では、いくつかの基本的なコマンドを実行する方法について取り上げています。 また、音声テキスト変換やテキスト読み上げのためにバッチ操作を実行するための、より高度なコマンドも示しています。 この基本的な記事を読んだ後、カスタム コマンドの作成を開始したり、単純な Speech サービス操作を自動化したりすることができる構文を理解する必要があります。

次のステップ