Custom Speech とは?

[アーティクル]
01/27/2024

Custom Speech を使用すると、アプリケーションや製品の音声認識の正確性を評価して改善できます。カスタム音声モデルは、リアルタイムの音声テキスト変換、音声翻訳、バッチ文字起こしに使用できます。

音声認識では、Microsoft が所有するデータを使用してトレーニングされ、一般的に使用される音声言語を反映する基本モデルとしてユニバーサル言語モデルが活用されます。面倒な設定はありません。この基本モデルは、さまざまな一般的なドメインを表す言語と発音を使用して事前にトレーニングされています。音声認識要求を行うと、既定では、サポートされている各言語の最新の基本モデルが使用されます。この基本モデルは、ほとんどの音声認識シナリオで適切に動作します。

カスタムモデルを使用すると、モデルをトレーニングするテキストデータを提供することによって、ベースモデルを拡張し、アプリケーションに特有のドメイン固有のボキャブラリの認識を向上させることができます。また、参照文字起こしを含むオーディオデータを提供することで、アプリケーションの特定のオーディオ条件に基づいた認識を改善する際にも使用できます。

また、データがパターンに従う場合に構造化テキストを使用してモデルをトレーニングし、カスタムの発音を指定したり、カスタムの逆テキスト正規化、カスタムの書き換え、カスタムの不適切表現のフィルター処理を使用して表示テキストのフォーマットをカスタマイズしたりすることができます。

それはどのように機能するのでしょうか。

Custom Speech を使用すると、独自データのアップロード、カスタムモデルのテストとトレーニング、モデル間での正確性の比較、カスタムエンドポイントへのモデルのデプロイを行うことができます。

Diagram that highlights the components that make up the custom speech area of the Speech Studio.

ここでは、上の図に示されている一連の手順について詳しく説明します。

プロジェクトを作成し、モデルを選択します。 Azure portal で作成する Speech リソースを使用します。オーディオデータを使用してカスタムモデルをトレーニングする場合は、オーディオデータのトレーニングに使用する専用ハードウェアがある Speech リソースリージョンを選択します。詳細については、リージョンテーブルの脚注を参照してください。
テストデータをアップロードする。テストデータをアップロードして、ご利用のアプリケーション、ツール、製品に使用する音声テキスト変換プランを評価します。
認識品質をテストする。 Speech Studio を使用して、アップロードした音声を再生し、テストデータの音声認識品質を調査します。
モデルを定量的にテストする。音声テキスト変換モデルの正確性を評価して改善します。 Speech サービスには、さらにトレーニングが必要かどうかを判定するために使用できる定量的なワードエラー率 (WER) が用意されています。
モデルをトレーニングします。書き込まれたトランスクリプトと関連するテキストを、対応するオーディオデータとともに提供します。トレーニング前後のモデルのテストは省略可能ですが、推奨されます。

Note

Custom Speech モデルの使用とエンドポイントホスティングには料金が発生します。基本モデルが 2023 年 10 月 1 日以降に作成された場合、Custom Speech モデルのトレーニングに対しても課金が行われます。基本モデルが 2023 年 10 月より前に作成された場合、トレーニングに対して課金は行われません。詳細については、「Azure AI 音声の価格」と音声テキスト変換 3.2 への移行ガイドの「適応の料金」セクションを参照してください。
モデルをデプロイします。テスト結果に問題がなければ、モデルをカスタムエンドポイントにデプロイします。バッチ文字起こしを除き、Custom Speech モデルを使用するには、カスタムエンドポイントをデプロイする必要があります。

ヒント

バッチ文字起こし API で Custom Speech を使用するには、ホストされたデプロイエンドポイントは必要ありません。 Custom Speech モデルがバッチ文字起こしにのみ使用される場合は、リソースを節約できます。詳細については、「Speech Services の価格」を参照してください。

責任ある AI

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それがデプロイされる環境も含まれます。「透過性のためのメモ」を読み、システムでの責任ある AI の使用とデプロイについて確認してください。

Custom Speech とは?

それはどのように機能するのでしょうか。

責任ある AI

次のステップ

その他のリソース