Azure AI Video Indexer で言語モデルをカスタマイズする

[アーティクル]
03/23/2024

重要

Azure Media Services の提供終了の発表により、Azure AI Video Indexer は Azure AI Video Indexer の機能の調整を発表します。 Azure AI Video Indexer アカウントの意味を理解するには、Azure Media Service (AMS) の提供終了に関連する変更に関するページを参照してください。 AMS 提供終了の準備: VI の更新と移行に関するガイドを参照してください。

Azure AI Video Indexer は、Microsoft Custom Speech Service との統合を通して自動音声認識をサポートしています。適応テキストをアップロードすることで、言語モデルをカスタマイズできます。このテキストは、エンジンが適応するために使用するボキャブラリを持つ doメインから来ています。モデルをトレーニングすると、適応テキストに表示される新しい単語が認識され、既定の発音が想定され、言語モデルは単語の新しい可能性のあるシーケンスを学習します。サポートされている言語で Azure AI Video Indexer 言語のサポート対象の一覧を参照してください。

たとえば、 "Kubernetes" (Azure Kubernetes サービスのコンテキスト) は、非常に具体的な単語です。その単語は Azure AI Video Indexer にとって未知のものであるため、"コミュニティ" として認識されます。これが "Kubernetes" と認識されるようにモデルをトレーニングする必要があります。その他の場合、単語は存在していても、言語モデルはそれらの単語が特定のコンテキスト内に現れることを想定していません。たとえば、"コンテナーサービス" は、特殊化されていない言語モデルが特定の単語のセットとして認識する 2 語のシーケンスではありません。

言語モデルをカスタマイズする方法は 2 つあります。

オプション 1: Azure AI Video Indexer によって生成されたトランスクリプトを編集します。トランスクリプトを編集して修正することで言語モデルをトレーニングし、将来的に改善された結果を提供します。
オプション 2: テキストファイルをアップロードして言語モデルをトレーニングします。アップロードファイルには、Video Indexer トランスクリプトに含まれるようにしたい単語の一覧、または文や段落に自然に含まれる関連する単語のいずれかを含めることができます。後者の方法を使用するとより良い結果が得られるため、アップロードファイルに、コンテンツに関連する完全な文や段落を含めることをお勧めします。

重要

意図した影響が打ち消されることになるため、アップロードファイルには、現在誤って文字起こしされている単語や文 ("コミュニティ" など) を含めないでください。含まれるようにしたい単語のみを含めます ("Kubernetes" など)。

カスタム言語モデルのベストプラクティス

Azure AI Video Indexer は、単語の組み合わせの確率に基づいて学習するので、最適な学習を行うには、以下のようにします。

実際に話されるとおりの文例を十分に提供します。
各行には 1 つの文だけを配置します。多くてはいけません。そのようにしないと、システムでは複数の文にわたる確率が学習されます。
1 つの単語を文として配置し、特定の単語を他の単語よりも優先して学習させてもかまいませんが、システムが最適な学習を行うのは完全な文からです。
新しい単語や頭字語を導入するときには、可能であれば、できるだけ多くの使用例を完全な文で提供し、システムにできるだけ多くのコンテキストを提供します。
いくつかの適応オプションを試して、どのような結果が得られるかを確認します。
まったく同じ文を複数回繰り返すのは避けてください。それが、残りの入力に対して偏りを生む可能性があります。
一般的でない記号 (~、 # @ % > ) は含めないでくださいカード。それらが出現する文も破棄されます。
数十万の文など、大きすぎる入力を供給するとブースティングの効果が薄まるため、そうしないようにします。

Azure AI Video Indexer で言語モデルをカスタマイズする

カスタム言語モデルのベストプラクティス

フィードバック

フィードバック

その他のリソース

Azure AI Video Indexer で言語モデルをカスタマイズする

カスタム言語モデルのベスト プラクティス

フィードバック

フィードバック

その他のリソース

カスタム言語モデルのベストプラクティス