ディープ ラーニングを使用して NLP でコンテンツ タグを提案する

Azure Container Registry
Azure AI Search
Azure Kubernetes Service (AKS)
Azure Machine Learning

ソリューションのアイデア

このアーティクルはソリューションのアイデアです。 このコンテンツにさらに多くの情報 (想定されるユース ケース、代替サービス、実装に関する考慮事項、価格ガイダンスなど) の掲載をご希望の方は、GitHub のフィードバックでお知らせください。

この記事では、ディープ ラーニングと自然言語処理 (NLP) をサイト固有の検索語句のデータと組み合わせることにより、Microsoft AI を使用して Web サイトのコンテンツ タグ付け精度を向上させる方法について説明します。

アーキテクチャ

アーキテクチャ図: Azure Machine Learning を使用した Web サイトのコンテンツ タグの提案に関する概要。

このアーキテクチャの Visio ファイルをダウンロードします。

データフロー

  1. データは、元のソースに応じて、さまざまな形式で格納されています。 データは、Azure Data Lake Storage 内にファイルとして、あるいは Azure Synapse または Azure SQL Database に表形式で格納されている可能性があります。

  2. Azure Machine Learning (ML) は、このようなソースに接続してデータを読み取ることで、前処理、モデル トレーニング、後処理のために NLP パイプラインにデータを取り込むことができます。

  3. NLP の前処理には、テキストの一般化を目的として、データを使用するためのいくつかの手順が含まれています。 テキストが文に分割された後で、レンマ化やステミングなどの NLP 手法により、言語を一般的な形式でトークン化できます。

  4. NLP モデルは既に事前トレーニング済みで利用可能であるため、転送学習アプローチでは、言語固有の埋め込みをダウンロードし、多クラス テキスト分類用の業界標準モデル (BERT のバリエーションなど) を使用することが推奨されます。

  5. NLP の後処理では、モデル メトリックを追跡するために、モデルを Azure ML のモデル レジスタ内に格納することが推奨されます。 さらに、テキストは、ビジネス目標に基づいて、決定論的に定義された特定のビジネス ルールを使用して、後処理できます。 Microsoft では、倫理 AI ツールを使用して、偏見のある言語を検出することを推奨しています。これにより、言語モデルの公正なトレーニングが保証されます。

  6. モデルは、Azure Container Registry に格納されているイメージからコンテナーがデプロイされる Kubernetes マネージド クラスターを実行しながら、Azure Kubernetes Service を通じてデプロイできます。 エンドポイントをフロントエンド アプリケーションで使用できるようにすることができます。 モデルは、リアルタイム エンドポイントとして Azure Kubernetes Service を通じてデプロイできます。

  7. モデルの結果は、ファイル形式または表形式でストレージ オプションに書き込むことができ、その後、Azure Cognitive Search によって適切にインデックスを付けることができます。 モデルはバッチ推論として実行され、それぞれのデータストアに結果が格納されます。

コンポーネント

シナリオの詳細

ソーシャル サイト、フォーラム、その他のテキストの多い Q&A サービスはコンテンツのタグ付けに大きく依存しているため、優れたインデックス作成とユーザー検索が可能になります。 ただし、多くの場合、コンテンツのタグ付けはユーザーの裁量に任されています。 ユーザーは、一般的に検索される用語の一覧や、サイト構造に関する深い知識を持っていないため、コンテンツのラベル付けが間違っていることがよくあります。 誤ってラベル付けされたコンテンツは、後で必要になったときに見つけることが困難であるか、不可能です。

考えられるユース ケース

コンテンツのタグ付けに自然言語処理 (NLP) とディープ ラーニングを使用することで、コンテンツ全体でタグを作成するためのスケーラブルなソリューションを使用できるようになります。 ユーザーがキーワードを使用してコンテンツを検索するときには、この多クラス分類プロセスによって、タグ付けされていないコンテンツを強化するためにラベルが付けられます。これにより、テキストのかなりの部分を検索できるようになり、情報取得プロセスが向上します。 新しい受信コンテンツは、NLP 推論を実行することにより、適切にタグ付けされます。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパル作成者:

  • Louis Li | シニア カスタマー エンジニア

次のステップ

次の製品ドキュメントを参照してください。

次の Microsoft Learn モジュールをお試しください。

次の関連するアーキテクチャ記事を参照してください。