モデルカタログとコレクション

[アーティクル]
05/11/2024

Azure Machine Learning スタジオのモデルカタログは、生成 AI アプリケーションを構築できるさまざまなモデルを検出して使用するためのハブです。モデルカタログには、Azure OpenAI Service、Mistral、Meta、Cohere、Nvidia、Hugging Face などのモデルプロバイダー間で、Microsoft によってトレーニングされたモデルを含む数百のモデルが備わっています。 Microsoft 以外のプロバイダーのモデルは、Microsoft の製品使用条件で定義されるとおり、Microsoft 以外の製品であり、そのモデルで提供される条件に従います。

モデルコレクション

モデルは、モデルカタログ内のコレクション別に編成されます。モデルカタログには、次の 3 種類のコレクションがあります。

Azure AI によってキュレーションされたモデル: Azure AI プラットフォーム上でシームレスに動作するようにパッケージ化および最適化された、最も一般的なサードパーティ製のオープンウェイトモデルと適性モデル。これらのモデルの使用は、モデルに付属するモデルプロバイダーのライセンス条項に従います。 Azure Machine Learning にデプロイすると、モデルの可用性は該当する Azure SLA の対象となり、Microsoft はデプロイの問題のサポートを提供します。 Meta、NVIDIA、Mistral AI などのパートナーのモデルは、カタログの "Azure AI によるキュレーション" コレクションで使用できるモデルの例です。これらのモデルは、カタログ内のモデルタイルの緑色のチェックマークで識別することも、"Azure AI によるキュレーション" コレクションでフィルタリングすることもできます。
Azure OpenAI モデル (Azure でのみ利用可能): Azure OpenAI Service との統合を通じて、'Azure OpenAI' コレクションを介するフラグシップ Azure OpenAI モデル。これらのモデルは Microsoft によってサポートされており、その使用は、製品使用条件と Azure OpenAI Service の SLA に従います。
Hugging Face ハブからのオープンモデル: オンラインエンドポイントを使用したリアルタイム推論のための "Hugging Face" コレクションを使用して、HuggingFace ハブの数百のモデルにアクセスできます。 Hugging Face は、HuggingFace コレクションにリストされているモデルを作成および維持します。ヘルプについては、HuggingFace フォーラムまたは HuggingFace サポートをご利用ください。詳細については、Hugging Face からモデルをデプロイする方法に関する記事を参照してください。

モデルカタログへの追加の提案:このフォームを使用して、モデルカタログにモデルを追加するための依頼を送信できます。

モデルカタログ機能の概要

Azure OpenAI モデルの詳細については、「Azure OpenAI Service」を参照してください。

Azure AI によるキュレーションおよび Hugging Face ハブからのオープンモデルの各モデルの場合、これらの一部はリアルタイムエンドポイントとしてデプロイでき、その一部は従量課金制 (サービスとしてのモデル) を使用してデプロイできます。これらのモデルを検出、比較、評価、微調整 (サポートされている場合) し、大規模にデプロイし、エンタープライズレベルのセキュリティとデータガバナンスを使用して、生成 AI アプリケーションに統合できます。

検出: モデルカードを確認し、サンプル推論を試し、コードサンプルを参照してモデルを評価、微調整、またはデプロイします。
比較: 業界で利用可能なモデルとデータセットのベンチマークを比較して、ビジネスシナリオを満たすものを評価できます。
評価: 独自のテストデータを提供して、モデルが特定のワークロードに適しているかどうかを評価します。評価メトリックを使用すると、選択したモデルがシナリオでどの程度適切に実行されているかを簡単に視覚化できます。
微調整: 独自のトレーニングデータを使用して微調整可能なモデルをカスタマイズし、すべての微調整ジョブのメトリックを比較して最適なモデルを選択します。組み込みの最適化機能によって、微調整を高速化し、微調整に必要なメモリとコンピューティングを削減します。
デプロイ: 事前トレーニング済みモデルまたは微調整されたモデルを推論用にシームレスにデプロイします。リアルタイムエンドポイントにデプロイできるモデルもダウンロードできます。

モデルデプロイ: リアルタイムエンドポイントとサービスとしてのモデル (従量課金制)

モデルカタログには、カタログからモデルをデプロイして使用するための 2 つの異なる方法が用意されています。これらはリアルタイムエンドポイントと従量課金制推論です。モデルごとに使用可能なデプロイオプションは異なります。デプロイオプションの機能と、特定のモデルで使用できるオプションの詳細については、次の表を参照してください。デプロイオプションを使用したデータ処理の詳細を参照してください。

機能	マネージドオンラインエンドポイントを使用したリアルタイム推論	サービスとしてのモデルを使用した従量課金制
デプロイエクスペリエンスと課金	モデルの重み付けは、マネージドオンラインエンドポイントを使用して専用の仮想マシンにデプロイされます。マネージドオンラインエンドポイントは、1 つ以上のデプロイを持つことができ、推論に REST API を使用できるようにします。利用者は、デプロイで使用された仮想マシンコア時間に対して課金されます。	モデルへのアクセスは、モデルにアクセスするための API をプロビジョニングするデプロイを通じて行われます。この API は、推論のために Microsoft によって管理される中央 GPU プールでホストされているモデルへのアクセスを提供します。このアクセスモードは、"サービスとしてのモデル" と呼ばれます。利用者は、API への入力と出力 (通常はトークンを介する) に対して課金されます。この価格情報は、デプロイする前に提供されます。
API 認証	キーと Microsoft Entra ID 認証。詳細情報。	キーのみ。
コンテンツの安全性	Azure Content Safety サービス API を使用します。	Azure AI Content Safety フィルターは、推論 API と統合して使用できます。 Azure AI Content Safety フィルターは、個別に課金される場合があります。
ネットワークの分離	オンラインエンドポイントを使用したマネージド仮想ネットワーク。詳細情報。

配置オプション

モデル	リアルタイムエンドポイント	従量課金制
Llama ファミリモデル	Llama-2-7b Llama-2-7b-chat Llama-2-13b Llama-2-13b-chat Llama-2-70b Llama-2-70b-chat Llama-3-8B-Instruct Llama-3-70B-Instruct Llama-3-8B Llama-3-70B	Llama-3-70B-Instruct Llama-3-8B-Instruct Llama-2-7b Llama-2-7b-chat Llama-2-13b Llama-2-13b-chat Llama-2-70b Llama-2-70b-chat
Mistral ファミリモデル	mistralai-Mixtral-8x22B-v0-1 mistralai-Mixtral-8x22B-Instruct-v0-1 mistral-community-Mixtral-8x22B-v0-1 mistralai-Mixtral-8x7B-v01 mistralai-Mistral-7B-Instruct-v0-2 mistralai-Mistral-7B-v01 mistralai-Mixtral-8x7B-Instruct-v01 mistralai-Mistral-7B-Instruct-v01	Mistral-large Mistral-small
Cohere ファミリモデル	使用不可	Cohere-command-r-plus Cohere-command-r Cohere-embed-v3-english Cohere-embed-v3-multilingual
その他のモデル	使用可能	使用不可

リアルタイムエンドポイント

モデルをリアルタイムエンドポイントにデプロイする機能は、Azure Machine Learning のプラットフォーム機能に基づいて構築され、モデルカタログ内のモデルの幅広いコレクションの LLMOps ライフサイクル全体にわたるシームレスな統合を実現します。

リアルタイムエンドポイントでモデルを使用できるようにする方法

モデルは、Azure Machine Learning レジストリを介して利用可能にできます。これは、機械学習資産のホスティングおよび配布のための ML ファーストの方法を有効にするためのものであり、このような資産には、モデルの重み付け、モデルを実行するためのコンテナーランタイム、ベンチマークとサンプルのモデルとデータセットを評価および微調整するためのパイプラインなどがあります。これらの ML レジストリは、高度にスケーラブルでエンタープライズ対応のインフラストラクチャの上に構築されます。

geo レプリケーションが組み込まれているすべての Azure リージョンに、待機時間の短いアクセスモデル成果物を提供します。
Azure Policy を使用したモデルへのアクセス制限およびマネージド仮想ネットワークを使用したデプロイのセキュリティ保護として、エンタープライズセキュリティ要件をサポートします。

リアルタイムエンドポイントとしてデプロイされたモデルを評価して微調整する

Azure Machine Learning パイプラインを使用して、Azure Machine Learning の "Azure AI によるキュレーション" コレクションを評価して微調整できます。独自の評価と微調整のコードを用意し、モデルの重み付けにアクセスするか、組み込みの評価機能と微調整機能を提供する Azure Machine Learning コンポーネントを使用するかを選択できます。詳細については、こちらのリンクを参照してください。

推論のモデルをリアルタイムエンドポイントとしてデプロイする

リアルタイムエンドポイントへのデプロイに使用できるモデルは、リアルタイム推論のために Azure Machine Learning Online エンドポイントにデプロイすることも、Azure Machine Learning バッチ推論でデータをバッチ処理するために使用することもできます。オンラインエンドポイントにデプロイするには、モデルを最適に実行するために必要な特定の SKU の仮想マシンクォータが Azure サブスクリプションに必要です。一部のモデルでは、モデルをテストするために一時的に共有クォータをデプロイできます。モデルの展開の詳細については、次を参照してください。

リアルタイムエンドポイントを使用して生成 AI アロプリを構築する

プロンプトフローには、AI アプリケーションのプロトタイプ作成、実験、反復処理、デプロイのための機能が用意されています。 Open Model LLM ツールを使用して、プロンプトフローでリアルタイムエンドポイントとしてデプロイされたモデルを使用できます。また、Azure Machine Learning 拡張機能を使用して、LangChain などの一般的な LLM ツールでリアルタイムエンドポイントによって公開される REST API を使用することもできます。

リアルタイムエンドポイントとしてデプロイされたモデルのコンテンツの安全性

Azure AI Content Safety (AACS) サービスは、リアルタイムエンドポイントで使用して、性的コンテンツ、暴力、ヘイト、自傷行為、高度な脅威 (脱獄リスク検出や保護された素材テキスト検出など) などのさまざまなカテゴリの有害なコンテンツをスクリーニングするために使用できます。このノートブックを参照して、AACS for Llama 2 とのリファレンス統合を参照するか、プロンプトフローでの Content Safety (テキスト) ツールを使用して、モデルから AACS に応答を渡してスクリーニングを行えます。このような使用については、AACS の価格に従って個別に課金されます。

モデルカタログに含まれていないモデルを扱う

モデルカタログに含まれていないモデルの場合、Azure Machine Learning には、任意のモデルを扱うためのオープンで拡張可能なプラットフォームが用意されています。 Azure Machine Learning のオープンで拡張可能なプラットフォーム機能を使用して、任意のフレームワークまたはランタイムでモデルを導入できます。このような拡張機能には、フレームワークとランタイムをパッケージ化できるコンテナー用の Azure Machine Learning 環境や、モデルを評価または微調整するためのコード用の Azure Machine Learning パイプラインなどがあります。モデルをインポートし、組み込みのランタイムとパイプラインを操作するためのサンプルリファレンスについては、このノートブックを参照してください。

サービスとしてのモデル (従量課金制)

モデルカタログ内の特定のモデルは、従量課金制を使用してデプロイできます。このデプロイ方法は、サービスとしてのモデル (MaaS) と呼ばれます。 MaaS を介して使用できるモデルは、Microsoft によって管理されるインフラストラクチャでホストされます。これにより、モデルプロバイダーのモデルへの API ベースのアクセスが可能になります。 API ベースのアクセスにより、モデルへのアクセスコストが大幅に削減され、プロビジョニングエクスペリエンスが大幅に簡素化されます。ほとんどの MaaS モデルは、トークンベースの価格で使用できます。

MaaS でサードパーティ製モデルを利用可能にする方法

従量課金制デプロイで使用できるモデルは、モデルプロバイダーによって提供されますが、Microsoft が管理する Azure インフラストラクチャでホストされ、API を介してアクセスされます。モデルプロバイダーはライセンス条項を定義し、モデルの使用価格を設定しますが、Azure Machine Learning Service はホスティングインフラストラクチャを管理し、推論 API を使用できるようにします。また、MaaS 経由でデプロイされたモデルによって送信されたプロンプトとコンテンツ出力のデータプロセッサとして機能します。 MaaS のデータ処理の詳細については、データのプライバシーに関する記事を参照してください。

MaaS でのモデル使用量に対する支払い

MaaS を介してデプロイされたモデルの検出、サブスクリプション、消費エクスペリエンスは、Azure AI Studio と Azure Machine Learning スタジオにあります。ユーザーはモデルの使用に関するライセンス条項に同意し、デプロイ時に使用する価格情報が提供されます。サードパーティプロバイダーからのモデルは、商用マーケットプレースの使用条件に従って Azure Marketplace を通じて課金されます。Microsoft からのモデルは、ファーストパーティ従量課金サービスとして、Azure メーターを使用して課金されます。製品条項で説明されているように、ファーストパーティ従量課金サービスは Azure メーターを使用して購入されますが、Azure サービス条件の対象ではありません。これらのモデルの使用には、提供されるライセンス条項が適用されます。

MaaS を使用して推論用のモデルをデプロイする

MaaS を使用してモデルをデプロイすると、ユーザーはインフラストラクチャの構成や GPU のプロビジョニングの必要なく、推論 API を使用する準備が整い、エンジニアリング時間とリソースを節約できます。これらの API は複数の LLM ツールと統合でき、前のセクションで説明したように、使用量に対して課金されます。

従量課金制で MaaS を使用してモデルを微調整する

MaaS を通じて利用でき、微調整をサポートするモデルの場合、ユーザーは、提供されるデータを使用してモデルを調整するために、従量課金制でホストされている微調整を利用できます。詳細については、Azure AI Studio での「Llama 2 モデルを微調整する」を参照してください。

MAaS を介してデプロイされたモデルを含む RAG

Azure AI Studio を使用すると、ユーザーはベクターインデックスと取得拡張生成を利用できます。 MaaS 経由でデプロイできるモデルを使用して、カスタムデータに基づいて埋め込みと推論を生成し、ユースケースに固有の回答を生成できます。詳細については、「取得拡張生成とインデックス」を参照してください。

オファーとモデルのリージョン別の可用性

従量課金制のデプロイは、モデルプロバイダーがオファーを利用可能にした国の課金アカウントに Azure サブスクリプションが属しているユーザーのみが利用できます (次のセクションの表の「オファーの可用性リージョン」を参照)。関連するリージョンでオファーを利用できる場合、ユーザーは Azure リージョン内にワークスペースを持っている必要があります。このワークスペースでは、該当する場合はモデルをデプロイまたは微調整できます (下の表の「ワークスペースリージョン」列を参照)。

モデル	オファーの可用性リージョン	デプロイ用のワークスペースリージョン	微調整用のワークスペースリージョン
Llama-3-70B-Instruct Llama-3-8B-Instruct	Microsoft 管理対象の国	米国東部 2、スウェーデン中部	使用不可
Llama-2-7b Llama-2-13b Llama-2-70b	Microsoft 管理対象の国	米国東部 2、米国西部 3	米国西部 3
Llama-2-7b-chat Llama-2-13b-chat Llama-2-70b-chat	Microsoft 管理対象の国	米国東部 2、米国西部 3	使用不可
Mistral-Large Mistral Small	Microsoft 管理対象の国	米国東部 2、スウェーデン中部	使用不可
Cohere-command-r-plus Cohere-command-r Cohere-embed-v3-english Cohere-embed-v3-multilingual	Microsoft 管理対象の国日本	米国東部 2、スウェーデン中部	使用不可

MaaS 経由でデプロイされたモデルのコンテンツの安全性

Azure Machine Learning では、MaaS 経由でデプロイされた言語モデルに対して、有害なコンテンツ (性的コンテンツ、暴力、ヘイト、自傷行為) 用の Azure AI Content Safety テキストモデレーションフィルターの既定の構成が実装されています。詳細については、「コンテンツのフィルター処理」を参照してください。コンテンツのフィルター処理は、サービスがコンテンツの生成を求めるプロンプトを処理するときに同期的に行われ、このような使用のための AACS の価格に従って個別に課金される場合があります。サービスとしてのモデルとしてデプロイされたモデルのコンテンツフィルター処理を無効にするには、このフォームに入力します。

詳細情報

Azure Machine Learning スタジオ UI またはコードベースの方法を用いた微調整、評価、デプロイについて、Azure Machine Learning の基盤モデルを使用する方法に関するページを参照してください。
Azure Machine Learning スタジオでモデルカタログを調べます。カタログを調べるには、Azure Machine Learning ワークスペースが必要です。
Azure Machine Learning によってキュレーションされたモデルの評価、微調整、デプロイ。

モデル カタログとコレクション

モデル コレクション

モデル カタログ機能の概要

モデル デプロイ: リアルタイム エンドポイントとサービスとしてのモデル (従量課金制)