Azure Data Factory からバッチエンドポイントを実行する

[アーティクル]
04/04/2023

適用対象:Azure CLI ML 拡張機能 v2 (現行)Python SDK azure-ai-ml v2 (現行)

ビッグデータには、これらの膨大な量の生データをアクションにつながるビジネス分析へと精製するプロセスを統合および運用化できるサービスが必要です。 Azure Data Factory は、ETL (抽出 - 変換 - 読み込み)、ELT (抽出 - 読み込み - 変換)、データ統合という複雑なハイブリッドプロジェクト用に構築された、マネージドクラウドサービスです。

Azure Data Factory を使うと、複数のデータ変換を調整して 1 つのユニットとして管理できるパイプラインを作成できます。バッチエンドポイントは、そのような処理ワークフローのステップになる優れた候補です。この例では、Web 呼び出しアクティビティと REST API を利用して、Azure Data Factory アクティビティでバッチエンドポイントを使う方法について説明します。

前提条件

この例は、モデルがバッチエンドポイントとして正しくデプロイされていることを前提としています。具体的には、バッチデプロイでの MLflow モデルの使用に関するチュートリアルで作成した "心臓病分類器" を使います。
作成および構成された Azure Data Factory リソース。データファクトリをまだ作成していない場合は、「クイックスタート: Azure portal と Azure Data Factory Studio を使用してデータファクトリを作成する」の手順に従って作成してください。
作成した後、Azure portal でそのデータファクトリに移動します。
[Open Azure Data Factory Studio](Azure Data Factory Studio を開く) タイルで [開く] を選択して、別のタブでデータ統合アプリケーションを起動します。

バッチエンドポイントに対する認証

Azure Data Factory は、Web 呼び出しアクティビティを使うことで、バッチエンドポイントの REST API を呼び出すことができます。バッチエンドポイントは認可のために Microsoft Entra ID をサポートしています。そのため、API に対する要求には適切な認証処理が必要です。

サービスプリンシパルまたはマネージド ID を使って、Batch エンドポイントに対する認証を行うことができます。シークレットを簡単に使用できるので、マネージド ID を使うことをお勧めします。

マネージド ID を使用する
サービスプリンシパルを使用する

Azure Data Factory のマネージド ID を使って、バッチエンドポイントと通信できます。この場合に必要なのは、Azure Data Factory リソースがマネージド ID を使ってデプロイされたことを確認することだけです。
Azure Data Factory リソースがない場合、またはマネージド ID を使わずに既にデプロイされている場合は、次の手順のようにして作成してください: 「Azure Data Factory のマネージド ID」。

警告

デプロイ後のリソース ID の変更は、Azure Data Factory ではできないことに注意してください。リソースを作成した後で、その ID を変更する必要がある場合は、リソースを作り直す必要があります。
デプロイしたら、「アクセス権の付与」で説明されているように、作成したリソースのマネージド ID に Azure Machine Learning ワークスペースへのアクセス権を付与します。この例では、サービスプリンシパルに次のものが必要です。
1. バッチデプロイを読み取り、それらに対してアクションを実行するためのワークスペース内のアクセス許可。
2. データストアの読み取りと書き込みを行うアクセス許可。
3. データ入力として示されている任意のクラウドの場所 (ストレージアカウント) で読み取りを行うアクセス許可。

「Microsoft Entra ID にアプリケーションを登録し、サービスプリンシパルを作成する」の手順に従って、サービスプリンシパルを作成します。
「オプション 3: 新しいクライアントシークレットを作成する」の説明に従って、認証に使うシークレットを作成します。
生成されるクライアントシークレットの値を書き留めます。これは 1 回だけ表示されます。
アプリケーションの [概要] ウィンドウの client ID と tenant id をメモしておきます。
「アクセス権の付与」の説明に従って、作成したサービスプリンシパルにワークスペースへのアクセス権を付与します。この例では、サービスプリンシパルに次のものが必要です。
1. バッチデプロイを読み取り、それらに対してアクションを実行するためのワークスペース内のアクセス許可。
2. データストアの読み取りと書き込みを行うアクセス許可。

パイプラインについて

ここでは、何らかのデータについて特定のバッチエンドポイントを呼び出すことができるパイプラインを Azure Data Factory で作成します。そのパイプラインは、REST を使って Azure Machine Learning バッチエンドポイントと通信します。バッチエンドポイントの REST API の使用方法の詳細については、「バッチエンドポイントのジョブと入力データを作成する」を参照してください。

パイプラインは次のようになります。

マネージド ID を使用する
サービスプリンシパルを使用する

Diagram that shows th high level structure of the pipeline we are creating.

これは、次のアクティビティで構成されます。

バッチエンドポイントの実行: バッチエンドポイントの URI を使ってそれを呼び出す Web アクティビティです。データが配置されている入力データ URI と、必要な出力ファイルを渡します。
ジョブの待機: 作成されたジョブの状態をチェックし、Completed または Failed として完了するのを待機するループアクティビティです。このアクティビティからは、次のアクティビティが使われます。
- 状態のチェック: バッチエンドポイントの実行アクティビティの応答として返されたジョブリソースの状態を照会する Web アクティビティです。
- 待機: ジョブの状態のポーリング頻度を制御する待機アクティビティです。既定値の 120 (2 分) を設定します。

パイプラインでは、次のパラメーターを構成する必要があります。

パラメーター	説明	値の例
`endpoint_uri`	エンドポイントスコアリング URI	`https://<endpoint_name>.<region>.inference.ml.azure.com/jobs`
`poll_interval`	ジョブの完了状態をチェックするまで待機する秒数。既定値は `120` です。	`120`
`endpoint_input_uri`	エンドポイントの入力データ。複数の種類のデータ入力がサポートされています。ジョブの実行に使っているマネージド ID が、基になっている場所にアクセスできることを確認します。または、データストアを使っている場合は、資格情報がそこで示されていることを確認します。	`azureml://datastores/.../paths/.../data/`
`endpoint_input_type`	指定する入力データの種類。現在、バッチエンドポイントではフォルダー (`UriFolder`) とファイル (`UriFile`) がサポートされています。既定値は `UriFolder` です。	`UriFolder`
`endpoint_output_uri`	エンドポイントの出力データファイル。 Machine Learning ワークスペースにアタッチされているデータストア内の出力ファイルへのパスである必要があります。他の種類の URI はサポートされていません。 `workspaceblobstore` という名前の既定の Azure Machine Learning データストアを使用できます。	`azureml://datastores/workspaceblobstore/paths/batch/predictions.csv`

Diagram that shows th high level structure of the pipeline we are creating.

これは、次のアクティビティで構成されます。

認可: 「バッチエンドポイントに対する認証」で作成したサービスプリンシパルを使って認可トークンを取得する Web アクティビティです。後でこのトークンを使ってエンドポイントを呼び出します。
バッチエンドポイントの実行: バッチエンドポイントの URI を使ってそれを呼び出す Web アクティビティです。データが配置されている入力データ URI と、必要な出力ファイルを渡します。
ジョブの待機: 作成されたジョブの状態をチェックし、Completed または Failed として完了するのを待機するループアクティビティです。このアクティビティからは、次のアクティビティが使われます。
- 状態のチェック: バッチエンドポイントの実行アクティビティの応答として返されたジョブリソースの状態を照会する Web アクティビティです。
- 待機: ジョブの状態のポーリング頻度を制御する待機アクティビティです。既定値の 120 (2 分) を設定します。

パイプラインでは、次のパラメーターを構成する必要があります。

パラメーター	説明	値の例
`tenant_id`	エンドポイントがデプロイされているテナント ID	`00000000-0000-0000-00000000`
`client_id`	エンドポイントの呼び出しに使われるサービスプリンシパルのクライアント ID	`00000000-0000-0000-00000000`
`client_secret`	エンドポイントの呼び出しに使われるサービスプリンシパルのクライアントシークレット	`ABCDEFGhijkLMNOPQRstUVwz`
`endpoint_uri`	エンドポイントスコアリング URI	`https://<endpoint_name>.<region>.inference.ml.azure.com/jobs`
`poll_interval`	ジョブの完了状態をチェックするまで待機する秒数。既定値は `120` です。	`120`
`endpoint_input_uri`	エンドポイントの入力データ。複数の種類のデータ入力がサポートされています。ジョブの実行に使っているマネージド ID が、基になっている場所にアクセスできることを確認します。または、データストアを使っている場合は、資格情報がそこで示されていることを確認します。	`azureml://datastores/.../paths/.../data/`
`endpoint_input_type`	指定する入力データの種類。現在、バッチエンドポイントではフォルダー (`UriFolder`) とファイル (`UriFile`) がサポートされています。既定値は `UriFolder` です。	`UriFolder`
`endpoint_output_uri`	エンドポイントの出力データファイル。 Machine Learning ワークスペースにアタッチされているデータストア内の出力ファイルへのパスである必要があります。他の種類の URI はサポートされていません。 `workspaceblobstore` という名前の既定の Azure Machine Learning データストアを使用できます。	`azureml://datastores/workspaceblobstore/paths/batch/predictions.csv`

警告

endpoint_output_uri は、まだ存在しないファイルへのパスである必要があります。そうでない場合は、"パスが既に存在する" というエラーでジョブは失敗します。

手順

既存の Azure Data Factory でこのパイプラインを作成してバッチエンドポイントを呼び出すには、次の手順を行います。

バッチエンドポイントが実行されているコンピューティングに、Azure Data Factory から入力として指定されるデータをマウントするアクセス許可があることを確実にします。エンドポイント (この場合はAzure Data Factory) を呼び出す ID によって、アクセスが引き続き付与されていることに注意してください。ただし、バッチエンドポイントが実行されるコンピューティングには、Azure Data Factory から指定されるストレージアカウントをマウントするためのアクセス許可が必要です。詳しくは、「ストレージサービスへのアクセス」をご覧ください。
Azure Data Factory Studio を開き、[ファクトリのリソース] でプラス記号をクリックします。
[パイプライン]>[パイプラインテンプレートからインポートする] を選びます
zip ファイルの選択を求められます。マネージド ID を使っている場合はこちらのテンプレートを使い、サービスプリンシパルを使っている場合はこちらのテンプレートを使います。
パイプラインのプレビューがポータルに表示されます。 [このテンプレートを使用] をクリックします。
Run-BatchEndpoint という名前で、パイプラインが自動的に作成されます。
使っているバッチデプロイのパラメーターを構成します。

マネージド ID を使用する
サービスプリンシパルを使用する

Screenshot of the pipeline parameters expected for the resulting pipeline.

警告

ジョブを送信する前に、バッチエンドポイントに既定のデプロイが構成されていることを確認します。作成したパイプラインによってエンドポイントが呼び出されるため、既定のデプロイを作成して構成しておく必要があります。

ヒント

再利用性を最大限に高めるには、作成したパイプラインをテンプレートとして使い、パイプラインの実行アクティビティを利用して他の Azure Data Factory パイプライン内から呼び出します。その場合は、次の図に示すように、内部パイプラインでパラメーターを構成せず、外側のパイプラインからパラメーターとして渡します。

Screenshot of the pipeline parameters expected for the resulting pipeline when invoked from another pipeline.

パイプラインを使用する準備ができました。

制限事項

Azure Machine Learning のバッチデプロイを呼び出すときは、次の制限を考慮してください。

データ入力

入力としてサポートされるのは、Azure Machine Learning データストアまたは Azure ストレージアカウント (Azure Blob Storage、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2) のみです。入力データが別のソースにある場合は、バッチジョブの実行前に Azure Data Factory の Copy アクティビティを使って、互換性のあるストアにデータをシンクします。
バッチエンドポイントジョブでは、入れ子になったフォルダーは探索されないため、入れ子になったフォルダー構造を使うことはできません。データが複数のフォルダーに分散されている場合は、構造をフラット化する必要があることに注意してください。
デプロイで提供されているスコアリングスクリプトが、ジョブにフィードされることが予想されるデータを処理できることを確認します。モデルが MLflow の場合は、バッチデプロイでの MLflow モデルの使用に関する記事で、現時点でサポートされているファイルの種類に関する制限事項をお読みください。

データ出力

現時点でサポートされているのは、登録された Azure Machine Learning データストアのみです。 Azure Data Factory が Azure Machine Learning のデータストアとして使用しているストレージアカウントを登録することをお勧めします。このようにして、読み取り元と同じストレージアカウントに書き戻すことができるようになります。
出力では、Azure Blob Storage アカウントのみがサポートされます。たとえば、Azure Data Lake Storage Gen2 はバッチデプロイジョブの出力としてサポートされていません。データを別の場所やシンクに出力する必要がある場合は、バッチジョブを実行した後で、Azure Data Factory の Copy アクティビティを使います。

Share via

Azure Data Factory からバッチエンドポイントを実行する

前提条件

バッチエンドポイントに対する認証

パイプラインについて

手順

制限事項

データ入力

データ出力

次のステップ

その他のリソース

Share via

Azure Data Factory からバッチ エンドポイントを実行する

前提条件

バッチ エンドポイントに対する認証

パイプラインについて

手順

制限事項

データ入力

データ出力

次のステップ

その他のリソース

Azure Data Factory からバッチエンドポイントを実行する

バッチエンドポイントに対する認証