Azure Machine Learning パイプラインとは

[アーティクル]
2025/02/07

適用対象:Azure CLI ML 拡張機能 v1 Python SDK azureml v1

重要

この記事の Azure CLI コマンドの一部では、Azure Machine Learning 用に azure-cli-ml、つまり v1 の拡張機能を使用しています。 v1 拡張機能のサポートは、2025 年 9 月 30 日に終了します。その日付まで、v1 拡張機能をインストールして使用できます。

2025 年 9 月 30 日より前に、ml (v2) 拡張機能に移行することをお勧めします。 v2 拡張機能の詳細については、Azure Machine Learning CLI 拡張機能と Python SDK v2 に関する記事を参照してください。

適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)

Azure Machine Learning パイプラインは、独立して実行できる完全な機械学習タスクのワークフローです。 Azure Machine Learning パイプラインは、機械学習モデルを生成する上でのベストプラクティスを標準化するのに役立ち、チームが規模に応じて実行できるようにし、モデル構築の効率を向上させます。

Azure Machine Learning パイプラインが必要な理由

機械学習パイプラインの中核となるのは、完全な機械学習タスクを複数のステップから成るワークフローに分割することです。各ステップは管理可能なコンポーネントであり、個別に開発、最適化、構成、自動化できます。ステップは、適切に定義されたインターフェイスを使用して接続されます。 Azure Machine Learning パイプラインサービスにより、パイプラインのステップ間のすべての依存関係が自動的に調整されます。このモジュール式のアプローチにより、次の 2 つの主な利点が得られます。

Machine Learning 操作 (MLOPs) プラクティスを標準化し、スケーラブルなチーム間のコラボレーションをサポートする
トレーニングの効率とコスト削減

MLOps プラクティスを標準化し、スケーラブルなチーム間のコラボレーションをサポートします

Machine Learning 操作 (MLOPs) は、機械学習モデルを構築し、モデルを運用環境に移行するプロセスを自動化します。これは複雑なプロセスです。通常、異なるスキルを持つさまざまなチームからのコラボレーションが必要です。適切に定義された機械学習パイプラインでは、この複雑なプロセスを複数のステップから成るワークフローにまとめ、各ステップを特定のタスクにマッピングして、各チームが個別に作業できるようにすることができます。

たとえば、一般的な機械学習プロジェクトには、データ収集、データ準備、モデルトレーニング、モデル評価、モデルデプロイのステップが含まれます。通常、データエンジニアはデータのステップに集中し、データサイエンティストはモデルのトレーニングと評価にほとんどの時間を費やします。機械学習エンジニアは、モデルデプロイとワークフロー全体の自動化に重点的に取り組みます。機械学習パイプラインを活用することで、各チームは独自のステップの構築に取り組むだけですみます。ステップを構築する最良の方法は、機械学習パイプラインで 1 つのステップを実行する自己格納型のコードである、Azure Machine Learning コンポーネント (v2) を使用することです。さまざまなユーザーによって構築されたこれらのすべてのステップは、最終的にパイプライン定義を通じて 1 つのワークフローに統合されます。パイプラインは、プロジェクト内のすべてのユーザー向けのコラボレーションツールです。パイプラインとそのすべてのステップを定義するプロセスは、各会社の推奨される DevOps プラクティスによって標準化できます。パイプラインは、さらにバージョン管理および自動化することができます。 ML プロジェクトがパイプラインとして記述されている場合、最適な MLOps プラクティスが既に適用されています。

トレーニングの効率とコスト削減

機械学習パイプラインは、MLOps を実践するためのツールであるだけでなく、大規模なモデルトレーニングの効率を向上させ、コストを削減します。最新の自然言語モデルトレーニングを例として取り上げます。これには、大量のデータの前処理と、GPU 集中型トランスフォーマーモデルのトレーニングが必要です。モデルのトレーニングには、毎回数時間から数日かかります。モデルを構築する際に、データサイエンティストは、さまざまなトレーニングコードまたはハイパーパラメーターをテストし、トレーニングを何度も実行して最適なモデルパフォーマンスを実現する必要があります。これらのトレーニングのほとんどでは、通常、トレーニング間の変更はわずかです。データ処理からモデルトレーニングまでのトレーニング全体が毎回行われる場合、大きな無駄になります。機械学習パイプラインを使用すると、結果が変更されていないステップを自動的に計算し、前のトレーニングからの出力を再利用できます。さらに、機械学習パイプラインでは、さまざまな計算リソースでの各ステップの実行がサポートされています。そのため、メモリ負荷の高いデータ処理作業やメモリー CPU 使用率の高いマシンでの実行、および計算集中型のトレーニングは、高価な GPU マシンで実行できます。どの種類のマシンでどのステップを実行するかを適切に選択することで、トレーニングコストを大幅に削減できます。

作業の開始に関するベストプラクティス

機械学習プロジェクトに既に備わっているものに応じて、機械学習パイプラインを構築する開始点が異なる場合があります。パイプラインを構築するには、いくつかの一般的な方法があります。

通常、最初のアプローチは、これまでパイプラインを使用したことがなく、MLOps のようなパイプラインを利用したいチームに当てはまります。このような状況では、通常、データサイエンティストが、お気に入りのツールを使用して、ローカル環境でいくつかの機械学習モデルを開発しています。機械学習エンジニアは、データサイエンティストの出力を運用環境に取り入れる必要があります。この作業では、元のノートブックまたは Python コードから不要なコードをクリーンアップし、ローカルデータからパラメーター化された値にトレーニング入力を変更し、必要に応じてトレーニングコードを複数のステップに分割し、各ステップの単体テストを実行して、最後にすべてのステップを 1 つのパイプラインにラップします。

チームがパイプラインに慣れ、パイプラインを使用して実行する機械学習プロジェクトを増やしたい場合、最初のアプローチは拡張が難しいことがわかります。 2 つ目のアプローチでは、いくつかのパイプラインテンプレートを設定し、それぞれが 1 つの特定の機械学習の問題の解決を試みます。このテンプレートでは、ステップ数、各ステップの入力と出力、接続性など、パイプライン構造が事前に定義されます。新しい機械学習プロジェクトを開始するために、チームは最初に 1 つのテンプレートリポジトリをフォークします。次にチームリーダーが、取り組む必要があるステップをメンバーに割り当てます。データサイエンティストとデータエンジニアは、通常の作業を行います。結果に満足したら、事前に定義されたステップに合わせてコードを構造化します。構造化されたコードがチェックインされると、パイプラインを実行または自動化できます。変更がある場合、各メンバーはコードの一部に取り組むだけで済み、パイプラインコードの他の部分に触れる必要はありません。

チームが機械学習パイプラインと再利用可能なコンポーネントのコレクションを構築したら、前のパイプラインの複製から機械学習パイプラインを構築したり、既存の再利用可能なコンポーネントを結び付けたりすることを開始できます。この段階で、チーム全体の生産性が大幅に向上します。

Azure Machine Learning には、パイプラインを構築するためのさまざまな方法が用意されています。 DevOps プラクティスに慣れているユーザーには、CLI を使用することをお勧めします。 Python に精通しているデータサイエンティストには、Azure Machine Learning SDK v2 を使用したパイプラインの作成をお勧めします。 UI の使用を選ぶユーザーの場合、登録済みのコンポーネントを使用したパイプラインの構築に Designer を使用できます。

どの Azure パイプラインテクノロジを使用すべきか

Azure クラウドには、それぞれ目的が異なる複数の種類のパイプラインが用意されています。次の表に、さまざまなパイプラインとその用途を示します。

シナリオ	プライマリペルソナ	Azure オファリング	OSS オファリング	Canonical パイプ	長所
モデルオーケストレーション (機械学習)	データサイエンティスト	Azure Machine Learning パイプライン	Kubeflow パイプライン	データ -> モデル	分散、キャッシュ、コード優先、再利用
データのオーケストレーション (データ準備)	データエンジニア	Azure Data Factory のパイプライン	Apache Airflow	データ -> データ	厳密に型指定された移動、データ中心のアクティビティ
コードとアプリのオーケストレーション (CI/CD)	アプリ開発者/Ops	Azure Pipelines	Jenkins	コード + モデル -> アプリとサービス	ほとんどのオープンで柔軟なアクティビティのサポート、承認キュー、ゲートを使用したフェーズ

次のステップ

Azure Machine Learning パイプラインは、初期の開発段階で価値の提供を開始する強力な機能です。

Azure Machine Learning CLI v2 を使用してパイプラインを定義する
Azure Machine Learning SDK v2 を使用してパイプラインを定義する
デザイナーを使用してパイプラインを定義する
CLI v2 パイプラインの例を試す
Python SDK v2 パイプラインの例を試す
パイプラインで使用できる SDK および CLI v2 式について説明します。

その他のリソース

トレーニング

モジュール

機械学習ワークフローの自動化 - Training

機械学習、機械学習操作、MLOps の自動化について学習します。

認定資格

Microsoft Certified: Azure Data Scientist Associate - Certifications

Python、Azure Machine Learning、MLflow を使用して、データのインジェストと準備、モデルのトレーニングとデプロイ、機械学習ソリューションの監視を管理します。

AI Skills Fest

次の方法で共有

Azure Machine Learning パイプラインが必要な理由

MLOps プラクティスを標準化し、スケーラブルなチーム間のコラボレーションをサポートします

トレーニングの効率とコスト削減

作業の開始に関するベストプラクティス

どの Azure パイプラインテクノロジを使用すべきか

次のステップ

次の方法で共有

Azure Machine Learning パイプラインとは

Azure Machine Learning パイプラインが必要な理由

MLOps プラクティスを標準化し、スケーラブルなチーム間のコラボレーションをサポートします

トレーニングの効率とコスト削減

作業の開始に関するベスト プラクティス

どの Azure パイプライン テクノロジを使用すべきか

次のステップ

フィードバック

その他のリソース

作業の開始に関するベストプラクティス

どの Azure パイプラインテクノロジを使用すべきか