Data Factory と Synapse Analytics のパイプラインによる反復開発とデバッグ

[アーティクル]
12/09/2023

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータサイエンス、リアルタイム分析、ビジネスインテリジェンス、レポートまで、あらゆるものをカバーしています。無料で新しい試用版を開始する方法について説明します。

Azure Data Factory と Synapse Analytics では、パイプラインの反復開発とデバッグをサポートしています。これらの機能を使用すると、行った変更をテストした後で、pull request を作成したり、変更をサービスに公開したりできます。

この機能の概要とデモンストレーションについては、以下の 8 分間の動画を視聴してください。

パイプラインのデバッグ

パイプラインキャンバスを使用して作成するときは、デバッグ機能を使用してアクティビティをテストできます。テストの実行を行うときは、 [デバッグ] を選択する前に、サービスに変更を発行する必要はありません。この機能は、ワークフローを更新する前に、変更が期待どおりに動作することを確認する場合に便利です。

Debug capability on the pipeline canvas

パイプラインが実行中の間は、パイプラインキャンバスの [出力] タブで各アクティビティの結果を確認できます。

テストの実行結果は、パイプラインキャンバスの出力ウィンドウに表示されます。

Output window of the pipeline canvas

テストの実行が成功したら、パイプラインにさらにアクティビティを追加し、反復的な方法でデバッグを続行します。テストの実行中に、実行を [キャンセル] することもできます。

重要

[デバッグ] を選択すると、パイプラインが実際に実行されます。たとえばパイプラインにコピーアクティビティが含まれていれば、テストの実行では、データがコピー元からコピー先にコピーされます。その結果、デバッグ時のコピーアクティビティとその他のアクティビティでは、テストフォルダーを使用することをお勧めします。パイプラインのデバッグが終わったら、通常の操作で使用する実際のフォルダーに切り替えます。

ブレークポイントの設定

このサービスを使用すると、パイプラインキャンバスの特定のアクティビティに到達するまで、パイプラインをデバッグできます。アクティビティにテストの終了点となるブレークポイントを設定し、 [デバッグ] を選択します。このサービスは、パイプラインキャンバスでブレークポイントアクティビティまでのみ、テストの実行を保証します。この特定の場所までデバッグする機能は、パイプライン全体ではなく、パイプライン内のアクティビティのサブセットのみをテストする場合に便利です。

Breakpoints on the pipeline canvas

ブレークポイントを設定するには、パイプラインキャンバス上で要素を選択します。 [Debug Until]\(特定の場所までデバッグする\) オプションは、要素の右上隅に空の赤い円として表示されます。

Before setting a breakpoint on the selected element

[Debug Until]\(特定の場所までデバッグする\) オプションを選択した後は、赤い円が塗りつぶされ、ブレークポイントが有効になったことが示されます。

After setting a breakpoint on the selected element

デバッグ実行の監視

パイプラインのデバッグ実行を実行すると、パイプラインキャンバスの [出力] ウィンドウに結果が表示されます。出力タブには、現在のブラウザーセッション中に行われた最新の実行のみが含まれます。

Output window of the pipeline canvas

デバッグ実行の履歴ビューを表示したり、すべてのアクティブなデバッグ実行の一覧を表示したりするには、 [監視] エクスペリエンスにアクセスします。

Azure Data Factory
Synapse Analytics

Select the View active debug runs icon

Note

このサービスでは、デバッグの実行履歴は 15 日間のみ保持されます

マッピングデータフローのデバッグ

マッピングデータフローを使用すると、大規模に実行されるコーディング不要のデータ変換ロジックを作成できます。ロジックを構築する際に、デバッグセッションをオンにして、ライブ Spark クラスターを使用してインタラクティブにデータを操作することができます。詳細については、「マッピングデータフローのデバッグモード」を参照してください。

[監視] エクスペリエンスで、アクティブなデータフローデバッグセッションを監視できます。

View data flow debug sessions

データフローデザイナーのデータプレビューとデータフローのパイプラインデバッグは、小規模なデータサンプルを使った場合に最適に機能するよう設計されています。ただし、パイプラインまたはデータフローのロジックを大量のデータに対してテストする必要がある場合は、デバッグセッションで使用される Azure Integration Runtime のサイズを増やしてください (コア数を増やし、汎用的な計算を最小限に減らしてください)。

データフローアクティビティが含まれるパイプラインのデバッグ

データフローが含まれるパイプライン実行のデバッグを行うときに使用するコンピューティングには、2 つのオプションがあります。既存のデバッグクラスターを使用することも、データフローに対して新しい Just-In-Time クラスターを作成することもできます。

既存のデバッグセッションを使用すると、クラスターが既に稼働中であるためデータフローの起動時間が大幅に短縮されますが、複数のジョブを一度に実行するときに失敗する場合があるため、複雑なワークロードや並列ワークロードには推奨されません。

アクティビティランタイムを使用すると、各データフローアクティビティの統合ランタイムで指定された設定を使用して新しいクラスターが作成されます。これにより、各ジョブを分離することができるため、複雑なワークロードやパフォーマンステストにはこれを使用する必要があります。デバッグに使用されるクラスターリソースが、その期間内に追加のジョブ要求の処理のためにも使用できるように、Azure IR で TTL を制御することもできます。

Note

データフローが並列で実行されるパイプラインがある場合や、大きなデータセットを使ってテストしなければならないデータフローがある場合は、データフローアクティビティで選択した Integration Runtime をこのサービスで使用できるように、[アクティビティランタイムを使用する] を選択します。これで、データフローを複数のクラスターで実行できるようになり、データフローの並列実行に対応できます。

Running a pipeline with a dataflow

変更をテストした後、継続的なインテグレーションとデプロイを使用して、より上位の環境に昇格させます。

Data Factory と Synapse Analytics のパイプラインによる反復開発とデバッグ

パイプラインのデバッグ

ブレークポイントの設定

デバッグ実行の監視

マッピング データ フローのデバッグ

データ フロー アクティビティが含まれるパイプラインのデバッグ

関連するコンテンツ

その他のリソース

マッピングデータフローのデバッグ

データフローアクティビティが含まれるパイプラインのデバッグ