データフロースニペットを使用して行の重複を除去し、null を見つける

[アーティクル]
12/09/2023

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータサイエンス、リアルタイム分析、ビジネスインテリジェンス、レポートまで、あらゆるものをカバーしています。無料で新たに試用を開始する方法については、こちらをご覧ください。

マッピングデータフロー内でコードスニペットを使用すると、データの重複除去や null のフィルター処理などの一般的なタスクを、簡単に実行できます。この記事では、データフロースクリプトスニペットを使用して、簡単にそれらの関数をパイプラインに追加する方法について説明します。

パイプラインを作成する

[新しいパイプライン] を選択します。
データフローアクティビティを追加します。
[ソースの設定] タブを選択し、ソース変換を追加し、それをデータセットの 1 つに接続します。

この重複除去と null チェックのスニペットでは、汎用パターンを使用し、データフローのスキーマの誤差を利用します。これらのスニペットは、お使いのデータセットのどのスキーマでも、定義済みのスキーマがないデータセットでも機能します。
データフロースクリプト (DFS) の [すべての列を使用する個別の行] セクションで、DistinctRows のコードスニペットをコピーします。
データフロースクリプトに関するドキュメントのページに移動し、個別の行のためのコードスニペットをコピーします。
スクリプトで、source1 の定義の後に、Enter キーを押してからこのコードスニペットを貼り付けます。
以下のいずれかを実行します。
- 貼り付けたコードの前に「source1」と入力することで、貼り付けたこのコードスニペットを、グラフ内に以前作成したソース変換に接続します。
- または、グラフ内の新しい変換のノードから受信ストリームを選択しても、デザイナー内で新しい変換を接続できます。
これで、データフローでは、すべての列値にわたって汎用のハッシュを適用してすべての行をグループ化する集計変換を使用して、ソースからの重複行の削除が行われます。
null がある行を含むストリームと、null がないもう 1 つのストリームにデータを分割するためのコードスニペットを追加します。そのためには次を行います。
スニペットのライブラリに戻り、今回は、NULL チェック用のコードをコピーします。

b. データフローデザイナーで、 [スクリプト] をもう一度選択し、この新しい変換コードを下部に貼り付けます。この操作により、貼り付けられたスニペットの前に、前の変換の名前を配置することで、スクリプトがその変換に接続されます。

データフローグラフはこれで次のようになるはずです。

これで、データフロースクリプトライブラリから既存のコードスニペットを取得し、それらを既存の設計に追加することで、汎用の重複除去と null チェックを備えた機能するデータフローが作成されました。

マッピングデータフローの変換を使用して、残りのデータフローロジックを構築します。

データ フロー スニペットを使用して行の重複を除去し、null を見つける

パイプラインを作成する

関連するコンテンツ

その他のリソース

データフロースニペットを使用して行の重複を除去し、null を見つける