マッピングデータフローでの並べ替え変換

[アーティクル]
07/25/2023

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータサイエンス、リアルタイム分析、ビジネスインテリジェンス、レポートまで、あらゆるものをカバーしています。無料で新しい試用版を開始する方法について説明します。

データフローは、Azure Data Factory および Azure Synapse Pipelines の両方で使用できます。この記事は、マッピングデータフローに適用されます。変換を初めて使用する場合は、概要の記事「マッピングデータフローを使用してデータを変換する」を参照してください。

並べ替え変換を使用すると、現在のデータストリームで受信した行を並べ替えることができます。個々の列を選択し、昇順または降順に並べ替えることができます。

注意

マッピングデータフローは、複数のノードやパーティションにデータが分散される Spark クラスター上で実行されます。後続の変換でデータのパーティションを再作成すると、データが再びシャッフルされるため、並べ替えた順序が失われる可能性があります。データフローで並べ替え順序を維持する最善の方法は、変換の [最適化] タブで単一のパーティションを設定し、並べ替え変換をできるだけシンクの近くに保持することです。

構成

Sort settings

大文字と小文字の区別をしない: 文字列やテキストフィールドを並べ替えるときに大文字と小文字を区別するかどうか

Sort Only Within Partitions (パーティション内でのみ並べ替え): データフローは spark 上で実行されるため、各データストリームはパーティションに分割されます。この設定では、データストリーム全体を並べ替えるのではなく、受信パーティション内でのみデータを並べ替えます。

並べ替え条件: 並べ替えの基準となる列と並べ替えの順序を選択します。順序によって並べ替えの優先順位が決まります。データストリームの先頭または末尾に null が出現するかどうかを選択します。

計算列

並べ替えを適用する前に列の値を変更または抽出するには、列の上にマウスポインターを移動し、[計算列] を選択します。これにより、式ビルダーが開き、列の値を使用する代わりに並べ替え操作用の式が作成されます。

データフローのスクリプト

構文

<incomingStream>
    sort(
        desc(<sortColumn1>, { true | false }),
        asc(<sortColumn2>, { true | false }),
        ...
    ) ~> <sortTransformationName<>

例

Sort settings

次のコードスニペットには、上記の並べ替え構成に対するデータフロースクリプトが含まれています。

BasketballStats sort(desc(PTS, true),
    asc(Age, true)) ~> Sort1

並べ替え後に、集計変換を使用できます

マッピング データ フローでの並べ替え変換

構成

計算列

データ フローのスクリプト

構文

例

関連するコンテンツ

その他のリソース

マッピングデータフローでの並べ替え変換

データフローのスクリプト