使用資料流程程式碼片段來刪除重複的資料列並尋找 Null

適用於:Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用

藉由在對應資料流程中使用程式碼片段,您可以輕鬆地執行資料重複刪除和 Null 篩選等一般工作。 本文說明如何使用資料流程指令碼程式碼片段,輕鬆地將這些函數新增至管線。

建立新管線

  1. 選取 [新增管線]

  2. 新增資料流程活動。

  3. 選取 [來源設定] 索引標籤、新增來源轉換,然後將其連接到其中一個資料集。

    Screenshot of the "Source settings" pane for adding a source type.

    重複資料刪除和 null 檢查程式碼片段會使用利用資料流程結構描述漂移的一般模式。 程式碼片段會使用資料集中的任何結構描述,或使用沒有預先定義結構描述的資料集。

  4. 資料流程指令碼 (DFS) 的 [使用所有資料行的相異資料列] 區段中,複製 DistinctRows 的程式碼片段。

  5. 移至 [資料流程指令碼] 文件頁面,並複製相異資料列的程式碼片段。

    Screenshot of a source snippet.

  6. 在指令碼中,在 source1 的定義之後,按 Enter,然後貼上程式碼片段。

  7. 執行下列任一步驟:

    • 將此貼上的程式碼片段連至您稍早在圖表中建立的來源轉換,方法是在貼上的程式碼前面輸入 source1

    • 或者,您可以從圖表中的新轉換節點選取傳入的串流,以在設計工具中連接新轉換。

      Screenshot of the "Conditional split settings" pane.

    現在,資料流程會使用彙總轉換,將重複的資料列從來源中移除,彙總轉換會使用所有資料行值的一般雜湊,依所有資料列分組。

  8. 新增程式碼片段,以將資料分割成一個串流,其中包含具有 Null 的資料列,以及另一個不具 Null 的串流。 若要這麼做︰

  9. 返回至程式碼片段程式庫,並在此時複製 Null 檢查的程式碼。

    b. 在資料流程設計工具中,再次選取 [指令碼],然後將這個新的轉換程式碼貼到底部。 此動作會將指令碼連接到先前的轉換,方法是將該轉換的名稱放在貼上的程式碼片段前面。

    資料流程圖表現在看起來應該像這樣:

    Screenshot of the data flow graph.

您現在已建立具有一般重複資料刪除和 null 檢查的運作中資料流程,方法是從資料流程指令碼程式庫取得現有的程式碼片段,並將其新增至現有的設計。

  • 使用對應資料流程轉換,以組建資料流程邏輯的其餘部分。