什麼是資料整頓?

適用於:Azure Data Factory Azure Synapse Analytics

組織必須能夠探索其重要的商務資料以進行資料準備和整頓,以提供每天持續成長的複雜資料精確分析。 需要資料準備,讓組織可以在各種商務程式中使用資料,並減少價值的時間。

Data Factory 可讓您使用無程式碼的資料準備,在雲端規模反復地使用 Power Query。 Data Factory 與Power Query Online整合,讓Power Query M 函式可作為管線活動使用。

Data Factory 會將 Power Query Online Mashup 編輯器所產生的 M 轉譯為 Spark 程式碼,以便將 M 轉譯為Azure Data Factory資料流程,以進行雲端規模執行。 使用Power Query和資料流程整頓資料對於資料工程師或「公民資料整合者」特別有用。

使用案例

快速互動式資料探索和準備

多個資料工程師和公民資料整合者可以互動方式探索和準備雲端規模的資料集。 隨著 Data Lake 中的資料量、多樣性和速度增加,使用者需要有有效的方法來探索和準備資料集。 例如,您可能需要建立「自 2017 年以來,新客戶的所有客戶人口統計資料資訊」的資料集。 而不會對應至已知的目標。 您正在探索、整頓和準備資料集,以符合需求,再將其發佈至湖中。 整頓通常用於較不正式的分析案例。 預先準備的資料集可用於進行下游的轉換和機器學習作業。

無程式碼的敏捷式資料準備

公民資料整合者花費超過 60% 的時間尋找和準備資料。 他們想要以無程式碼的方式執行此作業,以改善作業生產力。 允許公民資料整合者使用Power Query Online 等已知工具來擴充、塑造及發佈資料,大幅提升其生產力。 Azure Data Factory中的整頓可讓熟悉的 Power Query Online 混搭編輯器允許公民資料整合者快速修正錯誤、標準化資料,以及產生高品質的資料以支援商務決策。

資料驗證和探索

以無程式碼的方式以視覺化方式掃描您的資料,以移除任何極端值、異常,並符合圖形以進行快速分析。

支援的來源

連接子 資料格式 驗證類型
Azure Blob 儲存體 CSV、Parquet、Excel 帳戶金鑰、服務主體、MSI
Azure Data Lake Storage Gen1 CSV、Parquet、Excel 服務主體、MSI
Azure Data Lake Storage Gen2 \(部分機器翻譯\) CSV、Parquet、Excel 帳戶金鑰、服務主體、MSI
Azure SQL Database - SQL驗證、MSI、服務主體
Azure Synapse Analytics - SQL驗證、MSI、服務主體

混搭編輯器

當您建立Power Query活動時,所有來源資料集都會變成資料集查詢,並放在ADFResource資料夾中。 根據預設,UserQuery 會指向第一個資料集查詢。 所有轉換都應該在 UserQuery 上完成,因為不支援對資料集查詢所做的變更,也不會保存這些轉換。 目前不支援重新命名、新增和刪除查詢。

Wrangling

目前並非所有Power Query M 函式在撰寫期間仍支援資料整頓。 在建置Power Query活動時,如果不支援函式,系統會提示您出現下列錯誤訊息:

The Power Query Spark Runtime does not support the function

如需支援轉換的詳細資訊,請參閱Power Query資料整頓函式

後續步驟

瞭解如何建立資料整頓Power Query混搭