如何在 Microsoft Fabric 中使用 Data Wrangler 加速數據準備

發行項
01/23/2024

Data Wrangler 是以筆記本為基礎的工具，可為使用者提供沉浸式介面，以進行探勘數據分析。此功能結合了類似網格線的數據顯示與動態摘要統計數據、內建視覺效果，以及一般數據清理作業的連結庫。每個作業都可以在點擊時套用，即時更新數據顯示，並在 pandas 或 PySpark 中產生程式代碼，以可重複使用的功能儲存回筆記本。本文著重於探索和轉換 pandas DataFrame。如需在Spark DataFrame上使用Data Wrangler的指示，請參閱這裡。

必要條件

取得 Microsoft Fabric 訂用帳戶。或者，註冊免費的 Microsoft Fabric 試用版。
登入 Microsoft Fabric。
使用首頁左側的體驗切換器，切換至 Synapse 資料科學體驗。

限制

Data Wrangler 目前支援在公開預覽版中產生 pandas 程式代碼，以及公開預覽版中的 Spark 程式代碼產生。
目前僅針對 pandas DataFrame 支援自定義程式代碼作業。
數據 Wrangler 的顯示器在大型監視器上效果最好，但介面的不同部分可以最小化或隱藏，以容納較小的螢幕。

啟動 Data Wrangler

您可以直接從 Microsoft Fabric 筆記本啟動 Data Wrangler，以探索及轉換任何 pandas 或 Spark DataFrame。如需搭配 Spark DataFrame 使用 Data Wrangler 的概觀，請參閱此隨附文章。下列代碼段示範如何將範例數據讀入 pandas DataFrame：

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

在筆記本功能區 [數據] 索引標籤下，使用 [數據 Wrangler] 下拉式清單提示來流覽可供編輯的使用中 DataFrame。選取您想要在 Data Wrangler 中開啟的檔案。

提示

當筆記本核心忙碌時，無法開啟數據 Wrangler。執行的數據格必須先完成其執行，才能啟動Data Wrangler。

選擇自訂範例

Data Wrangler 可讓您從下拉式清單中選取 [選擇自定義範例]，以開啟任何作用中 DataFrame 的自定義範例。這麼做會啟動包含選項的彈出視窗，以指定所需樣本的大小（數據列數目）和取樣方法（第一筆記錄、最後一筆記錄或隨機集）。

檢視摘要統計數據

當 Data Wrangler 載入時，它會在 [摘要] 面板中顯示所選 DataFrame 的描述性概觀。此概觀包含 DataFrame 維度、遺漏值等等的相關信息。選取 Data Wrangler 方格中的任何數據行，會提示 [摘要] 面板更新並顯示該特定數據行的描述性統計數據。每個數據行的快速見解也會在其標頭中取得。

提示

數據行特定的統計數據和視覺效果（在 [摘要] 面板和數據行標頭中都相依於數據行數據類型。例如，只有在數據行轉換成數值類型時，數值數據行的量化直方圖才會出現在數據行標頭中。使用 [作業] 面板來重新廣播數據行類型，以取得最精確的顯示。

瀏覽數據清理作業

您可以在 [作業] 面板中找到可搜尋的數據清除步驟清單。（每個數據行標頭的功能表中有較小的相同作業選擇。從 [作業] 面板中，選取數據清除步驟會提示您提供目標數據行或數據行，以及完成步驟的任何必要參數。例如，以數值方式調整數據行的提示需要新的值範圍。

預覽和套用作業

選取作業的結果將會在 Data Wrangler 顯示方格中自動預覽，且對應的程式代碼會自動出現在方格下方的面板中。若要認可預覽的程序代碼，請在任一位置選取 [套用]。若要擺脫預覽的程式代碼並嘗試新的作業，請選取 [捨棄]。

套用作業之後，Data Wrangler 顯示方格和摘要統計數據會更新以反映結果。程式代碼會出現在 [清除步驟] 面板中的已認可作業執行清單中。

提示

您一律可以使用它旁邊的垃圾桶圖示復原最近套用的步驟，如果您將游標暫留在 [清除步驟] 面板中的該步驟上方，就會出現。

下表摘要說明 Data Wrangler 目前支援的作業：

運算	說明
Sort	以遞增或遞減順序排序數據行
Filter	根據一或多個條件篩選數據列
單熱編碼	針對現有數據行中的每個唯一值建立新的數據行，指出每個數據列是否存在或不存在這些值
具有分隔符的單熱編碼	使用分隔符分割和單熱編碼類別數據
變更數據行類型	變更數據行的數據類型
卸除數據行	刪除一或多個數據行
選取數據行	選擇要保留的一或多個數據行，並刪除其餘數據行
重新命名數據行	重新命名資料行
卸除遺漏值	拿掉遺漏值的數據列
卸除重複的數據列	卸除一或多個數據行中具有重複值的所有數據列
填滿遺漏值	以新值取代遺漏值的儲存格
尋找和取代	以完全相符的模式取代儲存格
依數據行和匯總分組	依數據行值和匯總結果分組
等量空格符	從文字開頭和結尾移除空格符
分割文字	根據使用者定義的分隔符，將數據行分割成數個數據行
將文字轉換成小寫	將文字轉換成小寫
將文字轉換成大寫	將文字轉換成大寫
小數位數/最大值	在最小值和最大值之間縮放數值數據行
快閃填滿	根據衍生自現有數據行的範例自動建立新的數據行

儲存和匯出程序代碼

Data Wrangler 顯示方格上方的工具列提供儲存所產生程式代碼的選項。您可以將程式代碼複製到剪貼簿，或將它匯出至筆記本做為函式。匯出程式代碼會關閉 Data Wrangler，並將新的函式新增至筆記本中的程式代碼數據格。您也可以將清除的 DataFrame 下載為 csv 檔案。

提示

在您手動執行新單元格之前，將不會套用 Data Wrangler 所產生的程式代碼，而且不會覆寫原始 DataFrame。

若要在Spark DataFrame上試用Data Wrangler，請參閱此隨附文章。
若要在 VS Code 中試用 Data Wrangler，請參閱 VS Code 中的數據 Wrangler。

共用方式為

如何在 Microsoft Fabric 中使用 Data Wrangler 加速數據準備

必要條件

限制

啟動 Data Wrangler

選擇自訂範例

檢視摘要統計數據

瀏覽數據清理作業

預覽和套用作業

儲存和匯出程序代碼

意見反應

意見反應

其他資源

共用方式為

如何在 Microsoft Fabric 中使用 Data Wrangler 加速數據準備

必要條件

限制

啟動 Data Wrangler

選擇自訂範例

檢視摘要統計數據

瀏覽數據清理作業

預覽和套用作業

儲存和匯出程序代碼

相關內容

意見反應

意見反應

其他資源