如何在 Microsoft Fabric 中使用 Data Wrangler 加速數據準備
Data Wrangler 是以筆記本為基礎的工具,可為使用者提供沉浸式介面,以進行探勘數據分析。 此功能結合了類似網格線的數據顯示與動態摘要統計數據、內建視覺效果,以及一般數據清理作業的連結庫。 每個作業都可以在點擊時套用,即時更新數據顯示,並在 pandas 或 PySpark 中產生程式代碼,以可重複使用的功能儲存回筆記本。 本文著重於探索和轉換 pandas DataFrame。 如需在Spark DataFrame上使用Data Wrangler的指示,請參閱 這裡。
必要條件
取得 Microsoft Fabric 訂用 帳戶。 或者,註冊免費的 Microsoft Fabric 試用版。
登入 Microsoft Fabric。
使用首頁左側的體驗切換器,切換至 Synapse 資料科學 體驗。
限制
- Data Wrangler 目前支援在公開預覽版中產生 pandas 程式代碼,以及 公開預覽版中的 Spark 程式代碼產生 。
- 目前僅針對 pandas DataFrame 支援自定義程式代碼作業。
- 數據 Wrangler 的顯示器在大型監視器上效果最好,但介面的不同部分可以最小化或隱藏,以容納較小的螢幕。
啟動 Data Wrangler
您可以直接從 Microsoft Fabric 筆記本啟動 Data Wrangler,以探索及轉換任何 pandas 或 Spark DataFrame。 如需搭配 Spark DataFrame 使用 Data Wrangler 的概觀,請參閱 此隨附文章。 下列代碼段示範如何將範例數據讀入 pandas DataFrame:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
在筆記本功能區 [數據] 索引標籤下,使用 [數據 Wrangler] 下拉式清單提示來流覽可供編輯的使用中 DataFrame。 選取您想要在 Data Wrangler 中開啟的檔案。
提示
當筆記本核心忙碌時,無法開啟數據 Wrangler。 執行的數據格必須先完成其執行,才能啟動Data Wrangler。
選擇自訂範例
Data Wrangler 可讓您從下拉式清單中選取 [選擇自定義範例],以開啟任何作用中 DataFrame 的自定義範例。 這麼做會啟動包含選項的彈出視窗,以指定所需樣本的大小(數據列數目)和取樣方法(第一筆記錄、最後一筆記錄或隨機集)。
檢視摘要統計數據
當 Data Wrangler 載入時,它會在 [摘要] 面板中顯示所選 DataFrame 的描述性概觀。 此概觀包含 DataFrame 維度、遺漏值等等的相關信息。 選取 Data Wrangler 方格中的任何數據行,會提示 [摘要] 面板更新並顯示該特定數據行的描述性統計數據。 每個數據行的快速見解也會在其標頭中取得。
提示
數據行特定的統計數據和視覺效果(在 [摘要] 面板和數據行標頭中都相依於數據行數據類型。 例如,只有在數據行轉換成數值類型時,數值數據行的量化直方圖才會出現在數據行標頭中。 使用 [作業] 面板來重新廣播數據行類型,以取得最精確的顯示。
瀏覽數據清理作業
您可以在 [作業] 面板中找到可搜尋的數據清除步驟清單。 (每個數據行標頭的功能表中有較小的相同作業選擇。從 [作業] 面板中,選取數據清除步驟會提示您提供目標數據行或數據行,以及完成步驟的任何必要參數。 例如,以數值方式調整數據行的提示需要新的值範圍。
預覽和套用作業
選取作業的結果將會在 Data Wrangler 顯示方格中自動預覽,且對應的程式代碼會自動出現在方格下方的面板中。 若要認可預覽的程序代碼,請在任一位置選取 [套用]。 若要擺脫預覽的程式代碼並嘗試新的作業,請選取 [捨棄]。
套用作業之後,Data Wrangler 顯示方格和摘要統計數據會更新以反映結果。 程式代碼會出現在 [清除步驟] 面板中的已認可作業執行清單中。
提示
您一律可以使用它旁邊的垃圾桶圖示復原最近套用的步驟,如果您將游標暫留在 [清除步驟] 面板中的該步驟上方,就會出現。
下表摘要說明 Data Wrangler 目前支援的作業:
運算 | 說明 |
---|---|
Sort | 以遞增或遞減順序排序數據行 |
Filter | 根據一或多個條件篩選數據列 |
單熱編碼 | 針對現有數據行中的每個唯一值建立新的數據行,指出每個數據列是否存在或不存在這些值 |
具有分隔符的單熱編碼 | 使用分隔符分割和單熱編碼類別數據 |
變更數據行類型 | 變更數據行的數據類型 |
卸除數據行 | 刪除一或多個數據行 |
選取數據行 | 選擇要保留的一或多個數據行,並刪除其餘數據行 |
重新命名數據行 | 重新命名資料行 |
卸除遺漏值 | 拿掉遺漏值的數據列 |
卸除重複的數據列 | 卸除一或多個數據行中具有重複值的所有數據列 |
填滿遺漏值 | 以新值取代遺漏值的儲存格 |
尋找和取代 | 以完全相符的模式取代儲存格 |
依數據行和匯總分組 | 依數據行值和匯總結果分組 |
等量空格符 | 從文字開頭和結尾移除空格符 |
分割文字 | 根據使用者定義的分隔符,將數據行分割成數個數據行 |
將文字轉換成小寫 | 將文字轉換成小寫 |
將文字轉換成大寫 | 將文字轉換成大寫 |
小數位數/最大值 | 在最小值和最大值之間縮放數值數據行 |
快閃填滿 | 根據衍生自現有數據行的範例自動建立新的數據行 |
儲存和匯出程序代碼
Data Wrangler 顯示方格上方的工具列提供儲存所產生程式代碼的選項。 您可以將程式代碼複製到剪貼簿,或將它匯出至筆記本做為函式。 匯出程式代碼會關閉 Data Wrangler,並將新的函式新增至筆記本中的程式代碼數據格。 您也可以將清除的 DataFrame 下載為 csv 檔案。
提示
在您手動執行新單元格之前,將不會套用 Data Wrangler 所產生的程式代碼,而且不會覆寫原始 DataFrame。
相關內容
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應