如何在 Microsoft Fabric 中使用数据整理器加速数据准备

数据整理器是一种基于笔记本的工具,可为用户提供沉浸式界面,以进行探索性数据分析。 该功能将网格式数据显示与动态摘要统计信息、内置可视化效果和常见数据清理操作库相结合。 每个操作只需单击便可应用,实时更新数据显示并在 pandas 或 PySpark 中生成可作为可重用函数保存回笔记本的代码。 本文重点介绍如何探索和转换 pandas 数据帧。 有关在 Spark 数据帧上使用数据整理器的说明,请参阅此处

先决条件

限制

  • 目前,数据整理器在正式版中支持 pandas 代码生成,在公共预览版中支持 Spark 代码生成
  • 目前仅 pandas 数据帧支持自定义代码操作。
  • 尽管界面的不同部分可以最小化或隐藏以适应较小的屏幕,但数据整理器在大型显示器上的显示效果最好。

启动数据整理器

可以直接从 Microsoft Fabric 笔记本启动数据整理器,以探索和转换任何 pandas 或 Spark 数据帧。 有关将数据整理器与 Spark 数据帧结合使用的概述,请参阅此配套文章。 以下代码片段演示如何将示例数据读取到 pandas 数据帧中:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

在笔记本功能区“数据”选项卡下,使用数据整理器下拉提示浏览可编辑的活动数据帧。 选择要在数据整理器中打开的 Pandas DataFrames。

提示

当笔记本内核繁忙时,无法打开数据整理器。 执行单元格必须先完成其执行,然后才可启动数据整理器。

Screenshot showing a Fabric notebook with the Data Wrangler dropdown prompt.

选择自定义示例

数据整理器允许通过从下拉列表中选择“选择自定义示例”来打开任何活动数据帧的自定义示例。 执行此操作会启动一个弹出项,其中包含用于指定所需示例大小(行数)和采样方法(第一条记录、最后一条记录或随机集)的选项。

Screenshot showing the Data Wrangler dropdown prompt with the custom sample option outlined.

Screenshot showing the Data Wrangler custom sample prompt.

查看摘要统计信息

当数据整理器加载时,它会在“摘要”面板中显示所选数据帧的描述性概述。 此概述包括有关 DataFrame 的维度、缺失值等的信息。 选择“数据整理器”网格中的任何列将提示“摘要”面板更新并显示有关该特定列的描述性统计信息。 其标头中还会提供有关每列的快速见解。

提示

列特定的统计信息和视觉效果(在“摘要”面板和列标题中)取决于列数据类型。 例如,仅当列强制转换为数值类型时,数值列的装箱直方图才会显示在列标头中。 使用“操作”面板可重新转换列类型,以便最准确地显示。

Screenshot showing the Data Wrangler display grid and Summary panel.

浏览数据清理操作

可以在“操作”面板中找到数据清理步骤的可搜索列表。 (每个列标题的菜单中提供了相同操作的少量选择。)在“操作”面板中,选择数据清理步骤会提示你提供一个或多个目标列,以及完成该步骤所需的任何参数。 例如,提示以数字方式缩放列需要新的值范围。

Screenshot showing the Data Wrangler Operations panel.

预览和应用操作

所选操作的结果将自动在数据整理器显示网格中预览,相应的代码将自动显示在网格下方的面板中。 若要提交预览的代码,请选择任一位置的“应用”。 若要删除预览的代码并尝试新操作,请选择“放弃”。

Screenshot showing a Data Wrangler operation in progress.

应用操作后,数据整理器显示网格和摘要统计信息将更新以反映结果。 该代码显示在已提交操作的运行列表中,位于“清理步骤”面板中。

Screenshot showing an applied Data Wrangler operation.

提示

始终可以使用旁边的回收站图标撤消最近应用的步骤,如果将光标悬停在“清理步骤”面板中的该步骤上,将显示该步骤。

Screenshot showing a Data Wrangler operation that can be undone.

下表汇总了数据整理器当前支持的操作:

操作 描述
Sort 按升序或降序排序
Filter 根据一个或多个条件筛选行
独热编码 为现有列中每个唯一值创建新列,指示每行是否存在这些值
使用分隔符的独热编码 使用分隔符的拆分和独热编码分类数据
更改列类型 更改列的数据类型
删除列 删除一个或多个列
选择列 选择要保留的一个或多个列,然后删除其余列
重命名列 重命名列
删除缺少的值 删除包含缺失值的行
删除重复行 删除一列或多列中具有重复值的所有行
填充缺失值 将缺少值的单元格替换为新值
查找和替换 将单元格替换为完全匹配的模式
按列分组和聚合 按列值分组并聚合结果
剥离空格 删除文本开头和结尾的空格
拆分文本 根据用户定义的分隔符将一列拆分为多个列
将文本转换为小写 将文本转换为小写
将文本转换为大写 将文本转换为大写
缩放最小/最大值 在最小值和最大值之间缩放数字列
快速填充 基于从现有列派生的示例自动创建新列

保存和导出代码

数据整理器显示网格上方的工具栏提供了保存生成的代码的选项。 可以将代码复制到剪贴板或将其作为函数导出到笔记本。 导出代码会关闭数据整理器并将新函数添加到笔记本中的代码单元格。 还可以将清理的数据帧下载为 csv 文件。

提示

在手动运行新单元格之前,不会应用数据整理器生成的代码,也不会覆盖原始 DataFrame。

Screenshot showing the options to export code in Data Wrangler.

Screenshot showing the code generated by Data Wrangler back in the notebook.