你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用数据流代码片段删除重复行和查找 null

适用于: Azure 数据工厂 Azure Synapse Analytics

提示

试用 Microsoft Fabric 中的数据工厂,这是一种适用于企业的一站式分析解决方案。 Microsoft Fabric 涵盖从数据移动到数据科学、实时分析、商业智能和报告的所有内容。 了解如何免费开始新的试用

通过使用映射数据流中的代码片段,可以轻松执行重复数据删除和 null 筛选等常见任务。 本文介绍如何使用数据流脚本代码片段轻松地将这些功能添加到管道。

创建管道

  1. 选择“新建管道”。

  2. 添加数据流活动。

  3. 选择“源设置”选项卡,添加源转换,然后将其连接到某个数据集。

    Screenshot of the "Source settings" pane for adding a source type.

    重复数据删除和 null 检查代码片段使用利用数据流架构偏差的一般模式。 代码片段适用于数据集中的任何架构,或没有预定义架构的数据集。

  4. 数据流脚本 (DFS) 的“使用所有列的不同行”部分中,复制 DistinctRows 的代码片段。

  5. 转到“数据流脚本”文档页,复制不同行的代码片段。

    Screenshot of a source snippet.

  6. 在脚本中,在 source1 的定义后,按 Enter,然后粘贴代码片段。

  7. 执行以下操作之一:

    • 通过在粘贴的代码前面键入 source1,将此粘贴的代码片段连接到你之前在图中创建的源转换。

    • 或者,可以通过从图中的新转换节点选择传入流,在设计器中连接新转换。

      Screenshot of the "Conditional split settings" pane.

    现在,数据流将使用聚合转换从源删除重复行,聚合转换通过对所有列值使用通用哈希来按所有行分组。

  8. 添加一个代码片段,用于将数据拆分为一个包含带 null 的行的流,以及另一个不含 null 的流。 为此,请执行以下操作:

  9. 返回到代码片段库,这一次复制 NULL 检查的代码。

    b. 在数据流设计器中,再次选择“脚本”,然后在底部粘贴此新转换代码。 此操作通过将该转换的名称置于粘贴的代码片段前面,将脚本连接到之前的转换。

    数据流图现在应如下所示:

    Screenshot of the data flow graph.

现在,你已通过从数据流脚本库中获取现有代码片段并将其添加到现有设计中,创建了一个包含通用重复数据删除和 null 检查的工作数据流。

  • 使用映射数据流转换来生成数据流逻辑的其余部分。