如何使用复制活动复制数据

在数据管道中,可以使用复制活动在云数据存储中复制数据。

复制数据后,可以使用其他活动进一步转换和分析数据。 还可使用复制活动发布有关商业智能 (BI) 和应用程序消耗的转换和分析结果。

若要将数据从源复制到目标,运行复制活动的服务将执行以下步骤:

  1. 读取源数据存储中的数据。
  2. 执行序列化/反序列化、压缩/解压缩、列映射等。 它根据配置执行这些操作。
  3. 将数据写入目标数据存储。

先决条件

若要开始,必须满足以下先决条件:

  • 具有活动订阅的 Microsoft Fabric 租户帐户。 免费创建帐户。

  • 确保具有已启用 Microsoft Fabric 的工作区。

使用复制助手添加复制活动

按照以下步骤使用复制助手设置复制活动。

从复制助手开始

  1. 打开现有数据管道或创建新的数据管道。

  2. 选择画布上的“复制数据”,打开“复制助手”工具以开始使用。 或者从功能区上“活动”选项卡下的“复制数据”下拉列表中选择“使用复制助手”。

    Screenshot showing options for opening the copy assistant.

配置源

  1. 从类别中选择数据源类型。 你将使用 Azure Blob 存储作为示例。 选择“Azure Blob 存储”,然后选择“下一步”。

    Screenshot of Choose data source screen.

    Screenshot showing where to select the correct data source.

  2. 通过选择“创建新连接”,创建与数据源的连接。

    Screenshot showing where to select New connection.

    选择“创建新连接”后,填写所需的连接信息,然后选择“下一步”。 有关为每种类型的数据源创建连接的详细信息,请参阅每个 连接器文章

    如果有现有连接,则可以选择“现有连接”,然后从下拉列表中选择连接。

    Screenshot showing the existing connection.

  3. 选择要在此源配置步骤中复制的文件或文件夹,然后选择“下一步”。

    Screenshot showing where to select the data to be copied.

配置目标

  1. 从类别中选择数据源类型。 你将使用 Azure Blob 存储作为示例。 选择“Azure Blob 存储”,然后选择“下一步”。

    Screenshot showing how to select Azure Blob Storage.

  2. 可以按照上一部分中的步骤创建链接到新 Azure Blob 存储帐户的新连接,也可以使用连接下拉列表中的现有连接。 测试连接编辑功能可用于每个选定的连接。

    Screenshot showing data connection options.

  3. 配置源数据并将其映射到目标。 然后选择“下一步”以完成目标配置。

    Screenshot of Map to destination screen.

    Screenshot of Connect to data destination.

查看并创建复制活动

  1. 在前面的步骤中查看复制活动设置,然后选择“确定”以完成。 或者,如果需要,可以返回到上述步骤,在工具中编辑设置。

    Screenshot showing the Review and create screen.

完成后,复制活动将添加到数据管道画布。 选中后,所有设置(包括此复制活动的高级设置)都将位于选项卡下。

Screenshot showing a copy activity on the data pipeline canvas.

现在,可以使用此单一复制活动保存数据管道,也可以继续设计数据管道。

直接添加复制活动

请按照以下步骤直接添加复制活动。

添加“复制活动”

  1. 打开现有数据管道或创建新的数据管道。

  2. 通过选择“添加管道活动>复制活动”,或通过选择活动选项卡下的“复制数据>添加到画布”来添加复制活动。

    Screenshot showing two ways to add a copy activity.

在“常规”选项卡下配置常规设置

若要了解如何配置常规设置,请参阅 常规

在“源”选项卡下配置源

  1. 选择“连接”旁边的“+ 新建”以创建与数据源的连接。

    Screenshot showing where to select New.

    1. 从弹出窗口中选择数据源类型。 你将使用 Azure SQL Database 作为示例。 选择“Azure SQL 数据库”,然后选择“继续”。

      Screenshot showing how to select the data source.

    2. 它会导航到连接创建页。 在面板上填写所需的连接信息,然后选择创建。 有关为每种类型的数据源创建连接的详细信息,请参阅每个 连接器文章

      Screenshot showing New connection page.

    3. 成功创建连接后,它将返回到数据管道页。 然后选择“刷新”以从下拉列表中提取创建的连接。 也可以直接从下拉列表中选择现有的 Azure SQL 数据库连接(如果之前已创建该连接)。 测试连接编辑功能可用于每个选定的连接。 然后在“连接类型”中选择“Azure SQL 数据库”。

      Screenshot showing where to refresh your connection.

  2. 指定要复制的表。 选择“预览数据”以预览源表。 还可以使用 查询存储过程 从源读取数据。

    Screenshot showing source table settings options.

  3. 展开“高级”以获取更多高级设置。

    Screenshot of advanced settings.

在“目标”选项卡下配置目标

  1. 选择目标类型。 它可以是工作区(如 Lakehouse)的内部一流数据存储,也可以是外部数据存储。 你将使用 Lakehouse 作为示例。

    Screenshot showing where to select destination type.

  2. 选择在工作区数据存储类型中使用 Lakehouse。 选择“+ 新建”,然后导航到 Lakehouse 创建页面。 指定 Lakehouse 名称,然后选择“创建”。

    Screenshot showing Lakehouse creation.

  3. 成功创建连接后,它将返回到数据管道页。 然后选择“刷新”以从下拉列表中提取创建的连接。 也可以直接从下拉列表中选择现有的 Lakehouse 连接(如果之前已创建)。

    Screenshot showing selecting connection.

  4. 指定表或设置文件路径,以将文件或文件夹定义为目标。 在此处选择“”并指定要写入数据的表。

    Screenshot showing where to find Table settings.

  5. 展开“高级”以获取更多高级设置。

    Screenshot of Advanced options.

现在,可以使用此单一复制活动保存数据管道,也可以继续设计数据管道。

在“映射”选项卡下配置映射

如果应用的连接器支持映射,则可以转到“映射”选项卡来配置映射。

  1. 选择“导入架构”以导入数据架构。

    Screenshot of mapping settings 1.

  2. 可以看到自动映射已显示。 指定 列和 目标 列。 如果在目标中创建新表,则可以在此处自定义 目标 列名称。 如果要将数据写入现有目标表,则无法修改现有 目标 列名称。 还可以查看源列和目标列的 类型

    Screenshot of mapping settings 2.

此外,还可以选择“+ 新建映射”以添加新映射,选择“清除”以清除所有映射设置,选择“重置”以重置所有映射“”列。

配置类型转换

展开“类型转换设置”,根据需要配置类型转换。

Screenshot of mapping type conversion.

有关详细信息,请参阅下表。

设置 说明
允许数据截断 在复制期间将源数据转换为具有不同类型的目标时,允许数据截断。 例如,从十进制到整数,从 DatetimeOffset 到 Datetime。
将布尔值视为数字 将布尔值视为数字。 例如,将 true 视为 1。
Datetime 格式 在日期(不包含时区偏移)和字符串之间进行转换时的格式字符串。 例如 "yyyy-MM-dd HH:mm:ss.fff"。
DateTimeOffset 格式 在日期(包含时区偏移)和字符串之间进行转换时的格式字符串。 例如 "yyyy-MM-dd HH:mm:ss.fff zzz"。
时间范围格式 在时间段和字符串之间进行转换时的格式字符串。 例如 "dd.hh:mm:ss"。
区域性 转换类型时要使用的区域性信息。 例如“en-us”、“fr-fr”。

在“设置”选项卡下配置其他设置

设置 选项卡包含性能、过渡等设置。

Screenshot of Settings tab.

请参阅下表以了解每个设置的描述。

设置 说明
智能吞吐量优化 指定以优化吞吐量。 可以选择:
自动
标准
均衡
最大值
选择“自动”时,将根据源-目标对和数据模式动态应用最佳设置。 还可以自定义吞吐量,自定义值可以是 2-256,而值越高意味着收益越大。
复制并行度 指定数据加载将使用的并行度。
容错 选择此选项时,可以忽略复制过程中发生的一些错误。 例如,源存储与目标存储之间的不兼容行、在数据移动期间删除的文件等。
启用日志记录 选择此选项时,可以记录复制的文件、跳过的文件和行
启用暂存 指定是否要通过过渡暂存存储复制数据。 仅针对有利方案启用暂存。
暂存帐户连接 选择“启用暂存”时,将 Azure 存储数据源的连接指定为临时暂存存储。 如果没有临时连接,请选择“+ 新建”以创建过渡连接。

在复制活动中配置参数

参数可用于控制管道及其活动的行为。 可以使用“添加动态内容”来指定复制活动属性的参数。 让我们以指定 Lakehouse/Data Warehouse/KQL 数据库为例,了解如何使用它。

  1. 在源或目标中,选择 工作区 作为数据存储类型,并将 Lakehouse/Data Warehouse/KQL 数据库 指定为工作区数据存储类型后,在 LakehouseData WarehouseKQL 数据库 下拉列表中选择 添加动态内容

  2. 在弹出窗格“添加动态内容”中的“参数”选项卡下,选择 +

    Screenshot showing the Add dynamic content page.

  3. 指定参数的名称,并根据需要为其指定默认值,也可以在管道中选择“运行”后指定参数的值。

    Screenshot shows creating a new parameter.

    请注意,参数值应为 Lakehouse/Data Warehouse/KQL 数据库对象 ID。 若要获取 Lakehouse/数据仓库Data Warehouse/KQL 数据库对象 ID,请在工作区中打开 Lakehouse/Data Warehouse/KQL 数据库,并且 ID 位于 URL 中的 /lakehouses//datawarehouses//databases/ 之后。

    • Lakehouse 对象 ID

      Screenshot showing the Lakehouse object ID.

    • Data Warehouse 对象 ID

      Screenshot showing the Data Warehouse object ID.

    • KQL 数据库对象 ID

      Screenshot showing the KQL Database object ID.

  4. 选择“保存”,以返回到 添加动态内容 窗格。 然后选择参数,使其显示在表达式框中。 然后选择“确定”。 你将返回到管道页,可以看到在 Lakehouse 对象 ID/Data Warehouse 对象 ID/KQL 数据库对象 ID 后指定参数表达式。

    Screenshot showing selecting parameter.