如何使用复制活动复制数据

项目
11/15/2023

在数据管道中，可以使用复制活动在云数据存储中复制数据。

复制数据后，可以使用其他活动进一步转换和分析数据。还可使用复制活动发布有关商业智能 (BI) 和应用程序消耗的转换和分析结果。

若要将数据从源复制到目标，运行复制活动的服务将执行以下步骤：

读取源数据存储中的数据。
执行序列化/反序列化、压缩/解压缩、列映射等。它根据配置执行这些操作。
将数据写入目标数据存储。

先决条件

若要开始，必须满足以下先决条件：

具有活动订阅的 Microsoft Fabric 租户帐户。免费创建帐户。
确保具有已启用 Microsoft Fabric 的工作区。

使用复制助手添加复制活动

按照以下步骤使用复制助手设置复制活动。

从复制助手开始

打开现有数据管道或创建新的数据管道。
选择画布上的“复制数据”，打开“复制助手”工具以开始使用。或者从功能区上“活动”选项卡下的“复制数据”下拉列表中选择“使用复制助手”。

配置源

从类别中选择数据源类型。你将使用 Azure Blob 存储作为示例。选择“Azure Blob 存储”，然后选择“下一步”。
通过选择“创建新连接”，创建与数据源的连接。

选择“创建新连接”后，填写所需的连接信息，然后选择“下一步”。有关为每种类型的数据源创建连接的详细信息，请参阅每个连接器文章。

如果有现有连接，则可以选择“现有连接”，然后从下拉列表中选择连接。
选择要在此源配置步骤中复制的文件或文件夹，然后选择“下一步”。

配置目标

从类别中选择数据源类型。你将使用 Azure Blob 存储作为示例。选择“Azure Blob 存储”，然后选择“下一步”。
可以按照上一部分中的步骤创建链接到新 Azure Blob 存储帐户的新连接，也可以使用连接下拉列表中的现有连接。 测试连接和编辑功能可用于每个选定的连接。
配置源数据并将其映射到目标。然后选择“下一步”以完成目标配置。

查看并创建复制活动

在前面的步骤中查看复制活动设置，然后选择“确定”以完成。或者，如果需要，可以返回到上述步骤，在工具中编辑设置。

完成后，复制活动将添加到数据管道画布。选中后，所有设置（包括此复制活动的高级设置）都将位于选项卡下。

现在，可以使用此单一复制活动保存数据管道，也可以继续设计数据管道。

直接添加复制活动

请按照以下步骤直接添加复制活动。

添加“复制活动”

打开现有数据管道或创建新的数据管道。
通过选择“添加管道活动>复制活动”，或通过选择活动选项卡下的“复制数据>添加到画布”来添加复制活动。

在“常规”选项卡下配置常规设置

若要了解如何配置常规设置，请参阅常规。

在“源”选项卡下配置源

选择“连接”旁边的“+ 新建”以创建与数据源的连接。
1. 从弹出窗口中选择数据源类型。你将使用 Azure SQL Database 作为示例。选择“Azure SQL 数据库”，然后选择“继续”。
2. 它会导航到连接创建页。在面板上填写所需的连接信息，然后选择创建。有关为每种类型的数据源创建连接的详细信息，请参阅每个连接器文章。
3. 成功创建连接后，它将返回到数据管道页。然后选择“刷新”以从下拉列表中提取创建的连接。也可以直接从下拉列表中选择现有的 Azure SQL 数据库连接（如果之前已创建该连接）。 测试连接和编辑功能可用于每个选定的连接。然后在“连接类型”中选择“Azure SQL 数据库”。
指定要复制的表。选择“预览数据”以预览源表。还可以使用查询和 存储过程 从源读取数据。
展开“高级”以获取更多高级设置。

在“目标”选项卡下配置目标

选择目标类型。它可以是工作区（如 Lakehouse）的内部一流数据存储，也可以是外部数据存储。你将使用 Lakehouse 作为示例。
选择在工作区数据存储类型中使用 Lakehouse。选择“+ 新建”，然后导航到 Lakehouse 创建页面。指定 Lakehouse 名称，然后选择“创建”。
成功创建连接后，它将返回到数据管道页。然后选择“刷新”以从下拉列表中提取创建的连接。也可以直接从下拉列表中选择现有的 Lakehouse 连接（如果之前已创建）。
指定表或设置文件路径，以将文件或文件夹定义为目标。在此处选择“表”并指定要写入数据的表。
展开“高级”以获取更多高级设置。

现在，可以使用此单一复制活动保存数据管道，也可以继续设计数据管道。

在“映射”选项卡下配置映射

如果应用的连接器支持映射，则可以转到“映射”选项卡来配置映射。

选择“导入架构”以导入数据架构。
可以看到自动映射已显示。指定源列和目标列。如果在目标中创建新表，则可以在此处自定义目标列名称。如果要将数据写入现有目标表，则无法修改现有目标列名称。还可以查看源列和目标列的类型。

此外，还可以选择“+ 新建映射”以添加新映射，选择“清除”以清除所有映射设置，选择“重置”以重置所有映射“源”列。

配置类型转换

展开“类型转换设置”，根据需要配置类型转换。

有关详细信息，请参阅下表。

设置	说明
允许数据截断	在复制期间将源数据转换为具有不同类型的目标时，允许数据截断。例如，从十进制到整数，从 DatetimeOffset 到 Datetime。
将布尔值视为数字	将布尔值视为数字。例如，将 true 视为 1。
Datetime 格式	在日期（不包含时区偏移）和字符串之间进行转换时的格式字符串。例如 "yyyy-MM-dd HH:mm:ss.fff"。
DateTimeOffset 格式	在日期（包含时区偏移）和字符串之间进行转换时的格式字符串。例如 "yyyy-MM-dd HH:mm:ss.fff zzz"。
时间范围格式	在时间段和字符串之间进行转换时的格式字符串。例如 "dd.hh:mm:ss"。
区域性	转换类型时要使用的区域性信息。例如“en-us”、“fr-fr”。

在“设置”选项卡下配置其他设置

设置选项卡包含性能、过渡等设置。

请参阅下表以了解每个设置的描述。

设置	说明
智能吞吐量优化	指定以优化吞吐量。可以选择： • 自动 • 标准 • 均衡 • 最大值选择“自动”时，将根据源-目标对和数据模式动态应用最佳设置。还可以自定义吞吐量，自定义值可以是 2-256，而值越高意味着收益越大。
复制并行度	指定数据加载将使用的并行度。
容错	选择此选项时，可以忽略复制过程中发生的一些错误。例如，源存储与目标存储之间的不兼容行、在数据移动期间删除的文件等。
启用日志记录	选择此选项时，可以记录复制的文件、跳过的文件和行
启用暂存	指定是否要通过过渡暂存存储复制数据。仅针对有利方案启用暂存。
暂存帐户连接	选择“启用暂存”时，将 Azure 存储数据源的连接指定为临时暂存存储。如果没有临时连接，请选择“+ 新建”以创建过渡连接。

在复制活动中配置参数

参数可用于控制管道及其活动的行为。可以使用“添加动态内容”来指定复制活动属性的参数。让我们以指定 Lakehouse/Data Warehouse/KQL 数据库为例，了解如何使用它。

在源或目标中，选择 工作区 作为数据存储类型，并将 Lakehouse/Data Warehouse/KQL 数据库 指定为工作区数据存储类型后，在 Lakehouse 或 Data Warehouse 或 KQL 数据库 下拉列表中选择 添加动态内容。
在弹出窗格“添加动态内容”中的“参数”选项卡下，选择 +。
指定参数的名称，并根据需要为其指定默认值，也可以在管道中选择“运行”后指定参数的值。

请注意，参数值应为 Lakehouse/Data Warehouse/KQL 数据库对象 ID。若要获取 Lakehouse/数据仓库Data Warehouse/KQL 数据库对象 ID，请在工作区中打开 Lakehouse/Data Warehouse/KQL 数据库，并且 ID 位于 URL 中的 /lakehouses/ 或 /datawarehouses/ 或 /databases/ 之后。
- Lakehouse 对象 ID：
- Data Warehouse 对象 ID：
- KQL 数据库对象 ID：
选择“保存”，以返回到 添加动态内容 窗格。然后选择参数，使其显示在表达式框中。然后选择“确定”。你将返回到管道页，可以看到在 Lakehouse 对象 ID/Data Warehouse 对象 ID/KQL 数据库对象 ID 后指定参数表达式。

如何使用复制活动复制数据

先决条件