你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

定价示例:使用 Azure Databricks 按小时复制数据并进行转换

适用于: Azure 数据工厂 Azure Synapse Analytics

提示

试用 Microsoft Fabric 中的数据工厂,这是一种适用于企业的一站式分析解决方案。 Microsoft Fabric 涵盖从数据移动到数据科学、实时分析、商业智能和报告的所有内容。 了解如何免费开始新的试用版

在此方案中,需持续 30 天(每天 8 小时)使用 Azure Databricks 按计划将数据每隔一小时从 AWS S3 复制到 Azure Blob 存储并对数据进行转换。

此示例中使用的是假定价格,并不是指实际定价。 未显示读取/写入和监视成本,因为它们通常可以忽略不计,并且不会对总体成本产生显著影响。 在定价计算器估计中,活动运行也舍入到最接近的 1000。

请参阅 Azure 定价计算器了解更多特定场景,并估计将来使用该服务的成本。

配置

若要完成此方案,需使用以下项创建一个管道:

  • 一个使用输入数据集(适用于将要从 AWS S3 复制的数据)和输出数据集(适用于 Azure 存储上的数据)的复制活动。
  • 一个用于数据转换的 Azure Databricks 活动。
  • 一个计划触发器,用于每隔一小时执行一次管道。 当你想要运行管道时,你可以立即触发管道或计划管道。 除了管道本身,每个触发器实例都算作单个活动运行。

Diagram shows a pipeline with a schedule trigger. In the pipeline, copy activity flows to an input dataset, an output dataset, and a DataBricks activity, which runs on Azure Databricks. The input dataset flows to an AWS S3 linked service. The output dataset flows to an Azure Storage linked service.

成本估算

操作 类型和单元
运行管道 每次执行 3 次活动运行(1 次用于触发器运行,2 次用于活动运行)=720 次活动运行,由于计算器仅允许 1000 的增量,因此向上取整。
复制数据假设:每次执行的 DIU 小时数 =10 分钟 10 分钟\60 分钟 * 4 Azure Integration Runtime(默认 DIU 设置 = 4)有关数据集成单元和副本性能优化的详细信息,请参阅此文
执行 Databricks 活动假设:每次执行的外部执行小时数 =10 分钟 10 分钟\60 分钟执行外部管道活动

定价计算器示例

30 天的总方案定价:41.01 美元

Screenshot of the pricing calculator configured for a copy data and transform with Azure Databricks scenario.