Share via


Exemplo de preço: copiar dados e transformá-los com o Azure Databricks por hora

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

Neste cenário, você deseja copiar dados do AWS S3 para o Armazenamento de Blobs do Azure e transformar os dados com o Azure Databricks em um agendamento por hora de 8 horas por dia durante 30 dias.

Os preços usados neste exemplo abaixo são hipotéticos e não têm o objetivo de sugerir o preço real exato. Os custos de leitura/gravação e monitoramento não são mostrados, pois normalmente são insignificantes e não afetarão os custos gerais de forma substancial. As execuções de atividade também são arredondadas para os 1000 mais próximos nas estimativas da calculadora de preços.

Veja a Calculadora de Preços do Azure para ver cenários mais específicos e estimar os custos futuros para usar o serviço.

Configuração

Para executar o cenário, você precisará criar um pipeline com os seguintes itens:

  • Uma atividade de cópia com um conjunto de dados de entrada para os dados a serem copiados do AWS S3 e um conjunto de dados de saída para os dados no Armazenamento do Azure.
  • Uma atividade do Azure Databricks para a transformação de dados.
  • Um gatilho de agenda para executar o pipeline a cada hora. Quando você quiser executar um pipeline, poderá acioná-lo imediatamente ou agendá-lo. Além do próprio pipeline, cada instância de gatilho conta como uma única execução de atividade.

Diagram shows a pipeline with a schedule trigger. In the pipeline, copy activity flows to an input dataset, an output dataset, and a DataBricks activity, which runs on Azure Databricks. The input dataset flows to an AWS S3 linked service. The output dataset flows to an Azure Storage linked service.

Estimativa de custos

Operações Tipos e unidades
Executar pipeline 3 execuções de atividade por execução (1 para a execução de gatilho, 2 para a execução de atividade) = 720 execuções de atividade, arredondadas, pois a calculadora permite apenas incrementos de mil.
Suposição ao Copiar Dados: horas de DIU por execução = 10 min 10 min\60 min * 4 Azure Integration Runtime (configuração DIU padrão = 4) Para obter mais informações sobre unidades de integração de dados e otimização de desempenho de cópia, consulte este artigo
Suposição para a atividade de execução de Databricks: horas de execução externa por execução = 10 min 10 min\60 min minutos de execução de atividade externa do pipeline

Exemplo de calculadora de preços

Preço total do cenário por 30 dias: US$ 41,01

Screenshot of the pricing calculator configured for a copy data and transform with Azure Databricks scenario.