Cenário de preços usando Dataflow Gen2 para carregar 2 GB de dados do Parquet em uma tabela Lakehouse

Artigo
11/16/2023

Nesse cenário, o Dataflow Gen2 foi usado para carregar 2 GB de dados do Parquet armazenados no Azure Data Lake Storage (ADLS) Gen2 em uma tabela Lakehouse no Microsoft Fabric. Usamos os dados de amostra NYC Taxi-green para os dados do Parquet.

Os preços usados no exemplo a seguir são hipotéticos e não pretendem implicar preços reais exatos. Estes são apenas para demonstrar como você pode estimar, planejar e gerenciar o custo para projetos do Data Factory no Microsoft Fabric. Além disso, como as capacidades de malha têm preços exclusivos entre regiões, usamos o preço pré-pago para uma capacidade de malha no Oeste dos EUA 2 (uma região típica do Azure), a US$ 0,18 por por hora. Consulte aqui Microsoft Fabric - Pricing para explorar outras opções de preços de capacidade de malha.

Configuração

Para realizar esse cenário, você precisa criar um fluxo de dados com as seguintes etapas:

Inicializar fluxo de dados: obtenha dados de arquivos Parquet de 2 GB da conta de armazenamento ADLS Gen2.
Configurar o Power Query:
1. Navegue até Power Query.
2. Verifique se a opção para preparar a consulta está ativada.
3. Prossiga para combinar os arquivos do Parquet.
Transformação de dados:
1. Promova cabeçalhos para maior clareza.
2. Remova colunas desnecessárias.
3. Ajuste os tipos de dados de coluna conforme necessário.
Definir Destino dos Dados de Saída:
1. Configure o Lakehouse como o destino de saída de dados.
2. Neste exemplo, uma Lakehouse dentro do Fabric foi criada e utilizada.

Estimativa de custos usando o aplicativo Fabric Metrics

Screenshot showing the duration and CU consumption of the job in the Fabric Metrics App.

Screenshot showing details of Dataflow Gen2 Refresh duration and CU consumption.

Screenshot showing details of SQL Endpoint Query duration and CU consumption used in the run.

Screenshot showing details of Warehouse Query and OneLake Compute duration and CU consumption used in the run.

Screenshot showing details of Query and Dataset On-Demand Refresh duration and CU consumption and SQL Endpoint Query used in the run.

Screenshot showing details of a second Query and Dataset On-Demand Refresh duration and CU consumption used in the run.

Screenshot showing details of OneLake Compute and 2 High Scale Dataflow Compute duration and CU consumption used in the run.

O medidor de computação de fluxo de dados de alta escala registrou atividade insignificante. O medidor de computação padrão para operações de atualização do Dataflow Gen2 consome 112.098.540 unidades de computação (CUs). É importante considerar que outras operações, incluindo Warehouse Query, SQL Endpoint Query e Dataset On-Demand Refresh, constituem aspetos detalhados da implementação do Dataflow Gen2 que atualmente são transparentes e necessários para suas respetivas operações. No entanto, essas operações serão ocultadas em atualizações futuras e devem ser desconsideradas ao estimar os custos para o Dataflow Gen2.

Nota

Embora relatada como uma métrica, a duração real da execução não é relevante ao calcular as horas efetivas com o Fabric Metrics App, uma vez que a métrica segundos que ela também relata já contabiliza sua duração.

Metric	Computação Standard	Computação de alta escala
Total de segundos	112.098,54 segundos	0 segundos
-horas efetivas faturadas	112,098.54 / (60*60) = 31,14 horas	0 / (60*60) = 0 horas

Custo total de execução em $0.18/hora = (31.14-horas) * ($0.18/hora ) ~= $5.60

Partilhar via

Cenário de preços usando Dataflow Gen2 para carregar 2 GB de dados do Parquet em uma tabela Lakehouse

Configuração

Estimativa de custos usando o aplicativo Fabric Metrics

Comentários

Comentários

Recursos adicionais

Partilhar via

Cenário de preços usando Dataflow Gen2 para carregar 2 GB de dados do Parquet em uma tabela Lakehouse

Configuração

Estimativa de custos usando o aplicativo Fabric Metrics

Conteúdos relacionados

Comentários

Comentários

Recursos adicionais