Share via


Scénario de tarification utilisant Dataflow Gen2 pour charger 2 Go de données Parquet dans une table Lakehouse

Dans ce scénario, Dataflow Gen2 est utilisé pour charger 2 Go de données Parquet stockées dans Azure Data Lake Storage (ADLS) Gen2 dans une table Lakehouse dans Microsoft Fabric. Nous avons utilisé les données de l’exemple NYC Taxi – Green pour les données Parquet.

Les prix utilisés dans l’exemple suivant sont hypothétiques et n’ont pas vocation à indiquer une tarification réelle exacte. Il s’agit simplement de montrer comment estimer, planifier et gérer les coûts des projets Data Factory dans Microsoft Fabric. En outre, étant donné que les capacités de Fabric sont facturées de manière unique entre les régions, nous utilisons la tarification de paiement à l’utilisation pour une capacité Fabric dans la région USA Ouest 2 (région Azure classique), à 0,18 $ par unité de capacité par heure. Reportez-vous ici à Microsoft Fabric : tarification pour explorer d’autres options de tarification de capacité Fabric.

Configuration

Pour réaliser ce scénario, vous devez créer un flux de données en suivant ces étapes :

  1. Initialiser le flux de données : obtenez des données de fichiers Parquet de 2 Go à partir du compte de stockage ADLS Gen2.
  2. Configurer Power Query :
    1. Accédez à Power Query.
    2. Vérifiez que l’option de préproduction de la requête est activée.
    3. Combinez ensuite les fichiers Parquet.
  3. Transformation des données :
    1. Promouvez les en-têtes pour plus de clarté.
    2. Supprimez les colonnes inutiles.
    3. Ajustez les types de données de colonne en fonction des besoins.
  4. Définir la destination des données de sortie :
    1. Configurez Lakehouse comme destination de sortie de données.
    2. Dans cet exemple, un Lakehouse dans Fabric a été créé et utilisé.

Estimation des coûts à l’aide de l’application de métriques Fabric

Screenshot showing the duration and CU consumption of the job in the Fabric Metrics App.

Screenshot showing details of Dataflow Gen2 Refresh duration and CU consumption.

Screenshot showing details of SQL Endpoint Query duration and CU consumption used in the run.

Screenshot showing details of Warehouse Query and OneLake Compute duration and CU consumption used in the run.

Screenshot showing details of Query and Dataset On-Demand Refresh duration and CU consumption and SQL Endpoint Query used in the run.

Screenshot showing details of a second Query and Dataset On-Demand Refresh duration and CU consumption used in the run.

Screenshot showing details of OneLake Compute and 2 High Scale Dataflow Compute duration and CU consumption used in the run.

Le compteur de calcul de flux de données à grande échelle a enregistré une activité négligeable. Le compteur de calcul standard pour les opérations d’actualisation de Dataflow Gen2 consomme 112 098,540 unités Compute (CU). Il est important de tenir compte du fait que d’autres opérations, notamment la requête d’entrepôt, la requête de point de terminaison SQL et l’actualisation à la demande du jeu de données, constituent des aspects détaillés de l’implémentation de Dataflow Gen2 qui sont actuellement transparentes et nécessaires pour leurs opérations respectives. Toutefois, ces opérations seront masquées dans les futures mises à jour et devraient être ignorées lors de l’estimation des coûts pour Dataflow Gen2.

Remarque

Bien qu’elle soit signalée en tant que métrique, la durée réelle de l’exécution n’est pas pertinente lors du calcul des CU heures effectives avec l’application de métriques Fabric étant donné que la métrique CU secondes qu’elle signale est déjà comptabilisée pour sa durée.

Métrique Compute Standard Calcul à grande échelle
Nombre total de CU secondes 112 098,54 CU secondes 0 CU secondes
CU heures effectives facturées 112 098,54 / (60*60) = 31,14 CU heures 0 / (60*60) = 0 CU heures

Coût total d’exécution à 0,18 $/CU heure = (31,14 CU heures) * (0,18 $/CU heure) ~= 5,60 $