Condividi tramite


Scenario di determinazione dei prezzi con Dataflow Gen2 per caricare 2 GB di dati Parquet in una tabella Lakehouse

In questo scenario, Dataflow Gen2 è stato usato per caricare 2 GB di dati Parquet archiviati in Azure Data Lake Archiviazione (ADLS) Gen2 in una tabella Lakehouse in Microsoft Fabric. Sono stati usati i dati di esempio NYC Taxi-green per i dati Parquet.

I prezzi utilizzati nell'esempio seguente sono ipotetici e non intendono implicare prezzi effettivi esatti. Questi sono solo per dimostrare come è possibile stimare, pianificare e gestire i costi per i progetti di Data Factory in Microsoft Fabric. Inoltre, dal momento che le capacità di Fabric sono costose in modo univoco tra le aree, vengono usati i prezzi con pagamento in base al consumo per una capacità infrastruttura negli Stati Uniti occidentali 2 (una tipica area di Azure), a $0,18 per CU all'ora. Fare riferimento qui a Microsoft Fabric - Prezzi per esplorare altre opzioni di determinazione dei prezzi della capacità dell'infrastruttura.

Impostazione

Per eseguire questo scenario, è necessario creare un flusso di dati con la procedura seguente:

  1. Inizializzare il flusso di dati: ottenere dati di file Parquet da 2 GB dall'account di archiviazione di ADLS Gen2.
  2. Configurare Power Query:
    1. Passare a Power Query.
    2. Verificare che l'opzione per la gestione temporanea della query sia abilitata.
    3. Procedere con la combinazione dei file Parquet.
  3. Trasformazione dati:
    1. Alzare di livello le intestazioni per maggiore chiarezza.
    2. Rimuovere colonne non necessarie.
    3. Modificare i tipi di dati della colonna in base alle esigenze.
  4. Definire la destinazione dei dati di output:
    1. Configurare Lakehouse come destinazione di output dei dati.
    2. In questo esempio è stato creato e utilizzato un Lakehouse all'interno di Fabric.

Stima dei costi con l'app per le metriche di infrastruttura

Screenshot showing the duration and CU consumption of the job in the Fabric Metrics App.

Screenshot showing details of Dataflow Gen2 Refresh duration and CU consumption.

Screenshot showing details of SQL Endpoint Query duration and CU consumption used in the run.

Screenshot showing details of Warehouse Query and OneLake Compute duration and CU consumption used in the run.

Screenshot showing details of Query and Dataset On-Demand Refresh duration and CU consumption and SQL Endpoint Query used in the run.

Screenshot showing details of a second Query and Dataset On-Demand Refresh duration and CU consumption used in the run.

Screenshot showing details of OneLake Compute and 2 High Scale Dataflow Compute duration and CU consumption used in the run.

Il contatore di calcolo del flusso di dati a scalabilità elevata ha registrato un'attività trascurabile. Il contatore di calcolo standard per le operazioni di aggiornamento di Dataflow Gen2 usa 112.098.540 unità di calcolo (CU). È importante considerare che altre operazioni, tra cui Query warehouse, query dell'endpoint SQL e aggiornamento on demand del set di dati, costituiscono aspetti dettagliati dell'implementazione di Dataflow Gen2 attualmente trasparenti e necessarie per le rispettive operazioni. Tuttavia, queste operazioni verranno nascoste negli aggiornamenti futuri e devono essere ignorate quando si stimano i costi per Dataflow Gen2.

Nota

Anche se segnalata come metrica, la durata effettiva dell'esecuzione non è rilevante quando si calcolano le ore di cu effettive con l'app per le metriche delle metriche delle metriche cu poiché la metrica dei secondi cu segnala già la durata.

Metric Livello di calcolo Standard Calcolo su larga scala
Totale secondi cu 112.098,54 SECONDI CU 0 secondi cu
Ore cu effettive fatturate 112.098.54 / (60*60) = 31,14 ORE CU 0 / (60*60) = 0 ore cu

Costo totale esecuzione a $0,18/CU hour = (31,14 CU-hours) * ($0,18/CU hour) ~= $5,60