Scenario di determinazione dei prezzi con Dataflow Gen2 per caricare 2 GB di dati Parquet in una tabella Lakehouse
In questo scenario, Dataflow Gen2 è stato usato per caricare 2 GB di dati Parquet archiviati in Azure Data Lake Archiviazione (ADLS) Gen2 in una tabella Lakehouse in Microsoft Fabric. Sono stati usati i dati di esempio NYC Taxi-green per i dati Parquet.
I prezzi utilizzati nell'esempio seguente sono ipotetici e non intendono implicare prezzi effettivi esatti. Questi sono solo per dimostrare come è possibile stimare, pianificare e gestire i costi per i progetti di Data Factory in Microsoft Fabric. Inoltre, dal momento che le capacità di Fabric sono costose in modo univoco tra le aree, vengono usati i prezzi con pagamento in base al consumo per una capacità infrastruttura negli Stati Uniti occidentali 2 (una tipica area di Azure), a $0,18 per CU all'ora. Fare riferimento qui a Microsoft Fabric - Prezzi per esplorare altre opzioni di determinazione dei prezzi della capacità dell'infrastruttura.
Impostazione
Per eseguire questo scenario, è necessario creare un flusso di dati con la procedura seguente:
- Inizializzare il flusso di dati: ottenere dati di file Parquet da 2 GB dall'account di archiviazione di ADLS Gen2.
- Configurare Power Query:
- Passare a Power Query.
- Verificare che l'opzione per la gestione temporanea della query sia abilitata.
- Procedere con la combinazione dei file Parquet.
- Trasformazione dati:
- Alzare di livello le intestazioni per maggiore chiarezza.
- Rimuovere colonne non necessarie.
- Modificare i tipi di dati della colonna in base alle esigenze.
- Definire la destinazione dei dati di output:
- Configurare Lakehouse come destinazione di output dei dati.
- In questo esempio è stato creato e utilizzato un Lakehouse all'interno di Fabric.
Stima dei costi con l'app per le metriche di infrastruttura
Il contatore di calcolo del flusso di dati a scalabilità elevata ha registrato un'attività trascurabile. Il contatore di calcolo standard per le operazioni di aggiornamento di Dataflow Gen2 usa 112.098.540 unità di calcolo (CU). È importante considerare che altre operazioni, tra cui Query warehouse, query dell'endpoint SQL e aggiornamento on demand del set di dati, costituiscono aspetti dettagliati dell'implementazione di Dataflow Gen2 attualmente trasparenti e necessarie per le rispettive operazioni. Tuttavia, queste operazioni verranno nascoste negli aggiornamenti futuri e devono essere ignorate quando si stimano i costi per Dataflow Gen2.
Nota
Anche se segnalata come metrica, la durata effettiva dell'esecuzione non è rilevante quando si calcolano le ore di cu effettive con l'app per le metriche delle metriche delle metriche cu poiché la metrica dei secondi cu segnala già la durata.
Metric | Livello di calcolo Standard | Calcolo su larga scala |
---|---|---|
Totale secondi cu | 112.098,54 SECONDI CU | 0 secondi cu |
Ore cu effettive fatturate | 112.098.54 / (60*60) = 31,14 ORE CU | 0 / (60*60) = 0 ore cu |
Costo totale esecuzione a $0,18/CU hour = (31,14 CU-hours) * ($0,18/CU hour) ~= $5,60
Contenuto correlato
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per