Megosztás a következőn keresztül:


Tarifaforgatókönyv a Dataflow Gen2 használatával 2 GB Parquet-adat lakehouse-táblába való betöltéséhez

Ebben a forgatókönyvben a Dataflow Gen2-t az Azure Data Lake Storage (ADLS) Gen2-ben tárolt 2 GB parquet-adat betöltésére használták egy Lakehouse-táblába a Microsoft Fabricben. A Parquet-adatokhoz a NYC taxi-zöld mintaadatait használtuk.

Az alábbi példában használt árak hipotetikusak, és nem szándékoznak pontos tényleges díjszabást feltételezni. Ezek csupán bemutatják, hogyan becsülheti meg, tervezheti és kezelheti a Data Factory-projektek költségeit a Microsoft Fabricben. Mivel a Fabric-kapacitások ára régiónként egyedi, használatalapú fizetéses díjszabást használunk az USA 2. nyugati régiójában (egy tipikus Azure-régióban) lévő Fabric-kapacitáshoz, óránként 0,18 USD/CU áron. Tekintse meg a Microsoft Fabric – Díjszabás című témakört, amelyből megismerheti a Fabric kapacitására vonatkozó egyéb lehetőségeket.

Konfiguráció

A forgatókönyv végrehajtásához létre kell hoznia egy adatfolyamot az alábbi lépésekkel:

  1. Adatfolyam inicializálása: 2 GB parquet-fájlok adatainak lekérése az ADLS Gen2 tárfiókból.
  2. A Power Query konfigurálása:
    1. Lépjen a Power Queryre.
    2. Győződjön meg arról, hogy a lekérdezés előkészítési lehetősége engedélyezve van.
    3. Folytassa a Parquet-fájlok kombinálásával.
  3. Adatátalakítás:
    1. Fejlécek előléptetése az egyértelműség érdekében.
    2. Távolítsa el a szükségtelen oszlopokat.
    3. Szükség szerint módosítsa az oszlop adattípusát.
  4. Kimeneti adatok célhelyének meghatározása:
    1. Konfigurálja a Lakehouse-t adatkimeneti célként.
    2. Ebben a példában létrehoztunk és felhasználtunk egy Lakehouse-t a Fabricben.

Költségbecslés a Fabric Metrics alkalmazással

Screenshot showing the duration and CU consumption of the job in the Fabric Metrics App.

Screenshot showing details of Dataflow Gen2 Refresh duration and CU consumption.

Screenshot showing details of SQL Endpoint Query duration and CU consumption used in the run.

Screenshot showing details of Warehouse Query and OneLake Compute duration and CU consumption used in the run.

Screenshot showing details of Query and Dataset On-Demand Refresh duration and CU consumption and SQL Endpoint Query used in the run.

Screenshot showing details of a second Query and Dataset On-Demand Refresh duration and CU consumption used in the run.

Screenshot showing details of OneLake Compute and 2 High Scale Dataflow Compute duration and CU consumption used in the run.

A nagy léptékű adatfolyam számítási mérője elhanyagolható tevékenységet rögzített. Az Adatfolyam Gen2 frissítési műveleteihez használt standard számítási mérő 112 098.540 számítási egységet (CUS) használ fel. Fontos figyelembe venni, hogy más műveletek, köztük a Warehouse Query, az SQL Endpoint Query és az Igény szerinti adathalmaz frissítése, az adatfolyam Gen2 implementációjának olyan részletes aspektusait alkotják, amelyek jelenleg transzparensek és szükségesek a megfelelő műveletekhez. Ezek a műveletek azonban el lesznek rejtve a jövőbeli frissítésekben, és figyelmen kívül kell hagyni a 2. generációs adatfolyam költségeinek becslésekor.

Feljegyzés

Bár metrikaként jelentve, a futtatás tényleges időtartama nem releváns a tényleges CU-órák a Fabric Metrics alkalmazással való kiszámításakor, mivel a cu másodperces metrika, amelyről a jelentés is beszámol, már az időtartamát is figyelembe veszi.

Metrika Standard szintű számítási egységek Nagy léptékű számítás
Teljes CU másodperc 112 098,54 CU másodperc 0 CU másodperc
Hatályos CU-órák számlázása 112 098,54 / (60*60) = 31,14 CU óra 0 / (60*60) = 0 CU óra

Teljes futási költség 0,18 USD/CU óránként = (31,14 CU-óra) * (0,18 USD/CU óra) ~= 5,60 USD