Tarifaforgatókönyv a Dataflow Gen2 használatával 2 GB Parquet-adat lakehouse-táblába való betöltéséhez
Ebben a forgatókönyvben a Dataflow Gen2-t az Azure Data Lake Storage (ADLS) Gen2-ben tárolt 2 GB parquet-adat betöltésére használták egy Lakehouse-táblába a Microsoft Fabricben. A Parquet-adatokhoz a NYC taxi-zöld mintaadatait használtuk.
Az alábbi példában használt árak hipotetikusak, és nem szándékoznak pontos tényleges díjszabást feltételezni. Ezek csupán bemutatják, hogyan becsülheti meg, tervezheti és kezelheti a Data Factory-projektek költségeit a Microsoft Fabricben. Mivel a Fabric-kapacitások ára régiónként egyedi, használatalapú fizetéses díjszabást használunk az USA 2. nyugati régiójában (egy tipikus Azure-régióban) lévő Fabric-kapacitáshoz, óránként 0,18 USD/CU áron. Tekintse meg a Microsoft Fabric – Díjszabás című témakört, amelyből megismerheti a Fabric kapacitására vonatkozó egyéb lehetőségeket.
Konfiguráció
A forgatókönyv végrehajtásához létre kell hoznia egy adatfolyamot az alábbi lépésekkel:
- Adatfolyam inicializálása: 2 GB parquet-fájlok adatainak lekérése az ADLS Gen2 tárfiókból.
- A Power Query konfigurálása:
- Lépjen a Power Queryre.
- Győződjön meg arról, hogy a lekérdezés előkészítési lehetősége engedélyezve van.
- Folytassa a Parquet-fájlok kombinálásával.
- Adatátalakítás:
- Fejlécek előléptetése az egyértelműség érdekében.
- Távolítsa el a szükségtelen oszlopokat.
- Szükség szerint módosítsa az oszlop adattípusát.
- Kimeneti adatok célhelyének meghatározása:
- Konfigurálja a Lakehouse-t adatkimeneti célként.
- Ebben a példában létrehoztunk és felhasználtunk egy Lakehouse-t a Fabricben.
Költségbecslés a Fabric Metrics alkalmazással
A nagy léptékű adatfolyam számítási mérője elhanyagolható tevékenységet rögzített. Az Adatfolyam Gen2 frissítési műveleteihez használt standard számítási mérő 112 098.540 számítási egységet (CUS) használ fel. Fontos figyelembe venni, hogy más műveletek, köztük a Warehouse Query, az SQL Endpoint Query és az Igény szerinti adathalmaz frissítése, az adatfolyam Gen2 implementációjának olyan részletes aspektusait alkotják, amelyek jelenleg transzparensek és szükségesek a megfelelő műveletekhez. Ezek a műveletek azonban el lesznek rejtve a jövőbeli frissítésekben, és figyelmen kívül kell hagyni a 2. generációs adatfolyam költségeinek becslésekor.
Feljegyzés
Bár metrikaként jelentve, a futtatás tényleges időtartama nem releváns a tényleges CU-órák a Fabric Metrics alkalmazással való kiszámításakor, mivel a cu másodperces metrika, amelyről a jelentés is beszámol, már az időtartamát is figyelembe veszi.
Metrika | Standard szintű számítási egységek | Nagy léptékű számítás |
---|---|---|
Teljes CU másodperc | 112 098,54 CU másodperc | 0 CU másodperc |
Hatályos CU-órák számlázása | 112 098,54 / (60*60) = 31,14 CU óra | 0 / (60*60) = 0 CU óra |
Teljes futási költség 0,18 USD/CU óránként = (31,14 CU-óra) * (0,18 USD/CU óra) ~= 5,60 USD
Kapcsolódó tartalom
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: