Scénář cen s využitím toku dat Gen2 k načtení 2 GB dat Parquet do tabulky Lakehouse

Článek
11/16/2023

V tomto scénáři se tok Dat Gen2 použil k načtení 2 GB dat Parquet uložených v Azure Data Lake Storage (ADLS) Gen2 do tabulky Lakehouse v Microsoft Fabric. Pro data Parquet jsme použili ukázková data NYC Taxi-green.

Ceny použité v následujícím příkladu jsou hypotetické a nemají v úmyslu znamenat přesné skutečné ceny. Jedná se jen o ukázku toho, jak můžete odhadnout, naplánovat a spravovat náklady na projekty služby Data Factory v Microsoft Fabric. Vzhledem k tomu, že kapacity Fabric jsou cenově jedinečné napříč oblastmi, používáme ceny průběžných plateb za kapacitu Fabric v oblasti USA – západ 2 (typická oblast Azure), a to v hodnotě 0,18 USD za CU za hodinu. Projděte si Microsoft Fabric – ceny a prozkoumejte další možnosti cen kapacity Fabric.

Konfigurace

K dosažení tohoto scénáře je potřeba vytvořit tok dat pomocí následujících kroků:

Inicializace toku dat: Získání dat souborů Parquet o velikosti 2 GB z účtu úložiště ADLS Gen2
Konfigurace Power Query:
1. Přejděte do Power Query.
2. Ujistěte se, že je povolená možnost pro přípravu dotazu.
3. Pokračujte kombinování souborů Parquet.
Transformace dat:
1. Zvýšení úrovně záhlaví pro přehlednost
2. Odeberte nepotřebné sloupce.
3. Podle potřeby upravte datové typy sloupců.
Definovat cíl výstupních dat:
1. Nakonfigurujte Lakehouse jako cíl výstupu dat.
2. V tomto příkladu se vytvořil a využil lakehouse v rámci fabric.

Odhad nákladů pomocí aplikace Metriky prostředků infrastruktury

Screenshot showing the duration and CU consumption of the job in the Fabric Metrics App.

Screenshot showing details of Dataflow Gen2 Refresh duration and CU consumption.

Screenshot showing details of SQL Endpoint Query duration and CU consumption used in the run.

Screenshot showing details of Warehouse Query and OneLake Compute duration and CU consumption used in the run.

Screenshot showing details of Query and Dataset On-Demand Refresh duration and CU consumption and SQL Endpoint Query used in the run.

Screenshot showing details of a second Query and Dataset On-Demand Refresh duration and CU consumption used in the run.

Screenshot showing details of OneLake Compute and 2 High Scale Dataflow Compute duration and CU consumption used in the run.

Výpočetní měřič toku dat ve velkém měřítku zaznamenal zanedbatelnou aktivitu. Standardní výpočetní měřič pro operace aktualizace Dataflow Gen2 spotřebovává 112 098,540 výpočetních jednotek (CU). Je důležité vzít v úvahu, že další operace, včetně dotazů na sklad, dotazů koncového bodu SQL a aktualizace datové sady na vyžádání, představují podrobné aspekty implementace Toku dat Gen2, které jsou aktuálně transparentní a nezbytné pro jejich příslušné operace. Tyto operace se však v budoucích aktualizacích zachovají a při odhadu nákladů na tok Dat Gen2 by se měly ignorovat.

Poznámka:

I když se hlásí jako metrika, skutečná doba trvání spuštění není relevantní při výpočtu efektivních hodin CU s aplikací Metriky prostředků infrastruktury, protože metrika cu sekund, která také hlásí účty po dobu trvání.

Metrika	Compute úrovně Standard	Vysokokapacitní výpočetní prostředky
Celkový počet sekund CU	112 098,54 CU sekund	0 SEKUND CU
Fakturované efektivní hodiny CU	112 098,54 / (60*60) = 31,14 HODIN CU	0 / (60*60) = 0 HODIN CU

Celkové náklady na spuštění za 0,18 USD za hodinu CU = (31,14 CU-hours) * (0,18 USD za hodinu CU) ~= 5,60 USD

Sdílet prostřednictvím

Scénář cen s využitím toku dat Gen2 k načtení 2 GB dat Parquet do tabulky Lakehouse

Konfigurace

Odhad nákladů pomocí aplikace Metriky prostředků infrastruktury

Váš názor

Váš názor

Další materiály

Sdílet prostřednictvím

Scénář cen s využitím toku dat Gen2 k načtení 2 GB dat Parquet do tabulky Lakehouse

Konfigurace

Odhad nákladů pomocí aplikace Metriky prostředků infrastruktury

Související obsah

Váš názor

Váš názor

Další materiály