Seznámení s cenami služby Data Factory prostřednictvím příkladů

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tento článek vysvětluje a ukazuje Azure Data Factory cenový model s podrobnými příklady. Konkrétnější scénáře a odhad budoucích nákladů na používání této služby najdete také v cenové kalkulačce Azure.

Poznámka

Ceny použité v následujících příkladech jsou hypotetické a nemají z nich vypoužít skutečné ceny.

Kopírování dat z AWS S3 do azure Blob Storage každou hodinu

V tomto scénáři chcete kopírovat data z AWS S3 do úložiště objektů blob v Azure podle hodinových plánů.

K provedení tohoto scénáře je potřeba vytvořit kanál s následujícími položkami:

  1. Aktivita kopírování se vstupní datovou sadou pro data, která se mají zkopírovat z AWS S3.

  2. Výstupní datová sada pro data v Azure Storage.

  3. Aktivační událost plánovače, která spouští kanál každou hodinu.

    Diagram znázorňuje kanál s aktivační událostí plánovače V kanálu toky aktivity kopírování do vstupní datové sady, která se toky do propojené služby A W S S3 a aktivity kopírování, toky také do výstupní datové sady, která tokuje do Azure Storage propojené služby.

Operace Typy a jednotky
Vytvoření propojené služby 2. Entita Čtení a zápis
Vytváření datových sad 4 Entity pro čtení a zápis (2 pro vytvoření datové sady, 2 pro odkazy na propojenou službu)
Vytvoření kanálu 3 Entity pro čtení a zápis (1 pro vytvoření kanálu, 2 pro odkazy na datovou sadu)
Získání kanálu 1. Entita Čtení a zápis
Spuštění kanálu 2 Spuštění aktivit (1 pro spuštění triggeru, 1 pro spuštění aktivit)
Kopírování dat předpokladu: doba provádění = 10 min 10 4 Azure Integration Runtime (výchozí nastavení DIU = 4) Další informace o jednotkách integrace dat a optimalizaci výkonu kopírování najdete * v tomto článku.
Předpoklad monitorování kanálu: Došlo pouze k 1 spuštění 2 Načtené záznamy o monitorování spuštění (1 pro spuštění kanálu, 1 pro spuštění aktivity)

Celkové ceny za scénář: 0,16811 USD

  • Data Factory operace = 0,0001 USD
    • Čtení/zápis = 10 * 0,00001 = $0,0001 [1 R/W = $0,50/50000 = 0,00001]
    • Monitorování = 2 * 0,000005 = 0,00001 [1 Monitorování = $0,25/50000 = 0,000005]
  • Spuštění orchestrace & kanálu = 0,168 USD
    • Spuštění aktivit = 0,001 * 2 = $0,002 [1 spuštění = $1/1000 = 0,001]
    • Aktivity přesunu dat = 0,166 USD (přehodnocené po dobu 10 minut provádění. 0,25 USD za hodinu Azure Integration Runtime)

Kopírování a transformace pomocí Azure Databricks hodin

V tomto scénáři chcete zkopírovat data z AWS S3 do úložiště objektů blob v Azure a transformovat je pomocí Azure Databricks podle hodinových plánů.

K provedení tohoto scénáře je potřeba vytvořit kanál s následujícími položkami:

  1. Jedna aktivita kopírování se vstupní datovou sadou pro data, která se mají zkopírovat z AWS S3, a výstupní datovou sadu pro data v úložišti Azure.
  2. Jedna Azure Databricks pro transformaci dat.
  3. Jedna aktivační událost plánovače, která spouští kanál každou hodinu.

Diagram znázorňuje kanál s aktivační událostí plánovače V kanálu zkopírujte toky aktivit do vstupní datové sady, výstupní datovou sadu a aktivitu DataBricks, která běží na Azure Databricks. Vstupní datová sada proudí do propojené služby A W S S3. Výstupní datová sada proudí do Azure Storage propojené služby.

Operace Typy a jednotky
Vytvoření propojené služby 3. Entita Čtení a zápis
Vytváření datových sad 4 Entity pro čtení a zápis (2 pro vytvoření datové sady, 2 pro odkazy na propojenou službu)
Vytvoření kanálu 3 Entity pro čtení a zápis (1 pro vytvoření kanálu, 2 pro odkazy na datovou sadu)
Získání kanálu 1. Entita Čtení a zápis
Spuštění kanálu 3 Spuštění aktivit (1 pro spuštění triggeru, 2 pro spuštění aktivit)
Kopírování dat předpokladu: doba provádění = 10 min 10 4 Azure Integration Runtime (výchozí nastavení DIU = 4) Další informace o jednotkách integrace dat a optimalizaci výkonu kopírování najdete * v tomto článku.
Předpoklad monitorování kanálu: Došlo pouze k 1 spuštění 3 Načtené záznamy o monitorování spuštění (1 pro spuštění kanálu, 2 pro spuštění aktivit)
Předpoklad spuštění aktivity Databricks: doba provádění = 10 min 10 min. Spuštění aktivity externího kanálu

Celkové ceny za scénář: 0,16916 USD

  • Data Factory operace = 0,00012 USD
    • Čtení/zápis = 11 * 0,00001 = $0,00011 [1 R/W = $0,50/50000 = 0,00001]
    • Monitorování = 3 * 0,000005 = 0,00001 [1 Monitorování = $0,25/50000 = 0,000005]
  • Spuštění orchestrace & kanálu = 0,16904 USD
    • Spuštění aktivit = 0,001 * 3 = $0,003 [1 spuštění = $1/1000 = 0,001]
    • Aktivity přesunu dat = 0,166 USD (přehodnocené po dobu 10 minut provádění. 0,25 USD za hodinu Azure Integration Runtime)
    • Aktivita externího kanálu = 0,000041 (přehodnocená po dobu 10 minut provádění. 0,00025 USD za hodinu Azure Integration Runtime)

Kopírování dat a transformace s dynamickými parametry po hodině

V tomto scénáři chcete zkopírovat data z AWS S3 do azure Blob Storage a transformovat je pomocí Azure Databricks (s dynamickými parametry ve skriptu) podle hodinových plánů.

K provedení tohoto scénáře je potřeba vytvořit kanál s následujícími položkami:

  1. Jedna aktivita kopírování se vstupní datovou sadou pro data, která se mají zkopírovat z AWS S3, výstupní datová sada pro data v úložišti Azure.
  2. Jedna aktivita vyhledávání pro dynamické předávání parametrů do skriptu transformace.
  3. Jedna Azure Databricks pro transformaci dat.
  4. Jedna aktivační událost plánovače, která spouští kanál každou hodinu.

Diagram znázorňuje kanál s aktivační událostí plánovače V kanálu zkopírujte toky aktivit do vstupní datové sady, výstupní datovou sadu a aktivitu vyhledávání, která se toky do aktivity DataBricks, která běží na Azure Databricks. Vstupní datová sada proudí do propojené služby A W S S3. Výstupní datová sada proudí do Azure Storage propojené služby.

Operace Typy a jednotky
Vytvoření propojené služby 3. Entita Čtení a zápis
Vytváření datových sad 4 Entity pro čtení a zápis (2 pro vytvoření datové sady, 2 pro odkazy na propojenou službu)
Vytvoření kanálu 3 Entity pro čtení a zápis (1 pro vytvoření kanálu, 2 pro odkazy na datovou sadu)
Získání kanálu 1. Entita Čtení a zápis
Spuštění kanálu 4 Spuštění aktivit (1 pro spuštění triggeru, 3 pro spuštění aktivit)
Kopírování dat předpokladu: doba provádění = 10 min 10 4 Azure Integration Runtime (výchozí nastavení DIU = 4) Další informace o jednotkách integrace dat a optimalizaci výkonu kopírování najdete * v tomto článku.
Předpoklad monitorování kanálu: Došlo pouze k 1 spuštění 4 Načtené záznamy spuštění monitorování (1 pro spuštění kanálu, 3 pro spuštění aktivit)
Předpoklad spuštění aktivity vyhledávání: doba provádění = 1 min 1 min. Spuštění aktivity kanálu
Předpoklad spuštění aktivity Databricks: doba provádění = 10 min 10 min. Spuštění aktivity externího kanálu

Ceny za celkový scénář: $0,17020

  • Operace Data Factory = $0,00013
    • Čtení/zápis = 11 * 0,00001 = $0,00011 [1 R/W = $0,50/50000 = 0,00001]
    • Monitorování = 4 * 0,000005 = $0,00002 [1 monitorování = $0,25/50000 = 0,000005]
  • Spuštění orchestrace kanálu & = $0,17007
    • Spuštění aktivit = 0,001 * 4 = $0,004 [1 běh = $1/1000 = 0,001]
    • Aktivity přesunu dat = $0,166 (poměr po 10 minutách doby spuštění. měsíčně za hodinu v Azure Integration Runtime)
    • Aktivita kanálu = $0,00003 (poměr 1 minuty doby spuštění. $0.002 za hodinu v Azure Integration Runtime)
    • Aktivita externího kanálu = $0,000041 (poměr po 10 minutách doby spuštění. $0.00025 za hodinu v Azure Integration Runtime)

Spouštění balíčků SSIS v prostředí Azure – SSIS Integration runtime

Azure-SSIS Integration runtime (IR) je specializovaný cluster virtuálních počítačů Azure pro spouštění balíčků SSIS v Azure Data Factory (ADF). Když ho zřídíte, bude se vám vyhradit stejně jako jakýkoli jiný vyhrazený virtuální počítač Azure, pokud ho udržujete bez ohledu na to, jestli ho používáte ke spouštění balíčků SSIS nebo ne. S ohledem na své běžné náklady se v podokně nastavení na portálu ADF zobrazí hodinový odhad, například:

Příklad ceny SSIS

Pokud v příkladu výše udržujete Azure-SSIS IR běžet po dobu 2 hodin, bude se vám účtovat: 2 (hodiny) × US $1.158/Hour = US $2.316.

pokud chcete Azure-SSIS IR spravovat průběžné náklady, můžete škálovat velikost virtuálních počítačů, škálovat ji na velikost clusterů SQL Server, využívat možnost Zvýhodněné hybridní využití Azure (AHB), která nabízí významné úspory, přečtěte si Azure-SSIS IR cenya nebo začít & zastavovat Azure-SSIS IR zastavit, kdykoli na vyžádání a na vyžádání/v čase až po zpracování úloh SSIS, viz překonfigurování Azure-SSIS IR a naplánování Azure-SSIS IR.

Použití mapování toku dat pro normální pracovní den

Jako inženýr dat zodpovídá Sam za návrh, sestavování a testování toků dat mapování každý den. Protokol Sam se v ráno přihlásí do uživatelského rozhraní ADF a povolí režim ladění pro toky dat. Výchozí hodnota TTL pro relace ladění je 60 minut. Sam funguje během dne po dobu 8 hodin, aby relace ladění nikdy nevypršela. Proto budou poplatky za tento den v Sam:

8 (hodiny) × 8 (jader optimalizované pro výpočty) × $0,193 = $12,35

Zároveň se k uživatelskému rozhraní prohlížeče ADF pro profilaci dat a práci s návrhem ETL přihlásí zároveň pracovníka s jiným datovým inženýrem. Chris nefunguje v ADF celý den jako Sam. Pracovník Novák potřebuje použít ladicí program toku dat 1 hodinu během stejné doby a stejný den jako Sam výše. Tyto poplatky se účtují za použití ladění:

1 (hodina) × 8 (jádra pro obecné účely) × $0,274 = $2,19

Transformace dat v úložišti objektů BLOB s využitím toků mapování dat

V tomto scénáři chcete transformovat data v úložišti objektů BLOB vizuálně v toku dat mapování ADF na hodinový plán.

Chcete-li dosáhnout tohoto scénáře, je nutné vytvořit kanál s následujícími položkami:

  1. Data Flow aktivity s logikou transformace.

  2. Vstupní datová sada pro data v Azure Storage.

  3. Výstupní datová sada pro data v Azure Storage.

  4. Aktivační událost plánovače, která každou hodinu spustí kanál.

Operace Typy a jednotky
Vytvořit propojenou službu 2 entita pro čtení a zápis
Vytvoření datových sad 4 entity pro čtení a zápis (2 pro vytvoření datové sady, 2 pro odkazované odkazy na službu)
Vytvořit kanál 3 entity pro čtení a zápis (1 pro vytvoření kanálu, 2 pro odkazy na datovou sadu)
Získat kanál 1 entita pro čtení a zápis
Spustit kanál 2 spuštění aktivit (1 pro spuštění triggeru, 1 pro spuštění aktivit)
Data Flow předpoklady: doba provádění = 10 min + 10 min. TTL 10 až 10 * jader obecného výpočetních prostředků s hodnotou TTL z 10
Předpoklad monitorování kanálu: došlo k pouze 1 spuštění. 2 načetly se záznamy spuštění monitorování (1 pro spuštění kanálu, 1 pro spuštění aktivit).

Ceny za celkový scénář: $1,4631

  • Operace Data Factory = $0,0001
    • Čtení/zápis = 10 * 0,00001 = $0,0001 [1 R/W = $0,50/50000 = 0,00001]
    • Monitorování = 2 * 0,000005 = $0,00001 [1 monitorování = $0,25/50000 = 0,000005]
  • Spuštění orchestrace kanálu & = $1,463
    • Spuštění aktivit = 0,001 * 2 = $0,002 [1 běh = $1/1000 = 0,001]
    • Data Flow aktivity = $1,461 poměrná sazba po dobu 20 minut (10 minut doba provádění + 10 minut TTL). $0.274 za hodinu v Azure Integration Runtime se základními výpočetními jádry 16 jader

Integrace dat ve Azure Data Factory spravovaná virtuální síť

v tomto scénáři chcete odstranit původní soubory na azure Blob Storage a kopírovat data z Azure SQL Database do azure Blob Storage. Toto spuštění provedete dvakrát na různých kanálech. Doba provádění těchto dvou kanálů se překrývá. Scenario4 Chcete-li dosáhnout tohoto scénáře, je nutné vytvořit dva kanály s následujícími položkami:

  • Aktivita kanálu – odstranit aktivitu.
  • Aktivita kopírování se vstupní datovou sadou pro data, která se mají zkopírovat z úložiště objektů BLOB v Azure
  • Výstupní datová sada pro data v Azure SQL Database.
  • Časový Trigger pro spuštění kanálu.
Operace Typy a jednotky
Vytvořit propojenou službu 4 entita pro čtení a zápis
Vytvoření datových sad 8 entit pro čtení a zápis (4 pro vytvoření datové sady, 4 pro odkazy na propojené služby)
Vytvořit kanál 6 entit pro čtení/zápis (2 pro vytvoření kanálu, 4 pro odkazy na datovou sadu)
Získat kanál 2 entita pro čtení a zápis
Spustit kanál 6 spuštění aktivit (2 pro spuštění triggeru, 4 pro spuštění aktivit)
Provést odstranění aktivity: každou dobu běhu = 5 min. Spuštění aktivity odstranit v prvním kanálu je od 10:00 do 10:05 UTC. Provedení aktivity odstranit v druhém kanálu je od 10:02 do 10:07 UTC. Celkem 7 minut spuštění aktivity kanálu ve spravované virtuální síti Aktivita kanálu podporuje ve spravované virtuální síti až 50 souběžnosti. Hodnota TTL (Time to Live) pro aktivitu kanálu je 60 minut.
Předpoklad Kopírování dat: každá doba provádění = 10 min. Provedení kopírování v prvním kanálu je od 10:06 do 10:15 UTC. Spuštění aktivity kopírování v druhém kanálu je od 10:08 do 10:17 UTC. 10 * 4 Azure Integration Runtime (výchozí nastavení DIÚ = 4) Další informace o jednotkách integrace dat a optimalizaci výkonu kopírování najdete v tomto článku .
Předpokládá se sledování kanálu: narazilo se jenom na 2 běhy. 6 načtených záznamů sledovacích běhů (2 pro běh kanálu, 4 pro spuštění aktivit)

Ceny za celkový scénář: $1,45523

  • Operace Data Factory = $0,00023
    • Čtení/zápis = 20 * 0.00001 = $0,0002 [1 R/W = $0,50/50000 = 0,00001]
    • Monitorování = 6 * 0.000005 = $0,00003 [1 monitorování = $0,25/50000 = 0,000005]
  • Orchestrace kanálu & provádění = $1,455
    • Spuštění aktivit = 0,001 * 6 = $0,006 [1 Run = $1/1000 = 0,001]
    • Aktivity přesunu dat = 0,333 USD (přehodnocené po dobu 10 minut provádění. 0,25 USD za hodinu Azure Integration Runtime)
    • Aktivita kanálu = 1,116 USD (přehodnocené po dobu 7 minut od spuštění plus 60 minut TTL. 1 USD za hodinu Azure Integration Runtime)

Poznámka

Tyto ceny jsou jenom pro účely příkladu.

Nejčastější dotazy

Otázka: Pokud chci spustit více než 50 aktivit kanálu, je možné tyto aktivity provést současně?

O: Bude povoleno maximálně 50 souběžných aktivit kanálu. 51. aktivita kanálu se zařadit do fronty, dokud se neotevře "volný slot". Totéž pro externí aktivitu. Bude povoleno maximálně 800 souběžných externích aktivit.

Další kroky

Teď, když rozumíte cenám pro Azure Data Factory, můžete začít!