Förstå Data Factory-priser genom exempel

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

I den här artikeln förklaras och Azure Data Factory prismodellen med detaljerade exempel. Du kan också se Priskalkylatorn för Azure för mer specifika scenarier och beräkna dina framtida kostnader för att använda tjänsten.

Anteckning

Priserna som används i de här exemplen nedan är hypotetiska och är inte avsedda att innebära faktisk prissättning.

Kopiera data från AWS S3 till Azure Blob Storage varje timme

I det här scenariot vill du kopiera data från AWS S3 till Azure Blob Storage enligt ett schema per timme.

För att åstadkomma scenariot måste du skapa en pipeline med följande objekt:

  1. En kopieringsaktivitet med en indatauppsättning för data som ska kopieras från AWS S3.

  2. En utdatauppsättning för data på Azure Storage.

  3. En schemautlösare som kör pipelinen varje timme.

    Diagram som visar en pipeline med en schemautlösare. I pipelinen kopierar du aktivitetsflöden till en indatauppsättning som flödar till en länkad A W S3-tjänst och kopieringsaktiviteten flödar även till en utdatauppsättning som flödar till en länkad tjänst Azure Storage datauppsättning.

Åtgärder Typer och enheter
Skapa länkad tjänst 2 Entitet för läsning/skrivning
Skapa datauppsättningar 4 Läs/skriv-entiteter (2 för skapande av datauppsättning, 2 för länkade tjänstreferenser)
Skapa pipeline 3 Läs/skriv-entiteter (1 för pipelineskapande, 2 för datauppsättningsreferenser)
Hämta pipeline 1 Läs-/skriventitet
Kör pipeline 2 Aktivitetskörningar (1 för utlösarkörning, 1 för aktivitetskörningar)
Kopiera data: körningstid = 10 min 10 * 4 Azure Integration Runtime (standardinställning för DIU = 4) Mer information om dataintegreringsenheter och optimering av kopieringsprestanda finns i den här artikeln
Övervaka pipelineantagande: Endast 1 körning inträffade 2 Övervakningskörningsposter hämtades (1 för pipelinekörning, 1 för aktivitetskörning)

Pris totalt scenario: 0,16811 USD

  • Data Factory Åtgärder = 0,0001 USD
    • Läsning/skrivning = 10 * 0,00001 = $0,0001 [1 R/W = $0,50/50000 = 0,00001]
    • Övervakning = 2 * 0,000005 = 0,00001 USD [1 övervakning = 0,25 USD/50000 = 0,000005]
  • Pipeline Orchestration & Execution = 0,168 USD
    • Aktivitetskörningar = 0,001 * 2 = $0,002 [1 körning = $1/1000 = 0,001]
    • Dataförflyttningsaktiviteter = 0,166 USD (prorerat för 10 minuters körningstid. 0,25 USD per timme Azure Integration Runtime)

Kopiera data och transformera med Azure Databricks varje timme

I det här scenariot vill du kopiera data från AWS S3 till Azure Blob Storage och transformera data med Azure Databricks enligt ett schema per timme.

För att åstadkomma scenariot måste du skapa en pipeline med följande objekt:

  1. En kopieringsaktivitet med en indatauppsättning för data som ska kopieras från AWS S3 och en utdatauppsättning för data i Azure Storage.
  2. En Azure Databricks aktivitet för datatransformering.
  3. En schemautlösare som kör pipelinen varje timme.

Diagram som visar en pipeline med en schemautlösare. I pipelinen kopierar du aktivitetsflöden till en indatauppsättning, en utdatauppsättning och en DataBricks-aktivitet som körs på Azure Databricks. Indatauppsättningen flödar till en A W S3-länkad tjänst. Utdatauppsättningen flödar till en Azure Storage länkad tjänst.

Åtgärder Typer och enheter
Skapa länkad tjänst 3 Läs/skriv-entitet
Skapa datauppsättningar 4 Läs/skriv-entiteter (2 för skapande av datauppsättning, 2 för länkade tjänstreferenser)
Skapa pipeline 3 Läs/skriv-entiteter (1 för pipelineskapande, 2 för datauppsättningsreferenser)
Hämta pipeline 1 Läs-/skriventitet
Kör pipeline 3 Aktivitetskörningar (1 för utlösarkörning, 2 för aktivitetskörningar)
Kopiera data: körningstid = 10 min 10 * 4 Azure Integration Runtime (standardinställning för DIU = 4) Mer information om dataintegreringsenheter och optimering av kopieringsprestanda finns i den här artikeln
Övervaka pipelineantagande: Endast 1 körning inträffade 3 Hämtade övervakningskörningsposter (1 för pipelinekörning, 2 för aktivitetskörning)
Antaganden om körning av Databricks-aktivitet: körningstid = 10 min 10 min körning av extern pipelineaktivitet

Pris totalt scenario: 0,16916 USD

  • Data Factory åtgärder = 0,000012 USD
    • Läsning/skrivning = 11 * 0,000001 = $0,00011 [1 R/W = $0,50/50000 = 0,00001]
    • Övervakning = 3 * 0,0000005 = 0,00001 USD [1 övervakning = 0,25 USD/50000 = 0,000005]
  • Pipeline Orchestration & Execution = $0.16904
    • Aktivitetskörningar = 0,001 * 3 = $0,003 [1 körning = $1/1000 = 0,001]
    • Dataförflyttningsaktiviteter = 0,166 USD (prorerat för 10 minuters körningstid. 0,25 USD per timme Azure Integration Runtime)
    • Extern pipelineaktivitet = 0,0000041 USD (prorated for 10 minutes of execution time (10 minuters körningstid). 0,00025 USD/timme Azure Integration Runtime)

Kopiera data och transformera med dynamiska parametrar varje timme

I det här scenariot vill du kopiera data från AWS S3 till Azure Blob Storage och transformera med Azure Databricks (med dynamiska parametrar i skriptet) enligt ett schema per timme.

För att åstadkomma scenariot måste du skapa en pipeline med följande objekt:

  1. En kopieringsaktivitet med en indatauppsättning för data som ska kopieras från AWS S3, en utdatauppsättning för data i Azure Storage.
  2. En sökningsaktivitet för att skicka parametrar dynamiskt till transformeringsskriptet.
  3. En Azure Databricks aktivitet för datatransformering.
  4. En schemautlösare som kör pipelinen varje timme.

Diagram som visar en pipeline med en schemautlösare. I pipelinen kopierar du aktivitetsflöden till en indatauppsättning, en utdatauppsättning och en sökningsaktivitet som flödar till en DataBricks-aktivitet som körs Azure Databricks. Indatauppsättningen flödar till en A W S3-länkad tjänst. Utdatauppsättningen flödar till en Azure Storage länkad tjänst.

Åtgärder Typer och enheter
Skapa länkad tjänst 3 Läs/skriv-entitet
Skapa datauppsättningar 4 Läs/skriv-entiteter (2 för skapande av datauppsättning, 2 för länkade tjänstreferenser)
Skapa pipeline 3 Läs/skriv-entiteter (1 för pipelineskapande, 2 för datauppsättningsreferenser)
Hämta pipeline 1 Läs-/skriventitet
Kör pipeline 4 aktivitetskörningar (1 för utlösarkörning, 3 för aktivitetskörningar)
Kopiera data: körningstid = 10 min 10 * 4 Azure Integration Runtime (standardinställning för DIU = 4) Mer information om dataintegreringsenheter och optimering av kopieringsprestanda finns i den här artikeln
Övervaka pipelineantagande: Endast 1 körning inträffade 4 Övervakningskörningsposter hämtades (1 för pipelinekörning, 3 för aktivitetskörning)
Antaganden om körningsaktivitet: körningstid = 1 min 1 min Pipeline-aktivitetskörning
Antaganden om körning av Databricks-aktivitet: körningstid = 10 min 10 min körning av extern pipelineaktivitet

Pris totalt scenario: 0,17020 USD

  • Data Factory åtgärder = 0,00013 USD
    • Läsning/skrivning = 11 * 0,000001 = $0,00011 [1 R/W = $0,50/50000 = 0,00001]
    • Övervakning = 4 * 0,000005 = $0,00002 [1 övervakning = 0,25 USD/50000 = 0,000005]
  • Pipeline Orchestration & Execution = $0.17007
    • Aktivitetskörningar = 0,001 * 4 = 0,004 USD [1 körning = $1/1000 = 0,001]
    • Dataförflyttningsaktiviteter = 0,166 USD (prorerat för 10 minuters körningstid. 0,25 USD per timme Azure Integration Runtime)
    • Pipeline-aktivitet = 0,00003 USD (prorerat för en minuts körningstid. 0,002 USD/timme Azure Integration Runtime)
    • Extern pipelineaktivitet = 0,0000041 USD (prorated for 10 minutes of execution time (10 minuters körningstid). 0,00025 USD/timme Azure Integration Runtime)

Köra SSIS-paket på Azure-SSIS Integration Runtime

Azure-SSIS Integration Runtime (IR) är ett särskilt kluster av virtuella Azure-datorer (VM) för SSIS-paketkörningar i Azure Data Factory (ADF). När du etablerar den kommer den att vara dedikerad till dig. Därför debiteras den precis som andra dedikerade virtuella Azure-datorer så länge du fortsätter att köra den, oavsett om du använder den för att köra SSIS-paket eller inte. När det gäller den löpande kostnaden ser du timuppskattningen i konfigurationsfönstret i ADF-portalen, till exempel:

Exempel på SSIS-priser

Om du fortsätter att köra din Azure-SSIS IR i 2 timmar i exemplet ovan debiteras du: 2 (timmar) x 1,158 USD/timme = 2,316 USD.

För att hantera din Azure-SSIS IR löpande kostnad kan du skala ned din VM-storlek, skala i klusterstorleken, ta med din egen SQL Server-licens via alternativet Azure Hybrid-förmån (AHB) som ger betydande besparingar, se Azure-SSIS IR-priseroch eller starta & stoppa din Azure-SSIS IR när det är praktiskt/på begäran/precis i tid för att bearbeta dina SSIS-arbetsbelastningar, se Konfigurera om Azure-SSIS IR och schemalägg Azure-SSIS IR.

Använda mappning av dataflödesfelsökning under en normal arbetsdag

Som en Dataingenjör ansvarar Sam för att utforma, skapa och testa mappningsdataflöden varje dag. Sam loggar in i ADF-användargränssnittet på morgonen och aktiverar felsökningsläget för dataflöden. Standard-TTL för felsökningssessioner är 60 minuter. Sam arbetar under dagen i åtta timmar, så felsökningssessionen upphör aldrig att gälla. Därför blir Sams avgifter för dagen:

8 (timmar) x 8 (beräkningsoptimerade kärnor) x 0,193 USD = 12,35 USD

På samma gång loggar Chris, en annan Dataingenjör, även i ADF-webbläsarens användargränssnitt för dataprofilering och ETL-designarbete. Chris arbetar inte i ADF hela dagen som Sam. Chris behöver bara använda dataflödesfelsökaren i en timme under samma period och samma dag som Sam ovan. Det här är de avgifter som Chris debiteras för felsökningsanvändning:

1 (timme) x 8 (kärnor för generell användning) x 0,274 USD = 2,19 USD

Transformera data i bloblagring med mappning av dataflöden

I det här scenariot vill du transformera data i Blob Store visuellt i ADF-mappningsdataflöden enligt ett schema per timme.

För att åstadkomma scenariot måste du skapa en pipeline med följande objekt:

  1. En Data Flow aktivitet med transformeringslogiken.

  2. En indatauppsättning för data på Azure Storage.

  3. En utdatauppsättning för data på Azure Storage.

  4. En schemautlösare som kör pipelinen varje timme.

Åtgärder Typer och enheter
Skapa länkad tjänst 2 Läs/skriv-entitet
Skapa datauppsättningar 4 Läs/skriv-entiteter (2 för skapande av datauppsättning, 2 för länkade tjänstreferenser)
Skapa pipeline 3 Läs/skriv-entiteter (1 för pipelineskapande, 2 för datauppsättningsreferenser)
Hämta pipeline 1 Läs-/skriventitet
Kör pipeline 2 Aktivitetskörningar (1 för utlösarkörning, 1 för aktivitetskörningar)
Data Flow antaganden: körningstid = 10 min + 10 min TTL 10 * 16 kärnor allmän beräkning med TTL på 10
Övervaka pipelineantagande: Endast 1 körning inträffade 2 Övervakningskörningsposter hämtades (1 för pipelinekörning, 1 för aktivitetskörning)

Pris totalt scenario: 1,4631 USD

  • Data Factory Åtgärder = 0,0001 USD
    • Läsning/skrivning = 10 * 0,00001 = $0,0001 [1 R/W = $0,50/50000 = 0,00001]
    • Övervakning = 2 * 0,0000005 = 0,00001 USD [1 övervakning = 0,25 USD/50000 = 0,000005]
  • Pipeline Orchestration & Execution = $1.463
    • Aktivitetskörningar = 0,001 * 2 = $0,002 [1 körning = $1/1000 = 0,001]
    • Data Flow aktiviteter = 1,461 USD i 20 minuter (körningstid på 10 minuter + 10 minuters TTL-värde). 0,274 USD per timme Azure Integration Runtime med 16 kärnor allmän beräkning

Dataintegrering i Azure Data Factory VNET

I det här scenariot vill du ta bort ursprungliga filer på Azure Blob Storage och kopiera data från Azure SQL Database till Azure Blob Storage. Du kommer att utföra den här körningen två gånger på olika pipelines. Körningstiden för dessa två pipelines överlappar. Scenario4 För att åstadkomma scenariot måste du skapa två pipelines med följande objekt:

  • En pipeline-aktivitet – Ta bort aktivitet.
  • En kopieringsaktivitet med en indatauppsättning som data ska kopieras från Azure Blob Storage.
  • En utdatauppsättning för data på Azure SQL Database.
  • Ett schema utlöses för att köra pipelinen.
Åtgärder Typer och enheter
Skapa länkad tjänst 4 Entitet för läsning/skrivning
Skapa datauppsättningar 8 Läs/skriv-entiteter (4 för skapande av datauppsättning, 4 för länkade tjänstreferenser)
Skapa pipeline 6 Läs/skriv-entiteter (2 för pipelineskapande, 4 för datauppsättningsreferenser)
Hämta pipeline 2 Läs/skriv-entitet
Kör pipeline 6 Aktivitetskörningar (2 för utlösarkörning, 4 för aktivitetskörningar)
Kör borttagningsaktivitet: varje körningstid = 5 min. Körningen ta bort aktivitet i den första pipelinen är från 10:00 UTC till 10:05 UTC. Borttagningsaktiviteten i den andra pipelinen är från 10:02 UTC till 10:07 UTC. Totalt 7 min pipeline-aktivitetskörning i hanterat VNET. Pipeline-aktivitet stöder upp till 50 samtidighet i hanterat VNET. Det finns en TTL-tid (Time To Live) på 60 minuter för pipelineaktivitet
Kopiera data: varje körningstid = 10 min. Kopieringskörningen i den första pipelinen är från 10:06 UTC till 10:15 UTC. Körningen av kopieringsaktiviteten i den andra pipelinen är från 10:08 UTC till 10:17 UTC. 10 * 4 Azure Integration Runtime (standardinställning för DIU = 4) Mer information om dataintegreringsenheter och optimering av kopieringsprestanda finns i den här artikeln
Övervaka pipelineantagande: Endast 2 körningar inträffade 6 Övervakningskörningsposter hämtades (2 för pipelinekörning, 4 för aktivitetskörning)

Pris totalt scenario: 1,45523 USD

  • Data Factory Åtgärder = 0,000023 USD
    • Läsning/skrivning = 20*0,00001 = $0,0002 [1 R/W = $0,50/50000 = 0,00001]
    • Övervakning = 6*0,0000005 = $0,00003 [1 övervakning = 0,25 USD/50000 = 0,000005]
  • Pipeline Orchestration & Execution = 1,455 USD
    • Aktivitetskörningar = 0,001*6 = $0,006 [1 körning = $1/1000 = 0,001]
    • Dataförflyttningsaktiviteter = 0,333 USD (prorerat för 10 minuters körningstid. 0,25 USD per timme Azure Integration Runtime)
    • Pipeline-aktivitet = 1,116 USD (prorated for 7 minutes of execution time plus 60 minutes TTL. 1 USD/timme Azure Integration Runtime)

Anteckning

Dessa priser är endast i exempelsyfte.

Vanliga frågor och svar

F: Kan dessa aktiviteter köras samtidigt om jag vill köra fler än 50 pipeline-aktiviteter?

S: Högst 50 samtidiga pipelineaktiviteter tillåts. Den 51:e pipeline-aktiviteten köas tills ett "ledigt fack" öppnas. Samma för extern aktivitet. Maximalt 800 samtidiga externa aktiviteter tillåts.

Nästa steg

Nu när du förstår priserna för Azure Data Factory kan du komma igång!