Data Factory-prijzen leren begrijpen met voorbeelden

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

In dit artikel wordt het prijsmodel Azure Data Factory en gedemonstreerd met gedetailleerde voorbeelden. U kunt ook de Azure-prijscalculator voor meer specifieke scenario's bekijken en een schatting maken van uw toekomstige kosten voor het gebruik van de service.

Notitie

De prijzen die in de onderstaande voorbeelden worden gebruikt, zijn hypothetisch en zijn niet bedoeld om werkelijke prijzen te impliceren.

Gegevens per uur kopiëren van AWS S3 naar Azure Blob-opslag

In dit scenario wilt u gegevens kopiëren van AWS S3 naar Azure Blob-opslag volgens een uurschema.

Als u het scenario wilt uitvoeren, moet u een pijplijn maken met de volgende items:

  1. Een kopieeractiviteit met een invoergegevensset voor de gegevens die moeten worden gekopieerd uit AWS S3.

  2. Een uitvoergegevensset voor de gegevens op Azure Storage.

  3. Een schematrigger om de pijplijn elk uur uit te voeren.

    Diagram met een pijplijn met een schematrigger. In de pijplijn kopieert u activiteitsstromen naar een invoerset, die naar een gekoppelde A W S S3-service stroomt en de kopieeractiviteit ook naar een uitvoerset stroomt, die naar een Azure Storage gekoppelde service stroomt.

Bewerkingen Typen en eenheden
Gekoppelde service maken 2 Entiteit lezen/schrijven
Gegevenssets maken 4 Entiteiten lezen/schrijven (2 voor het maken van gegevenssets, 2 voor gekoppelde serviceverwijzingen)
Pijplijn maken 3 Entiteiten lezen/schrijven (1 voor het maken van pijplijnen, 2 voor verwijzingen naar gegevenssets)
Pijplijn op halen 1 Entiteit lezen/schrijven
Pijplijn uitvoeren 2 Activiteitsruns (1 voor trigger-run, 1 voor activiteitsruns)
Gegevens kopiëren Veronderstelling: uitvoeringstijd = 10 min. 10 * 4 Azure Integration Runtime (standaard DIU-instelling = 4) Zie dit artikel voor meer informatie over gegevensintegratie-eenheden en het optimaliseren van kopieerprestaties
Veronderstelling voor pijplijn bewaken: er is slechts één keer uitgevoerd 2 Opgehaalde controlerunrecords (1 voor pijplijn uitvoeren, 1 voor het uitvoeren van activiteit)

Prijzen voor totaal scenario: $ 0,16811

  • Data Factory Operations = $ 0,0001
    • Lezen/schrijven = * 10 0,00001 = $0,0001 [1 R/W = $0,50/50000 = 0,00001]
    • Bewaking = 2 * 0,000005 = $0,00001 [1 Bewaking = $0,25/50000 = 0,000005]
  • Uitvoering van & pijplijn-orchestration = $0,168
    • Activiteitsruns = 0,001 * 2 = $0,002 [1 run = $1/1000 = 0,001]
    • Activiteiten voor gegevensverkeer = $ 0,166 (naar waarde voor 10 minuten uitvoeringstijd. $ 0,25 per uur op Azure Integration Runtime)

Gegevens kopiëren en transformeren met Azure Databricks uur

In dit scenario wilt u gegevens kopiëren van AWS S3 naar Azure Blob Storage en de gegevens transformeren met Azure Databricks volgens een uurschema.

Als u het scenario wilt uitvoeren, moet u een pijplijn maken met de volgende items:

  1. Eén kopieeractiviteit met een invoergegevensset voor de gegevens die moeten worden gekopieerd uit AWS S3 en een uitvoergegevensset voor de gegevens in Azure Storage.
  2. Eén Azure Databricks activiteit voor de gegevenstransformatie.
  3. Eén schematrigger om de pijplijn elk uur uit te voeren.

Diagram met een pijplijn met een schematrigger. Kopieer in de pijplijn activiteitstromen naar een invoergegevensset, een uitvoergegevensset en een DataBricks-activiteit die wordt uitgevoerd op Azure Databricks. De invoerset wordt naar een gekoppelde A W S S3-service gestroomd. De uitvoerset wordt naar een Azure Storage service gestroomd.

Bewerkingen Typen en eenheden
Gekoppelde service maken 3 Entiteit lezen/schrijven
Gegevenssets maken 4 Entiteiten lezen/schrijven (2 voor het maken van gegevenssets, 2 voor gekoppelde serviceverwijzingen)
Pijplijn maken 3 Entiteiten lezen/schrijven (1 voor het maken van pijplijnen, 2 voor verwijzingen naar gegevenssets)
Pijplijn op halen 1 Entiteit lezen/schrijven
Pijplijn uitvoeren 3 Activiteitsruns (1 voor trigger-run, 2 voor activiteitsruns)
Gegevens kopiëren Veronderstelling: uitvoeringstijd = 10 min. 10 * 4 Azure Integration Runtime (standaard DIU-instelling = 4) Zie dit artikel voor meer informatie over gegevensintegratie-eenheden en het optimaliseren van kopieerprestaties
Veronderstelling voor pijplijn bewaken: er is slechts één keer uitgevoerd 3 Opgehaalde controlerunrecords (1 voor pijplijn uitvoeren, 2 voor het uitvoeren van activiteit)
Veronderstelling databricks-activiteit wordt uitgevoerd: uitvoeringstijd = 10 min. 10 min. Uitvoering van externe pijplijnactiviteit

Prijzen voor totaal scenario: $ 0,16916

  • Data Factory Operations = $ 0,00012
    • Lezen/schrijven = 11 * 0,00001 = $0,00011 [1 R/W = $0,50/50000 = 0,00001]
    • Bewaking = 3 * 0,000005 = $0,00001 [1 Bewaking = $0,25/50000 = 0,000005]
  • Uitvoering van pijplijn & orchestration = $0,16904
    • Activiteitsruns = 0,001 * 3 = $0,003 [1 run = $1/1000 = 0,001]
    • Activiteiten voor gegevensverkeer = $ 0,166 (naar waarde voor 10 minuten uitvoeringstijd. $ 0,25 per uur op Azure Integration Runtime)
    • Externe pijplijnactiviteit = $ 0,000041 (naar waarde voor 10 minuten uitvoeringstijd. $ 0,00025/uur op Azure Integration Runtime)

Gegevens kopiëren en transformeren met dynamische parameters per uur

In dit scenario wilt u gegevens kopiëren van AWS S3 naar Azure Blob Storage en transformeren met Azure Databricks (met dynamische parameters in het script) volgens een schema van een uur.

Als u het scenario wilt uitvoeren, moet u een pijplijn maken met de volgende items:

  1. Eén kopieeractiviteit met een invoergegevensset voor de gegevens die moeten worden gekopieerd uit AWS S3, een uitvoergegevensset voor de gegevens in Azure Storage.
  2. Eén opzoekactiviteit voor het dynamisch doorgeven van parameters aan het transformatiescript.
  3. Eén Azure Databricks activiteit voor de gegevenstransformatie.
  4. Eén schematrigger om de pijplijn elk uur uit te voeren.

Diagram met een pijplijn met een schematrigger. Kopieer in de pijplijn activiteitstromen naar een invoergegevensset, een uitvoergegevensset en opzoekactiviteit die naar een DataBricks-activiteit stromen die wordt uitgevoerd op Azure Databricks. De invoerset wordt naar een gekoppelde A W S S3-service gestroomd. De uitvoerset wordt naar een Azure Storage service gestroomd.

Bewerkingen Typen en eenheden
Gekoppelde service maken 3 Entiteit lezen/schrijven
Gegevenssets maken 4 Entiteiten lezen/schrijven (2 voor het maken van gegevenssets, 2 voor gekoppelde serviceverwijzingen)
Pijplijn maken 3 Entiteiten lezen/schrijven (1 voor het maken van pijplijnen, 2 voor verwijzingen naar gegevenssets)
Pijplijn op halen 1 Entiteit lezen/schrijven
Pijplijn uitvoeren 4 activiteitsruns (1 voor trigger-run, 3 voor activiteitsruns)
Gegevens kopiëren Veronderstelling: uitvoeringstijd = 10 min. 10 * 4 Azure Integration Runtime (standaard DIU-instelling = 4) Zie dit artikel voor meer informatie over gegevensintegratie-eenheden en het optimaliseren van kopieerprestaties
Veronderstelling voor pijplijn bewaken: er is slechts één keer uitgevoerd 4 Opgehaalde controlerunrecords (1 voor pijplijn uitvoeren, 3 voor het uitvoeren van activiteit)
Veronderstelling voor opzoekactiviteit uitvoeren: uitvoeringstijd = 1 min. 1 min. Uitvoering van pijplijnactiviteit
Veronderstelling databricks-activiteit wordt uitgevoerd: uitvoeringstijd = 10 min. 10 min. Uitvoering van externe pijplijnactiviteit

Prijzen voor totaal scenario: $ 0,17020

  • Data Factory Operations = $ 0,00013
    • Lezen/schrijven = 11 * 0,00001 = $0,00011 [1 R/W = $0,50/50000 = 0,00001]
    • Bewaking = 4 * 0,000005 = $0,00002 [1 Bewaking = $0,25/50000 = 0,000005]
  • Uitvoering van & pijplijn-orchestration = $0,17007
    • Activiteitsruns = 0,001 * 4 = $0,004 [1 run = $1/1000 = 0,001]
    • Activiteiten voor gegevensverkeer = $ 0,166 (naar waarde voor 10 minuten uitvoeringstijd. $ 0,25 per uur op Azure Integration Runtime)
    • Pijplijnactiviteit = $ 0,00003 (naar waarde voor 1 minuut uitvoeringstijd. $ 0,002/uur op Azure Integration Runtime)
    • Externe pijplijnactiviteit = $ 0,000041 (naar waarde voor 10 minuten uitvoeringstijd. $ 0,00025/uur op Azure Integration Runtime)

SSIS-pakketten uitvoeren in Azure-SSIS Integration Runtime

Azure-SSIS Integration Runtime (IR) is een gespecialiseerd cluster van virtuele Azure-machines (VM's) voor SSIS-pakketuitvoeringen in Azure Data Factory (ADF). Wanneer u de VM inrichten, wordt deze toegewezen aan u. Daarom worden er net als andere toegewezen Azure-VM's kosten in rekening gebracht zolang u deze actief houdt, ongeacht of u deze gebruikt om SSIS-pakketten uit te voeren of niet. Met betrekking tot de lopende kosten ziet u de schatting per uur in het configuratievenster in de ADF-portal, bijvoorbeeld:

Voorbeeld van SSIS-prijzen

Als u in het bovenstaande voorbeeld uw Azure-SSIS IR 2 uur actief houdt, worden er kosten in rekening gebracht: 2 (uur) x US $ 1,158/uur = US$ 2,316.

Als u de lopende kosten van uw Azure-SSIS IR wilt beheren, kunt u de VM-grootte omlaag schalen, de clustergrootte inschalen, uw eigen SQL Server-licentie gebruiken via de optie Azure Hybrid Benefit (AHB) die aanzienlijke besparingen biedt. Zie Azure-SSIS IR-prijzenen of start & stop uw Azure-SSIS IR wanneer dit handig of op aanvraag is/net op tijd om uw SSIS-workloads te verwerken. Zie Azure-SSIS IR en Planning opnieuw Azure-SSIS IR.

Fouten opsporen in toewijzingsgegevensstromen voor een normale werkdag

Als Data-engineer is Sam verantwoordelijk voor het ontwerpen, bouwen en testen van toewijzingsgegevensstromen. Sam meldt zich 's nachts aan bij de ADF-gebruikersinterface en schakelt de foutopsporingsmodus voor gegevensstromen in. De standaard-TTL voor foutopsporingssessies is 60 minuten. Sam werkt gedurende de hele dag gedurende 8 uur, zodat de foutopsporingssessie nooit verloopt. Daarom zijn de kosten voor Sam voor de dag:

8 (uur) x 8 (voor rekenkracht geoptimaliseerde kernen) x $0,193 = $ 12,35

Op hetzelfde moment meldt Chris, een andere Data-engineer, zich ook aan bij de ADF-browser voor gegevensprofilering en ETL-ontwerpwerk. Chris werkt niet de hele dag in ADF, zoals Sam. Chris hoeft het gegevensstroomdebugger slechts één uur te gebruiken tijdens dezelfde periode en dezelfde dag als Sam hierboven. Dit zijn de kosten die Chris in rekening brengt voor foutopsporing:

1 (uur) x 8 (kernen voor algemeen gebruik) x $0,274 = $2,19

Gegevens transformeren in blobopslag met toewijzingsgegevensstromen

In dit scenario wilt u gegevens in Blob Store visueel transformeren in ADF-toewijzingsgegevensstromen volgens een uurschema.

Als u het scenario wilt uitvoeren, moet u een pijplijn maken met de volgende items:

  1. Een Data Flow-activiteit met de transformatielogica.

  2. Een invoergegevensset voor de gegevens op Azure Storage.

  3. Een uitvoergegevensset voor de gegevens op Azure Storage.

  4. Een schematrigger om de pijplijn elk uur uit te voeren.

Bewerkingen Typen en eenheden
Gekoppelde service maken 2 Entiteit lezen/schrijven
Gegevenssets maken 4 Entiteiten lezen/schrijven (2 voor het maken van gegevenssets, 2 voor gekoppelde serviceverwijzingen)
Pijplijn maken 3 Entiteiten lezen/schrijven (1 voor het maken van pijplijnen, 2 voor verwijzingen naar gegevenssets)
Pijplijn op halen 1 Entiteit lezen/schrijven
Pijplijn uitvoeren 2 Activiteitsruns (1 voor trigger-run, 1 voor activiteitsruns)
Gegevens Flow veronderstellingen: uitvoeringstijd = 10 min. + 10 min. TTL 10 * 16 kernen van algemene rekenkracht met TTL van 10
Veronderstelling voor pijplijn bewaken: er is slechts één keer uitgevoerd 2 Opgehaalde controlerunrecords (1 voor pijplijn uitvoeren, 1 voor het uitvoeren van activiteit)

Prijzen voor totaal scenario: $ 1,4631

  • Data Factory Operations = $ 0,0001
    • Lezen/schrijven = * 10 0,00001 = $0,0001 [1 R/W = $0,50/50000 = 0,00001]
    • Bewaking = 2 * 0,000005 = $0,00001 [1 Bewaking = $0,25/50000 = 0,000005]
  • Uitvoering van & pijplijn-orchestration = $ 1,463
    • Activiteitsruns = 0,001 * 2 = $0,002 [1 run = $1/1000 = 0,001]
    • Gegevens Flow activiteiten = $ 1,461 pro 20 minuten (uitvoeringstijd 10 minuten + 10 minuten TTL). $ 0,274/uur op Azure Integration Runtime met 16 kernen algemeen rekenkracht

Gegevensintegratie in Azure Data Factory managed VNET

In dit scenario wilt u oorspronkelijke bestanden verwijderen uit Azure Blob Storage en gegevens kopiëren van Azure SQL Database naar Azure Blob Storage. U gaat deze uitvoering twee keer uitvoeren op verschillende pijplijnen. De uitvoeringstijd van deze twee pijplijnen is overlappend. Scenario4 Als u het scenario wilt uitvoeren, moet u twee pijplijnen maken met de volgende items:

  • Een pijplijnactiviteit – Activiteit verwijderen.
  • Een kopieeractiviteit met een invoergegevensset voor de gegevens die moeten worden gekopieerd uit Azure Blob Storage.
  • Een uitvoergegevensset voor de gegevens op Azure SQL Database.
  • Een schema wordt triggers om de pijplijn uit te voeren.
Bewerkingen Typen en eenheden
Gekoppelde service maken 4 Entiteit lezen/schrijven
Gegevenssets maken 8 Entiteiten lezen/schrijven (4 voor het maken van gegevenssets, 4 voor gekoppelde serviceverwijzingen)
Pijplijn maken 6 Entiteiten lezen/schrijven (2 voor het maken van pijplijnen, 4 voor verwijzingen naar gegevenssets)
Pijplijn op halen 2 Entiteit lezen/schrijven
Pijplijn uitvoeren 6 activiteitsruns (2 voor trigger-run, 4 voor activiteitsruns)
Verwijderactiviteit uitvoeren: elke uitvoeringstijd = 5 min. De uitvoering van de verwijderactiviteit in de eerste pijplijn is van 10:00 uur UTC tot 10:05 UTC. De uitvoering van de verwijderactiviteit in de tweede pijplijn is van 10:02 uur UTC tot 10:07 UTC. Totaal 7 min. uitvoering van pijplijnactiviteit in beheerd VNET. Pijplijnactiviteit ondersteunt maximaal 50 gelijktijdigheid in managed VNET. Er is een TTL (Time To Live) van 60 minuten voor pijplijnactiviteit
Gegevens kopiëren Veronderstelling: elke uitvoeringstijd = 10 min. De kopieeruitvoering in de eerste pijplijn is van 10:06 uur UTC tot 10:15 uur UTC. De uitvoering van de kopieeractiviteit in de tweede pijplijn is van 10:08 uur UTC tot 10:17 UTC. 10 * 4 Azure Integration Runtime (standaard DIU-instelling = 4) Zie dit artikel voor meer informatie over gegevensintegratie-eenheden en het optimaliseren van kopieerprestaties
Veronderstelling voor pijplijn bewaken: er zijn slechts 2 runs uitgevoerd 6 Opgehaalde controlerunrecords (2 voor pijplijn uitvoeren, 4 voor het uitvoeren van activiteit)

Prijzen voor totaal scenario: $ 1,45523

  • Data Factory Operations = $0,00023
    • Lezen/schrijven = 20*0,00001 = $0,0002 [1 R/W = $0,50/50000 = 0,00001]
    • Bewaking = 6*0,000005 = $0,00003 [1 Bewaking = $0,25/50000 = 0,000005]
  • Pijplijn orchestration & execution = $1,455
    • Activiteitsruns = 0,001*6 = $0,006 [1 run = $1/1000 = 0,001]
    • Activiteiten voor gegevensverkeer = $ 0,333 (naar waarde 10 minuten uitvoeringstijd. $ 0,25 per uur op Azure Integration Runtime)
    • Pijplijnactiviteit = $ 1,116 (naar waarde 7 minuten uitvoeringstijd plus 60 minuten TTL. $ 1/uur op Azure Integration Runtime)

Notitie

Deze prijzen zijn alleen bedoeld als voorbeeld.

Veelgestelde vragen

V: Als ik meer dan 50 pijplijnactiviteiten wil uitvoeren, kunnen deze activiteiten dan tegelijkertijd worden uitgevoerd?

A: Maximaal 50 gelijktijdige pijplijnactiviteiten zijn toegestaan. De 51e pijplijnactiviteit wordt in de wachtrij geplaatst totdat er een 'gratis sleuf' wordt geopend. Hetzelfde voor externe activiteit. Maximaal 800 gelijktijdige externe activiteiten zijn toegestaan.

Volgende stappen

Nu u de prijzen voor Azure Data Factory begrijpt, kunt u aan de slag.