Data Factory-prijzen leren begrijpen met voorbeelden
VAN TOEPASSING OP:
Azure Data Factory
Azure Synapse Analytics
In dit artikel wordt het prijsmodel Azure Data Factory en gedemonstreerd met gedetailleerde voorbeelden. U kunt ook de Azure-prijscalculator voor meer specifieke scenario's bekijken en een schatting maken van uw toekomstige kosten voor het gebruik van de service.
Notitie
De prijzen die in de onderstaande voorbeelden worden gebruikt, zijn hypothetisch en zijn niet bedoeld om werkelijke prijzen te impliceren.
Gegevens per uur kopiëren van AWS S3 naar Azure Blob-opslag
In dit scenario wilt u gegevens kopiëren van AWS S3 naar Azure Blob-opslag volgens een uurschema.
Als u het scenario wilt uitvoeren, moet u een pijplijn maken met de volgende items:
Een kopieeractiviteit met een invoergegevensset voor de gegevens die moeten worden gekopieerd uit AWS S3.
Een uitvoergegevensset voor de gegevens op Azure Storage.
Een schematrigger om de pijplijn elk uur uit te voeren.
| Bewerkingen | Typen en eenheden |
|---|---|
| Gekoppelde service maken | 2 Entiteit lezen/schrijven |
| Gegevenssets maken | 4 Entiteiten lezen/schrijven (2 voor het maken van gegevenssets, 2 voor gekoppelde serviceverwijzingen) |
| Pijplijn maken | 3 Entiteiten lezen/schrijven (1 voor het maken van pijplijnen, 2 voor verwijzingen naar gegevenssets) |
| Pijplijn op halen | 1 Entiteit lezen/schrijven |
| Pijplijn uitvoeren | 2 Activiteitsruns (1 voor trigger-run, 1 voor activiteitsruns) |
| Gegevens kopiëren Veronderstelling: uitvoeringstijd = 10 min. | 10 * 4 Azure Integration Runtime (standaard DIU-instelling = 4) Zie dit artikel voor meer informatie over gegevensintegratie-eenheden en het optimaliseren van kopieerprestaties |
| Veronderstelling voor pijplijn bewaken: er is slechts één keer uitgevoerd | 2 Opgehaalde controlerunrecords (1 voor pijplijn uitvoeren, 1 voor het uitvoeren van activiteit) |
Prijzen voor totaal scenario: $ 0,16811
- Data Factory Operations = $ 0,0001
- Lezen/schrijven = * 10 0,00001 = $0,0001 [1 R/W = $0,50/50000 = 0,00001]
- Bewaking = 2 * 0,000005 = $0,00001 [1 Bewaking = $0,25/50000 = 0,000005]
- Uitvoering van & pijplijn-orchestration = $0,168
- Activiteitsruns = 0,001 * 2 = $0,002 [1 run = $1/1000 = 0,001]
- Activiteiten voor gegevensverkeer = $ 0,166 (naar waarde voor 10 minuten uitvoeringstijd. $ 0,25 per uur op Azure Integration Runtime)
Gegevens kopiëren en transformeren met Azure Databricks uur
In dit scenario wilt u gegevens kopiëren van AWS S3 naar Azure Blob Storage en de gegevens transformeren met Azure Databricks volgens een uurschema.
Als u het scenario wilt uitvoeren, moet u een pijplijn maken met de volgende items:
- Eén kopieeractiviteit met een invoergegevensset voor de gegevens die moeten worden gekopieerd uit AWS S3 en een uitvoergegevensset voor de gegevens in Azure Storage.
- Eén Azure Databricks activiteit voor de gegevenstransformatie.
- Eén schematrigger om de pijplijn elk uur uit te voeren.
| Bewerkingen | Typen en eenheden |
|---|---|
| Gekoppelde service maken | 3 Entiteit lezen/schrijven |
| Gegevenssets maken | 4 Entiteiten lezen/schrijven (2 voor het maken van gegevenssets, 2 voor gekoppelde serviceverwijzingen) |
| Pijplijn maken | 3 Entiteiten lezen/schrijven (1 voor het maken van pijplijnen, 2 voor verwijzingen naar gegevenssets) |
| Pijplijn op halen | 1 Entiteit lezen/schrijven |
| Pijplijn uitvoeren | 3 Activiteitsruns (1 voor trigger-run, 2 voor activiteitsruns) |
| Gegevens kopiëren Veronderstelling: uitvoeringstijd = 10 min. | 10 * 4 Azure Integration Runtime (standaard DIU-instelling = 4) Zie dit artikel voor meer informatie over gegevensintegratie-eenheden en het optimaliseren van kopieerprestaties |
| Veronderstelling voor pijplijn bewaken: er is slechts één keer uitgevoerd | 3 Opgehaalde controlerunrecords (1 voor pijplijn uitvoeren, 2 voor het uitvoeren van activiteit) |
| Veronderstelling databricks-activiteit wordt uitgevoerd: uitvoeringstijd = 10 min. | 10 min. Uitvoering van externe pijplijnactiviteit |
Prijzen voor totaal scenario: $ 0,16916
- Data Factory Operations = $ 0,00012
- Lezen/schrijven = 11 * 0,00001 = $0,00011 [1 R/W = $0,50/50000 = 0,00001]
- Bewaking = 3 * 0,000005 = $0,00001 [1 Bewaking = $0,25/50000 = 0,000005]
- Uitvoering van pijplijn & orchestration = $0,16904
- Activiteitsruns = 0,001 * 3 = $0,003 [1 run = $1/1000 = 0,001]
- Activiteiten voor gegevensverkeer = $ 0,166 (naar waarde voor 10 minuten uitvoeringstijd. $ 0,25 per uur op Azure Integration Runtime)
- Externe pijplijnactiviteit = $ 0,000041 (naar waarde voor 10 minuten uitvoeringstijd. $ 0,00025/uur op Azure Integration Runtime)
Gegevens kopiëren en transformeren met dynamische parameters per uur
In dit scenario wilt u gegevens kopiëren van AWS S3 naar Azure Blob Storage en transformeren met Azure Databricks (met dynamische parameters in het script) volgens een schema van een uur.
Als u het scenario wilt uitvoeren, moet u een pijplijn maken met de volgende items:
- Eén kopieeractiviteit met een invoergegevensset voor de gegevens die moeten worden gekopieerd uit AWS S3, een uitvoergegevensset voor de gegevens in Azure Storage.
- Eén opzoekactiviteit voor het dynamisch doorgeven van parameters aan het transformatiescript.
- Eén Azure Databricks activiteit voor de gegevenstransformatie.
- Eén schematrigger om de pijplijn elk uur uit te voeren.
| Bewerkingen | Typen en eenheden |
|---|---|
| Gekoppelde service maken | 3 Entiteit lezen/schrijven |
| Gegevenssets maken | 4 Entiteiten lezen/schrijven (2 voor het maken van gegevenssets, 2 voor gekoppelde serviceverwijzingen) |
| Pijplijn maken | 3 Entiteiten lezen/schrijven (1 voor het maken van pijplijnen, 2 voor verwijzingen naar gegevenssets) |
| Pijplijn op halen | 1 Entiteit lezen/schrijven |
| Pijplijn uitvoeren | 4 activiteitsruns (1 voor trigger-run, 3 voor activiteitsruns) |
| Gegevens kopiëren Veronderstelling: uitvoeringstijd = 10 min. | 10 * 4 Azure Integration Runtime (standaard DIU-instelling = 4) Zie dit artikel voor meer informatie over gegevensintegratie-eenheden en het optimaliseren van kopieerprestaties |
| Veronderstelling voor pijplijn bewaken: er is slechts één keer uitgevoerd | 4 Opgehaalde controlerunrecords (1 voor pijplijn uitvoeren, 3 voor het uitvoeren van activiteit) |
| Veronderstelling voor opzoekactiviteit uitvoeren: uitvoeringstijd = 1 min. | 1 min. Uitvoering van pijplijnactiviteit |
| Veronderstelling databricks-activiteit wordt uitgevoerd: uitvoeringstijd = 10 min. | 10 min. Uitvoering van externe pijplijnactiviteit |
Prijzen voor totaal scenario: $ 0,17020
- Data Factory Operations = $ 0,00013
- Lezen/schrijven = 11 * 0,00001 = $0,00011 [1 R/W = $0,50/50000 = 0,00001]
- Bewaking = 4 * 0,000005 = $0,00002 [1 Bewaking = $0,25/50000 = 0,000005]
- Uitvoering van & pijplijn-orchestration = $0,17007
- Activiteitsruns = 0,001 * 4 = $0,004 [1 run = $1/1000 = 0,001]
- Activiteiten voor gegevensverkeer = $ 0,166 (naar waarde voor 10 minuten uitvoeringstijd. $ 0,25 per uur op Azure Integration Runtime)
- Pijplijnactiviteit = $ 0,00003 (naar waarde voor 1 minuut uitvoeringstijd. $ 0,002/uur op Azure Integration Runtime)
- Externe pijplijnactiviteit = $ 0,000041 (naar waarde voor 10 minuten uitvoeringstijd. $ 0,00025/uur op Azure Integration Runtime)
SSIS-pakketten uitvoeren in Azure-SSIS Integration Runtime
Azure-SSIS Integration Runtime (IR) is een gespecialiseerd cluster van virtuele Azure-machines (VM's) voor SSIS-pakketuitvoeringen in Azure Data Factory (ADF). Wanneer u de VM inrichten, wordt deze toegewezen aan u. Daarom worden er net als andere toegewezen Azure-VM's kosten in rekening gebracht zolang u deze actief houdt, ongeacht of u deze gebruikt om SSIS-pakketten uit te voeren of niet. Met betrekking tot de lopende kosten ziet u de schatting per uur in het configuratievenster in de ADF-portal, bijvoorbeeld:
Als u in het bovenstaande voorbeeld uw Azure-SSIS IR 2 uur actief houdt, worden er kosten in rekening gebracht: 2 (uur) x US $ 1,158/uur = US$ 2,316.
Als u de lopende kosten van uw Azure-SSIS IR wilt beheren, kunt u de VM-grootte omlaag schalen, de clustergrootte inschalen, uw eigen SQL Server-licentie gebruiken via de optie Azure Hybrid Benefit (AHB) die aanzienlijke besparingen biedt. Zie Azure-SSIS IR-prijzenen of start & stop uw Azure-SSIS IR wanneer dit handig of op aanvraag is/net op tijd om uw SSIS-workloads te verwerken. Zie Azure-SSIS IR en Planning opnieuw Azure-SSIS IR.
Fouten opsporen in toewijzingsgegevensstromen voor een normale werkdag
Als Data-engineer is Sam verantwoordelijk voor het ontwerpen, bouwen en testen van toewijzingsgegevensstromen. Sam meldt zich 's nachts aan bij de ADF-gebruikersinterface en schakelt de foutopsporingsmodus voor gegevensstromen in. De standaard-TTL voor foutopsporingssessies is 60 minuten. Sam werkt gedurende de hele dag gedurende 8 uur, zodat de foutopsporingssessie nooit verloopt. Daarom zijn de kosten voor Sam voor de dag:
8 (uur) x 8 (voor rekenkracht geoptimaliseerde kernen) x $0,193 = $ 12,35
Op hetzelfde moment meldt Chris, een andere Data-engineer, zich ook aan bij de ADF-browser voor gegevensprofilering en ETL-ontwerpwerk. Chris werkt niet de hele dag in ADF, zoals Sam. Chris hoeft het gegevensstroomdebugger slechts één uur te gebruiken tijdens dezelfde periode en dezelfde dag als Sam hierboven. Dit zijn de kosten die Chris in rekening brengt voor foutopsporing:
1 (uur) x 8 (kernen voor algemeen gebruik) x $0,274 = $2,19
Gegevens transformeren in blobopslag met toewijzingsgegevensstromen
In dit scenario wilt u gegevens in Blob Store visueel transformeren in ADF-toewijzingsgegevensstromen volgens een uurschema.
Als u het scenario wilt uitvoeren, moet u een pijplijn maken met de volgende items:
Een Data Flow-activiteit met de transformatielogica.
Een invoergegevensset voor de gegevens op Azure Storage.
Een uitvoergegevensset voor de gegevens op Azure Storage.
Een schematrigger om de pijplijn elk uur uit te voeren.
| Bewerkingen | Typen en eenheden |
|---|---|
| Gekoppelde service maken | 2 Entiteit lezen/schrijven |
| Gegevenssets maken | 4 Entiteiten lezen/schrijven (2 voor het maken van gegevenssets, 2 voor gekoppelde serviceverwijzingen) |
| Pijplijn maken | 3 Entiteiten lezen/schrijven (1 voor het maken van pijplijnen, 2 voor verwijzingen naar gegevenssets) |
| Pijplijn op halen | 1 Entiteit lezen/schrijven |
| Pijplijn uitvoeren | 2 Activiteitsruns (1 voor trigger-run, 1 voor activiteitsruns) |
| Gegevens Flow veronderstellingen: uitvoeringstijd = 10 min. + 10 min. TTL | 10 * 16 kernen van algemene rekenkracht met TTL van 10 |
| Veronderstelling voor pijplijn bewaken: er is slechts één keer uitgevoerd | 2 Opgehaalde controlerunrecords (1 voor pijplijn uitvoeren, 1 voor het uitvoeren van activiteit) |
Prijzen voor totaal scenario: $ 1,4631
- Data Factory Operations = $ 0,0001
- Lezen/schrijven = * 10 0,00001 = $0,0001 [1 R/W = $0,50/50000 = 0,00001]
- Bewaking = 2 * 0,000005 = $0,00001 [1 Bewaking = $0,25/50000 = 0,000005]
- Uitvoering van & pijplijn-orchestration = $ 1,463
- Activiteitsruns = 0,001 * 2 = $0,002 [1 run = $1/1000 = 0,001]
- Gegevens Flow activiteiten = $ 1,461 pro 20 minuten (uitvoeringstijd 10 minuten + 10 minuten TTL). $ 0,274/uur op Azure Integration Runtime met 16 kernen algemeen rekenkracht
Gegevensintegratie in Azure Data Factory managed VNET
In dit scenario wilt u oorspronkelijke bestanden verwijderen uit Azure Blob Storage en gegevens kopiëren van Azure SQL Database naar Azure Blob Storage. U gaat deze uitvoering twee keer uitvoeren op verschillende pijplijnen. De uitvoeringstijd van deze twee pijplijnen is overlappend.
Als u het scenario wilt uitvoeren, moet u twee pijplijnen maken met de volgende items:
- Een pijplijnactiviteit – Activiteit verwijderen.
- Een kopieeractiviteit met een invoergegevensset voor de gegevens die moeten worden gekopieerd uit Azure Blob Storage.
- Een uitvoergegevensset voor de gegevens op Azure SQL Database.
- Een schema wordt triggers om de pijplijn uit te voeren.
| Bewerkingen | Typen en eenheden |
|---|---|
| Gekoppelde service maken | 4 Entiteit lezen/schrijven |
| Gegevenssets maken | 8 Entiteiten lezen/schrijven (4 voor het maken van gegevenssets, 4 voor gekoppelde serviceverwijzingen) |
| Pijplijn maken | 6 Entiteiten lezen/schrijven (2 voor het maken van pijplijnen, 4 voor verwijzingen naar gegevenssets) |
| Pijplijn op halen | 2 Entiteit lezen/schrijven |
| Pijplijn uitvoeren | 6 activiteitsruns (2 voor trigger-run, 4 voor activiteitsruns) |
| Verwijderactiviteit uitvoeren: elke uitvoeringstijd = 5 min. De uitvoering van de verwijderactiviteit in de eerste pijplijn is van 10:00 uur UTC tot 10:05 UTC. De uitvoering van de verwijderactiviteit in de tweede pijplijn is van 10:02 uur UTC tot 10:07 UTC. | Totaal 7 min. uitvoering van pijplijnactiviteit in beheerd VNET. Pijplijnactiviteit ondersteunt maximaal 50 gelijktijdigheid in managed VNET. Er is een TTL (Time To Live) van 60 minuten voor pijplijnactiviteit |
| Gegevens kopiëren Veronderstelling: elke uitvoeringstijd = 10 min. De kopieeruitvoering in de eerste pijplijn is van 10:06 uur UTC tot 10:15 uur UTC. De uitvoering van de kopieeractiviteit in de tweede pijplijn is van 10:08 uur UTC tot 10:17 UTC. | 10 * 4 Azure Integration Runtime (standaard DIU-instelling = 4) Zie dit artikel voor meer informatie over gegevensintegratie-eenheden en het optimaliseren van kopieerprestaties |
| Veronderstelling voor pijplijn bewaken: er zijn slechts 2 runs uitgevoerd | 6 Opgehaalde controlerunrecords (2 voor pijplijn uitvoeren, 4 voor het uitvoeren van activiteit) |
Prijzen voor totaal scenario: $ 1,45523
- Data Factory Operations = $0,00023
- Lezen/schrijven = 20*0,00001 = $0,0002 [1 R/W = $0,50/50000 = 0,00001]
- Bewaking = 6*0,000005 = $0,00003 [1 Bewaking = $0,25/50000 = 0,000005]
- Pijplijn orchestration & execution = $1,455
- Activiteitsruns = 0,001*6 = $0,006 [1 run = $1/1000 = 0,001]
- Activiteiten voor gegevensverkeer = $ 0,333 (naar waarde 10 minuten uitvoeringstijd. $ 0,25 per uur op Azure Integration Runtime)
- Pijplijnactiviteit = $ 1,116 (naar waarde 7 minuten uitvoeringstijd plus 60 minuten TTL. $ 1/uur op Azure Integration Runtime)
Notitie
Deze prijzen zijn alleen bedoeld als voorbeeld.
Veelgestelde vragen
V: Als ik meer dan 50 pijplijnactiviteiten wil uitvoeren, kunnen deze activiteiten dan tegelijkertijd worden uitgevoerd?
A: Maximaal 50 gelijktijdige pijplijnactiviteiten zijn toegestaan. De 51e pijplijnactiviteit wordt in de wachtrij geplaatst totdat er een 'gratis sleuf' wordt geopend. Hetzelfde voor externe activiteit. Maximaal 800 gelijktijdige externe activiteiten zijn toegestaan.
Volgende stappen
Nu u de prijzen voor Azure Data Factory begrijpt, kunt u aan de slag.