Share via


Prisexempel: Kopiera data och transformera med Azure Databricks varje timme

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

I det här scenariot vill du kopiera data från AWS S3 till Azure Blob Storage och transformera data med Azure Databricks enligt ett schema per timme i 8 timmar per dag i 30 dagar.

Priserna som används i det här exemplet nedan är hypotetiska och är inte avsedda att innebära exakta faktiska priser. Läs-/skriv- och övervakningskostnader visas inte eftersom de vanligtvis är försumbara och inte påverkar de totala kostnaderna avsevärt. Aktivitetskörningar avrundas också till de närmaste 1 000 i priskalkylatorns uppskattningar.

Se Priskalkylatorn för Azure för mer specifika scenarier och för att beräkna framtida kostnader för att använda tjänsten.

Konfiguration

För att åstadkomma scenariot måste du skapa en pipeline med följande objekt:

  • En kopieringsaktivitet med en indatauppsättning för data som ska kopieras från AWS S3 och en utdatauppsättning för data i Azure Storage.
  • En Azure Databricks-aktivitet för datatransformeringen.
  • En schemautlösare för att köra pipelinen varje timme. När du vill köra en pipeline kan du antingen utlösa den direkt eller schemalägga den. Förutom själva pipelinen räknas varje utlösarinstans som en enda aktivitetskörning.

Diagram shows a pipeline with a schedule trigger. In the pipeline, copy activity flows to an input dataset, an output dataset, and a DataBricks activity, which runs on Azure Databricks. The input dataset flows to an AWS S3 linked service. The output dataset flows to an Azure Storage linked service.

Kostnadsuppskattning

Drift Typer och enheter
Kör pipeline 3 Aktivitetskörningar per körning (1 för utlösarkörning, 2 för aktivitetskörningar) = 720 aktivitetskörningar, avrundade eftersom kalkylatorn endast tillåter ökningar på 1 000.
Kopiera dataantagande: DIU-timmar per körning = 10 min 10 min \ 60 min * 4 Azure Integration Runtime (standardinställning för DIU = 4) Mer information om dataintegreringsenheter och optimering av kopieringsprestanda finns i den här artikeln
Kör Databricks-aktivitetsantagande: externa körningstimmar per körning = 10 min 10 min \ 60 min körning av extern pipelineaktivitet

Exempel på priskalkylator

Total prissättning för scenario i 30 dagar: 41,01 USD

Screenshot of the pricing calculator configured for a copy data and transform with Azure Databricks scenario.