Arbeta med datafabrikspipelines

Slutförd

För att arbeta med datafabrikspipelines är det absolut nödvändigt att förstå vad en pipeline i Azure Data Factory är.

En pipeline i Azure Data Factory representerar en logisk gruppering av aktiviteter där aktiviteterna tillsammans utför en viss uppgift.

Ett exempel på en kombination av aktiviteter i en pipeline kan vara att mata in och rensa loggdata i kombination med ett mappningsdataflöde som analyserar loggdata som har rensats.

Med en pipeline kan du hantera separata enskilda aktiviteter som en uppsättning, som annars skulle hanteras individuellt. Det gör att du kan distribuera och schemalägga aktiviteter effektivt med hjälp av en enda pipeline, jämfört med att hantera varje aktivitet oberoende av varandra.

Aktiviteter i en pipeline kallas åtgärder som du utför på dina data. En aktivitet kan ha noll eller flera indatauppsättningar och kan producera en eller flera utdatauppsättningar.

Ett exempel på en åtgärd kan vara användningen av en kopieringsaktivitet, där du kopierar data från en Azure SQL Database till en Azure DataLake Storage Gen2. Om du vill bygga vidare på det här exemplet kan du använda en dataflödesaktivitet eller en Azure Databricks Notebook-aktivitet för bearbetning och transformering av data som kopierades till ditt Azure Data Lake Storage Gen2-konto för att få data redo för business intelligence-rapporteringslösningar som i Azure Synapse Analytics.

Eftersom det finns många aktiviteter som är möjliga i en pipeline i Azure Data Factory har vi grupperat aktiviteterna i tre kategorier:

  • Dataförflyttningsaktiviteter: Kopieringsaktiviteten i Data Factory kopierar data från ett källdatalager till ett datalager för mottagare.
  • Datatransformeringsaktiviteter: Azure Data Factory stöder transformeringsaktiviteter som Dataflöde, Azure Function, Spark och andra som kan läggas till i pipelines antingen individuellt eller kedjade med en annan aktivitet.
  • Kontrollaktiviteter: Exempel på kontrollflödesaktiviteter är "hämta metadata", "För varje" och "Kör pipeline".

Aktiviteter kan vara beroende av varandra. Vad vi menar är att aktivitetsberoendet definierar hur efterföljande aktiviteter är beroende av tidigare aktiviteter. Själva beroendet kan baseras på ett villkor för om du vill fortsätta körningen av tidigare definierade aktiviteter för att slutföra en uppgift. En aktivitet som är beroende av en eller flera tidigare aktiviteter kan ha olika beroendevillkor.

De fyra beroendevillkoren är:

  • Slutfördes
  • Misslyckades
  • Hoppades över
  • Slutfört

Om en pipeline till exempel har en aktivitet A, följt av en aktivitet B och aktivitet B har som beroendevillkor för aktivitet A "Lyckades", körs aktivitet B endast om aktivitet A har statusen lyckades.

Om du har flera aktiviteter i en pipeline och efterföljande aktiviteter inte är beroende av tidigare aktiviteter kan aktiviteterna köras parallellt.