Felsöka datafabrikspipelines

Slutförd

Kundernas krav och förväntningar förändras i förhållande till dataintegrering. Behovet bland användare att utveckla och felsöka sina ETL-arbetsflöden (Extract Transform/Load) och Extract Load/Transform (ELT) blir därför allt viktigare.

Azure Data Factory kan hjälpa dig att skapa och utveckla iterativa felsökningspipelines för Data Factory när du utvecklar din dataintegreringslösning. Genom att redigera en pipeline med hjälp av pipelinearbetsytan kan du testa dina aktiviteter och pipelines med hjälp av felsökningsfunktionen.

I Azure Data Factory behöver du inte publicera ändringar i pipelinen eller aktiviteterna innan du vill felsöka. Det här är användbart i ett scenario där du vill testa ändringarna och se om det fungerar som förväntat innan du faktiskt sparar och publicerar dem.

Ibland vill du inte felsöka hela pipelinen utan testa en del av pipelinen. Med en felsökningskörning kan du göra just det. Du kan testa pipelinen från slutpunkt till slutpunkt eller ange en brytpunkt. Genom att göra det i felsökningsläge kan du interaktivt se resultatet av varje steg när du skapar och felsöker din pipeline.

Felsöka och publicera en pipeline

När du skapar eller ändrar en pipeline som körs kan du se resultatet av varje aktivitet på fliken Utdata på pipelinearbetsytan.

När en testkörning har slutförts och du är nöjd med resultatet kan du lägga till fler aktiviteter i pipelinen och fortsätta felsökningen på ett iterativt sätt. När du inte är nöjd eller vill hindra pipelinen från att felsökas kan du avbryta en testkörning medan den pågår. Tänk på att genom att välja skjutreglaget för felsökning körs pipelinen. Om pipelinen till exempel innehåller en kopieringsaktivitet kopierar testkörningen därför data från källa till mål.

Bästa praxis är att använda testmappar i dina kopieringsaktiviteter och andra aktiviteter vid felsökning, så att när du är nöjd med resultatet och har debuggat pipelinen växlar du till de faktiska mapparna för dina normala åtgärder.

Välj Felsöka i verktygsfält för att felsöka pipelinen. Du ser status för pipelinekörningen på fliken Utdata längst ned i fönstret.

Debug slider Azure Data Factory

Output tab Azure Data Factory Debug

När pipelinen har körts väljer du Publicera alla i det översta verktygsfältet. Med den här åtgärden publicerar du enheter (datauppsättningar och pipelines) som du skapat i datafabriken.

Publish all changes and entities in Azure Data Factory

Vänta tills du ser det publicerade meddelandet. Om du vill se meddelanden väljer du ikonen Visa meddelanden (klockikon) längst upp till höger i portalen (klockknappen).

Bell button for notifications in Azure Data Factory

Felsöka mappning av dataflöde

Under skapandet av mappning Dataflöde kan du interaktivt se hur dataformer och transformeringar körs så att du kan felsöka dem. Om du vill använda den här funktionen måste du först aktivera funktionen "Dataflöde Debug".

Felsökningssessionen kan användas både i Dataflöde designsessioner och under körning av pipelinefelsökning av dataflöden. När felsökningsläget är aktiverat skapar du faktiskt dataflödet med ett aktivt Spark-kluster. Spark-klustret stängs när felsökningen är avstängd. Du har ett val i vilken beräkning du ska använda. När du använder ett befintligt felsökningskluster minskar starttiden. Men för komplexa eller parallella arbetsbelastningar kanske du vill starta ett eget just-in-time-kluster.

Metodtips för felsökning av dataflöden är att hålla felsökningsläget aktiverat och att kontrollera och verifiera affärslogik som ingår i dataflödet. Genom att visuellt visa datatransformeringar och former kan du se ändringarna.

Om du vill testa dataflödet i en pipeline som du har skapat är det bäst att använda felsökningsknappen på pipelinepanelen. Dataförhandsvisning skriver inte data, men en felsökningskörning i ditt dataflöde skriver data, precis som när du felsöker en pipeline, till målmottagaren.

Felsökningsinställningar

Som tidigare beskrivits betraktas varje felsökningssession som startas från Azure Data Factory-användargränssnittet som en ny session med ett eget Spark-kluster. Om du vill övervaka sessionerna kan du använda övervakningsvyn för felsökningssessionen för att hantera dina felsökningssessioner per den datafabrik som har konfigurerats.

Om du vill se om ett Spark-kluster är redo för felsökning kan du kontrollera klusterstatusindikatorn överst på designytan. Om den är grön är den klar. Om klustret inte kördes när du gick in i felsökningsläget kan väntetiden vara cirka 5–7 minuter eftersom klustren måste startas.

Det är bästa praxis att när du har slutfört felsökningen stänger du av felsökningsläget så att Spark-klustret avslutas.

När du felsöker kan du redigera förhandsgranskningen av data i ett dataflöde genom att välja Felsökningsinställning. Exempel på att ändra dataförhandsgranskningen kan vara en radgräns eller filkälla om du använder källtransformeringar. När du väljer den länkade mellanlagringstjänsten kan du använda Azure Synapse Analytics som källa.

Om du har parametrar i din Dataflöde eller någon av dess refererade datauppsättningar kan du ange vilka värden som ska användas under felsökningen genom att välja fliken Parametrar. Under felsökning krävs inte mottagare och ignoreras i dataflödet. Om du vill testa och skriva transformerade data till mottagaren kan du köra dataflödet från en pipeline och använda felsökningskörningen från pipelinen.

Som tidigare beskrivits går det bara att felsöka upp till en viss punkt eller aktivitet i Azure Data Factory. Om du vill göra det kan du använda en brytpunkt för aktiviteten upp till där du vill testa och sedan välja Felsök. Alternativet Felsök tills visas som en tom röd cirkel i det övre högra hörnet av elementet. När du har valt alternativet Felsök tills ändras den till en fylld röd cirkel för att indikera att brytpunkten är aktiverad. Azure Data Factory ser sedan till att testet bara körs fram till den brytpunktsaktiviteten i pipelinen. Den här funktionen är användbar när du bara vill testa en delmängd av aktiviteterna i en pipeline.

I de flesta scenarier räcker felsökningsfunktionerna i Azure Data Factory. Ibland är det dock nödvändigt att testa ändringar i en pipeline i en klonad sandbox-miljö. Ett användningsfall för att göra det är när du har parametriserade ETL-pipelines som du vill testa hur de skulle bete sig när de utlöser en fil ankomst jämfört med under rullande tidsfönster. I det här fallet kan kloning av en sandbox-miljö vara lämpligare.

En bra sak att veta om Azure Data Factory kan vara att eftersom det oftast bara debiteras av antalet körningar behöver en andra Data Factory inte leda till ytterligare avgifter.

Övervaka felsökningskörningar

Om du vill övervaka felsökningskörningar kan du kontrollera utdatafliken, men bara för den senaste körningen som inträffade i webbläsarsessionen, eftersom den inte visar historiken. Om du vill få en vy över historiken för felsökningskörningar eller se alla aktiva felsökningskörningar kan du gå till fliken Övervaka .

En sak att tänka på är att Azure Data Factory-tjänsten bara fortsätter att felsöka körningshistorik i 15 dagar. När det gäller övervakning av dataflödesfelsökningssessioner går du också till fliken Övervaka .

Monitoring debug run Azure Data Factory