Mappa dataflöde – felsökningsläge

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Översikt

Azure Data Factory och Synapse Analytics mappa dataflödets felsökningsläge kan du interaktivt se dataformtransformtransformen medan du skapar och felsöker dina dataflöden. Felsökningssessionen kan användas både i Data Flow designsessioner och under pipelinefelsökningskörning av dataflöden. Om du vill aktivera felsökningsläge använder du knappen Data Flow Debug (Felsökning) i det översta fältet på dataflödesarbetsytan eller pipelinearbetsytan när du har dataflödesaktiviteter.

Skärmbild som visar var är skjutreglaget För felsökning 1

Skärmbild som visar var är skjutreglaget För felsökning 2

När du aktiverar skjutreglaget uppmanas du att välja vilken integrationskörningskonfiguration du vill använda. Om AutoResolveIntegrationRuntime väljs, kommer ett kluster med åtta kärnor allmän beräkning med en standardtid på 60 minuter att vara live. Om du vill tillåta fler inaktiva team innan sessionens sluttid kan du välja en högre TTL-inställning. Mer information om integreringskörningar för dataflöden finns i Integration Runtime prestanda.

Val av felsöknings-IR

När felsökningsläget är aktiverat skapar du dataflödet interaktivt med ett aktivt Spark-kluster. Sessionen stängs när du inaktiverar felsökningen. Du bör vara medveten om de timavgifter som Data Factory debiteras under den tid då felsökningssessionen är aktiverad.

I de flesta fall är det en bra idé att skapa dina dataflöden i felsökningsläge så att du kan verifiera affärslogiken och visa dina datatransformationer innan du publicerar ditt arbete. Använd knappen "Felsök" på pipelinepanelen för att testa ditt dataflöde i en pipeline.

Anteckning

Varje felsökningssession som en användare startar från webbläsarens användargränssnitt är en ny session med ett eget Spark-kluster. Du kan använda övervakningsvyn för felsökningssessioner ovan för att visa och hantera felsökningssessioner. Du debiteras för varje timme som varje felsökningssession körs, inklusive TTL-tiden.

Klusterstatus

Klusterstatusindikatorn överst på designytan blir grön när klustret är redo för felsökning. Om klustret redan är varmt visas den gröna indikatorn nästan omedelbart. Om klustret inte redan kördes när du gick in i felsökningsläge utför Spark-klustret en kallstart. Indikatorn snurrar tills miljön är redo för interaktiv felsökning.

När du är klar med felsökningen stänger du av felsökningsknappen så att Spark-klustret kan avslutas och du inte längre debiteras för felsökningsaktiviteten.

Felsökningsinställningar

När du aktiverar felsökningsläget kan du redigera hur dataflöde förhandsgranskar data. Du kan redigera felsökningsinställningarna genom att klicka på "Felsöka Inställningar" i verktygsfältet för Data Flow-arbetsytan. Du kan välja den radgräns eller filkälla som ska användas för var och en av dina källtransformningar här. Radgränserna i den här inställningen gäller endast för den aktuella felsökningssessionen. Du kan också välja den länkade mellanlagringstjänst som ska användas för en Azure Synapse Analytics källa.

Felsökningsinställningar

Om du har parametrar i Data Flow eller någon av dess refererade datauppsättningar kan du ange vilka värden som ska användas under felsökningen genom att välja fliken Parametrar.

Använd samplingsinställningarna här för att peka på exempelfiler eller exempeltabeller med data så att du inte behöver ändra dina källdatauppsättningar. Genom att använda en exempelfil eller tabell här kan du underhålla samma logik- och egenskapsinställningar i ditt dataflöde vid testning mot en delmängd av data.

Parametrar för felsökningsinställningar

Standard-IR som används för felsökningsläge i dataflöden är en liten 4-kärnig enskild arbetsnod med en nod med 4 kärnor med en enda drivrutin. Detta fungerar bra med mindre dataexempel när du testar dataflödeslogiken. Om du expanderar radgränserna i dina felsökningsinställningar under förhandsversionen av data eller anger ett högre antal sampla rader i källan under pipelinefelsökning kan du överväga att ange en större beräkningsmiljö i en ny Azure Integration Runtime. Sedan kan du starta om felsökningssessionen med hjälp av den större beräkningsmiljön.

Förhandsgranskning

När felsökning är på kommer fliken Dataförhandsgranskning att lysa upp på den nedre panelen. Utan felsökningsläge aktiverat visar Data Flow endast aktuella metadata in och ut från var och en av dina transformeringarna på fliken Granska. Dataförhandsvisningen frågar bara efter antalet rader som du har angett som gräns i dina felsökningsinställningar. Klicka på Uppdatera för att hämta dataförhandsgranskningen.

Förhandsgranskning

Anteckning

Filkällor begränsar bara de rader som visas, inte de rader som läses. För mycket stora datamängder rekommenderar vi att du tar en liten del av filen och använder den för testning. Du kan välja en tillfällig fil i Felsökningsloggen Inställningar varje källa som är en fildatauppsättningstyp.

När du kör i felsökningsläge i Data Flow skrivs inte dina data till sink-transformen. En felsökningssession är avsedd att fungera som ett testnät för dina transformningar. Mottagare krävs inte under felsökningen och ignoreras i ditt dataflöde. Om du vill testa att skriva data i din mottagare kör du Data Flow från en pipeline och använder felsökningskörningen från en pipeline.

Förhandsversion av data är en ögonblicksbild av dina transformerade data med hjälp av radgränser och datasampling från dataramar i Spark-minnet. Därför används eller testas inte drivrutinerna för mottagare i det här scenariot.

Testa kopplingsvillkor

När du testar kopplingar, finns eller uppslagsomvandlar ska du se till att du använder en liten uppsättning kända data för testet. Du kan använda felsökningsalternativet Inställningar ovan för att ange en tillfällig fil som ska användas för testningen. Detta krävs eftersom du inte kan förutsäga vilka rader och vilka nycklar som ska läsas in i flödet för testning när du begränsar eller tar bort rader från en stor datamängd. Resultatet är icke-deterministiskt, vilket innebär att kopplingsvillkoren kan misslyckas.

Snabbåtgärder

När du ser dataförhandsvisningen kan du generera en snabb transformering för att skriva, ta bort eller ändra en kolumn. Klicka på kolumnrubriken och välj sedan något av alternativen i verktygsfältet för förhandsgranskning av data.

Skärmbild som visar verktygsfältet för dataförhandsgranskning med alternativ: Typecast, Ändra, Statistik och Ta bort.

När du har valt en ändring uppdateras dataförhandsgranskningen omedelbart. Klicka Bekräfta i det övre högra hörnet för att generera en ny transformering.

Skärmbild som visar knappen Bekräfta.

Typecast och Modify genererar en transformering av härledd kolumn och Remove genererar en Select-transformering.

Skärmbild som visar härledd kolumns Inställningar.

Anteckning

Om du redigerar data Flow måste du hämta dataförhandsvisningen på nytt innan du lägger till en snabbtransformering.

Dataprofilering

Om du väljer en kolumn på fliken för dataförhandsgranskning och klickar på Statistik i verktygsfältet för dataförhandsgranskning visas ett diagram längst till höger i datarutnätet med detaljerad statistik om varje fält. Tjänsten gör en bestämning baserat på datasampling av vilken typ av diagram som ska visas. Fält med hög kardinalitet kommer som standard att ha NULL-/NOT NULL-diagram medan kategoriska och numeriska data med låg kardinalitet visar stapeldiagram som visar datavärdesfrekvensen. Du ser också max/längd för strängfält, min/max-värden i numeriska fält, standardutveckling, percentiler, antal och medelvärde.

Kolumnstatistik

Nästa steg