Övervaka dataflöden
GÄLLER FÖR:
Azure Data Factory
Azure Synapse Analytics
När du har byggt och felsökt ditt dataflöde vill du schemalägga dataflödet så att det körs enligt ett schema i kontexten för en pipeline. Du kan schemalägga pipelinen med utlösare. För att testa och felsöka dataflödet från en pipeline kan du använda felsökningsknappen i verktygsfältets menyfliksområde eller alternativet Utlös nu från Pipeline Builder för att köra en körning med en körning för att testa ditt dataflöde i pipelinekontexten.
När du kör din pipeline kan du övervaka pipelinen och alla aktiviteter som ingår i pipelinen, inklusive data-Flow-aktiviteten. Klicka på övervakningsikonen i den vänstra panelen i användargränssnittet. Du kan se en skärm som liknar den nedan. Med de markerade ikonerna kan du visa mer information om aktiviteterna i pipelinen, inklusive Flow dataaktiviteten.
Du ser statistik på den här nivån, inklusive körningstider och status. Körnings-ID:t på aktivitetsnivå skiljer sig från Körnings-ID på pipelinenivå. Körnings-ID:t på föregående nivå är för pipelinen. Om du väljer glasögon får du detaljerad information om körningen av dataflödet.
När du är i den grafiska nodövervakningsvyn kan du se en förenklad vyversion av dataflödesdiagrammet. Om du vill se informationsvyn med större grafnoder som innehåller etiketter för transformeringsfasen använder du zoomreglaget till höger på arbetsytan. Du kan också använda sökknappen till höger för att hitta delar av dataflödeslogiken i diagrammet.
Visa data Flow körningsplaner
När Data Flow körs i Spark fastställer tjänsten optimala kodsökvägar baserat på hela dataflödet. Dessutom kan körningssökvägarna inträffa på olika utskalningsnoder och datapartitioner. Därför representerar övervakningsdiagrammet flödets design, med hänsyn till körningsvägen för dina transformningar. När du väljer enskilda noder kan du se "faser" som representerar kod som kördes tillsammans i klustret. De tider och antal som visas representerar dessa grupper eller faser i stället för de enskilda stegen i din design.
När du väljer det öppna utrymmet i övervakningsfönstret visar statistiken i det nedre fönstret tidsinställning och radantal för varje mottagare och de transformningar som ledde till mottagarens data för transformerings härledning.
När du väljer enskilda transformationer får du ytterligare feedback på den högra panelen som visar partitionsstatistik, kolumnantal, skevhet (hur jämnt är data som distribueras över partitioner) och stapeln (hur taggig är data).
Genom att sortera efter bearbetningstid kan du identifiera vilka faser i ditt dataflöde som tog mest tid.
Om du vill ta reda på vilka omvandlingar i varje fas som tog mest tid sorterar du på högsta bearbetningstid.
De rader som skrivs är också sorterbara som ett sätt att identifiera vilka strömmar i ditt dataflöde som skriver mest data.
När du väljer Mottagare i nodvyn kan du se kolumnkluster. Det finns tre olika metoder som kolumner ackumuleras i hela dataflödet för att landa i mottagaren. De är:
- Beräknad: Du använder kolumnen för villkorsstyrd bearbetning eller i ett uttryck i ditt dataflöde, men hamnar inte i mottagaren
- Härledd: Kolumnen är en ny kolumn som du genererade i ditt flöde, det vill säga att den inte fanns i källan
- Mappad: Kolumnen kommer från källan och din mappar den till ett sink-fält
- Dataflödesstatus: Den aktuella statusen för körningen
- Tid för klusterstart: Hur lång tid det tar att hämta JIT Spark-beräkningsmiljön för körningen av dataflödet
- Antal transformeringar: Hur många transformeringssteg som körs i ditt flöde
Total bearbetningstid för mottagare jämfört med bearbetningstid för transformering
Varje transformeringssteg innehåller en total tid för den fasen att slutföras med varje partitionskörningstid tillsammans. När du klickar på Mottagare visas "Bearbetningstid för mottagare". Den här tiden inkluderar total transformeringstid plus den I/O-tid det tog att skriva data till mållagret. Skillnaden mellan bearbetningstiden för mottagare och totalen för omvandlingen är I/O-tiden för att skriva data.
Du kan också se detaljerad tidsinställning för varje partitionstransformeringssteg om du öppnar JSON-utdata från dataflödesaktiviteten i pipelineövervakningsvyn. JSON innehåller en tidsinställning på millisekunder för varje partition, medan övervakningsvyn för UX är en sammanställd tidsinställning för partitioner som läggs ihop:
{
"stage": 4,
"partitionTimes": [
14353,
14914,
14246,
14912,
...
]
}
Bearbetningstid för mottagare
När du väljer ikonen för omvandling av mottagare på kartan visas ytterligare en datapunkt med namnet "efterbearbetningstid" längst ned i panelen till höger. Det här är den tid som läggs på att köra jobbet i Spark-klustret när dina data har lästs in, transformerats och skrivits. Den här tiden kan omfatta stängning av anslutningspooler, avstängning av drivrutiner, borttagning av filer, sammankoppling av filer osv. När du utför åtgärder i ditt flöde som "flytta filer" och "utdata till en enskild fil" kommer du troligen att se en ökning av värdet för tiden efter bearbetningen.
- Varaktighet för skrivfas: Tiden för att skriva data till en mellanlagringsplats för Synapse-SQL
- Tabellåtgärd SQL varaktighet: Den tid som ägnats åt att flytta data från temporära tabeller till måltabell
- Varaktighet före SQL & efter SQL: Den tid som ägnats åt att köra kommandon före/efter SQL post
- Varaktighet för förkommandon & efter kommandon: Den tid som ägnats åt att köra för-/efteråtgärder för filbaserade källor/mottagare. Du kan till exempel flytta eller ta bort filer efter bearbetning.
- Sammanslagningstid: Den tid som läggs på att sammanfoga filen, sammanfogade filer används för filbaserade mottagare när du skriver till en enskild fil eller när "Filnamn som kolumndata" används. Om det här måttet tar lång tid bör du undvika att använda de här alternativen.
- Fastid: Total tid i Spark för att slutföra åtgärden som en fas.
- Tillfällig mellanlagring stabil: Namnet på den tillfälliga tabellen som används av dataflöden för att mellanlagra data i databasen.
Felrader
Aktivering av felradshantering i dataflödes mottagare visas i övervakningsutdata. När du ställer in mottagaren på "rapportera lyckad vid fel" visar övervakningsutdata antalet lyckade och misslyckade rader när du klickar på noden för övervakning av mottagare.
När du väljer "rapportera fel vid fel" visas samma utdata endast i utdatatexten för aktivitetsövervakning. Det beror på att dataflödesaktiviteten returnerar ett fel vid körning och att den detaljerade övervakningsvyn inte är tillgänglig.
Övervakningsikoner
Den här ikonen innebär att transformeringsdata redan cachelagrades i klustret, så det har tagits med i beräkningen i tids- och körningssökvägen:
Du ser också ikoner för den gröna cirkeln i omvandlingen. De representerar ett antal mottagare som data flödar till.