Foutopsporingsmodus voor toewijzingsgegevensstroom

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Overzicht

Azure Data Factory en Synapse Analytics de foutopsporingsmodus van de toewijzingsgegevensstroom kunt u interactief de transformatie van de gegevensvorm bekijken tijdens het bouwen en opsporen van fouten in uw gegevensstromen. De foutopsporingssessie kan worden gebruikt in Data Flow ontwerpsessies en tijdens het uitvoeren van pijplijn foutopsporing van gegevensstromen. Als u de foutopsporingsmodus wilt inschakelen, gebruikt u de knop Data Flow Debug in de bovenste balk van het canvas van de gegevensstroom of het pijplijn-canvas wanneer u gegevensstroomactiviteiten hebt.

Schermopname die laat zien waar de schuifregelaar Fouten opsporen 1 is

Schermopname die laat zien waar de schuifregelaar Fouten opsporen 2 is

Wanneer u de schuifregelaar in hebt gezet, wordt u gevraagd om te selecteren welke integratieruntimeconfiguratie u wilt gebruiken. Als AutoResolveIntegrationRuntime wordt gekozen, wordt een cluster met acht kernen van algemene rekenkracht met een standaard time to live van 60 minuten geactiveerd. Als u meer inactieve teams wilt toestaan voordat er een times-out voor de sessie wordt uitgevoerd, kunt u een hogere TTL-instelling kiezen. Zie prestaties voor meer informatie over runtimes voor gegevensstroomintegratie Integration Runtime prestaties.

IR-selectie voor foutopsporing

Wanneer de foutopsporingsmodus is aan, bouwt u uw gegevensstroom interactief met een actief Spark-cluster. De sessie wordt gesloten nadat u foutopsporing hebt uitgeschakeld. U moet rekening houden met de kosten per uur die worden gemaakt door Data Factory de tijd dat u de foutopsporingssessie hebt ingeschakeld.

In de meeste gevallen is het een goed idee om uw gegevensstromen te bouwen in de foutopsporingsmodus, zodat u uw bedrijfslogica kunt valideren en uw gegevenstransformaties kunt bekijken voordat u uw werk publiceert. Gebruik de knop Fouten opsporen in het pijplijnpaneel om uw gegevensstroom in een pijplijn te testen.

Notitie

Elke foutopsporingssessie die een gebruiker start vanuit de gebruikersinterface van de browser is een nieuwe sessie met een eigen Spark-cluster. U kunt de bewakingsweergave voor foutopsporingssessies hierboven gebruiken om foutopsporingssessies weer te geven en te beheren. Er worden kosten in rekening gebracht voor elk uur dat elke foutopsporingssessie wordt uitgevoerd, inclusief de TTL-tijd.

De clusterstatus

De clusterstatusindicator bovenaan het ontwerpoppervlak wordt groen wanneer het cluster gereed is voor foutopsporing. Als uw cluster al warm is, wordt de groene indicator bijna onmiddellijk weergegeven. Als uw cluster nog niet werd uitgevoerd toen u de foutopsporingsmodus in ging, voert het Spark-cluster een koude opstartmodus uit. De indicator wordt spin totdat de omgeving gereed is voor interactieve debugging.

Wanneer u klaar bent met de foutopsporing, schakelt u de schakelknop Foutopsporing uit, zodat uw Spark-cluster kan worden beëindigd en u niet meer wordt gefactureerd voor foutopsporingsactiviteit.

Instellingen voor foutopsporing

Zodra u de foutopsporingsmodus hebt inschakelen, kunt u bewerken hoe een gegevensstroom een voorbeeld van gegevens bekijkt. Foutopsporingsinstellingen kunnen worden bewerkt door te klikken op Foutopsporingsinstellingen Instellingen de werkbalk van Flow gegevenspagina. U kunt hier de rijlimiet of bestandsbron selecteren die u wilt gebruiken voor elk van uw brontransformaties. De rijlimieten in deze instelling zijn alleen voor de huidige foutopsporingssessie. U kunt ook de gekoppelde faseringsservice selecteren die moet worden gebruikt voor een Azure Synapse Analytics bron.

Instellingen voor foutopsporing

Als uw Data Flow parameters bevat of een van de gegevenssets waarnaar wordt verwezen, kunt u opgeven welke waarden moeten worden gebruikt tijdens debuggen door het tabblad Parameters te selecteren.

Gebruik de steekproefinstellingen hier om te wijzen naar voorbeeldbestanden of voorbeeldtabellen met gegevens, zodat u uw brongegevenssets niet hoeft te wijzigen. Door hier een voorbeeldbestand of -tabel te gebruiken, kunt u dezelfde logica en eigenschapsinstellingen in uw gegevensstroom onderhouden tijdens het testen op een subset van gegevens.

Parameters voor foutopsporingsinstellingen

De standaard-IR die wordt gebruikt voor de foutopsporingsmodus in gegevensstromen is een klein 4-core single worker-knooppunt met een 4-core knooppunt met één stuurprogramma. Dit werkt prima met kleinere gegevensvoorbeelden bij het testen van uw gegevensstroomlogica. Als u de rijlimieten in uw foutopsporingsinstellingen uitbreidt tijdens het voorbeeld van gegevens of als u een hoger aantal rijen in de bron in de bron in de steekproef instelt tijdens het opsporen van pijplijnopsporing, kunt u overwegen om een grotere rekenomgeving in te stellen in een nieuwe Azure Integration Runtime. Vervolgens kunt u de foutopsporingssessie opnieuw starten met behulp van de grotere rekenomgeving.

Voorbeeld van gegevens

Als foutopsporing is geselecteerd, wordt het tabblad Gegevensvoorbeeld weergegeven in het onderste deelvenster. Als de foutopsporingsmodus niet is Flow, worden alleen de huidige metagegevens in en uit elk van uw transformaties weergegeven op het tabblad Inspecteren. In het voorbeeld van gegevens wordt alleen een query uitgevoerd op het aantal rijen dat u hebt ingesteld als uw limiet in uw foutopsporingsinstellingen. Klik op Vernieuwen om de voorbeeldgegevens op te halen.

Voorbeeld van gegevens

Notitie

Bestandsbronnen beperken alleen de rijen die u ziet, niet de rijen die worden gelezen. Voor zeer grote gegevenssets is het raadzaam om een klein deel van dat bestand te gebruiken voor uw tests. U kunt een tijdelijk bestand selecteren in Fouten opsporen Instellingen voor elke bron die een type bestandsset is.

Wanneer u in de foutopsporingsmodus in data Flow, worden uw gegevens niet naar de Sink-transformatie geschreven. Een foutopsporingssessie is bedoeld als een testharnas voor uw transformaties. Sinks zijn niet vereist tijdens het opsporen van fouten en worden genegeerd in uw gegevensstroom. Als u het schrijven van de gegevens in uw sink wilt testen, voert u de Data Flow uit vanuit een pijplijn en gebruikt u de foutopsporingsuitvoering vanuit een pijplijn.

Data Preview is een momentopname van uw getransformeerde gegevens met behulp van rijlimieten en steekproeven van gegevens uit gegevensframes in het Spark-geheugen. Daarom worden de sink-stuurprogramma's niet gebruikt of getest in dit scenario.

Joinvoorwaarden testen

Wanneer u de transformaties Joins, Exists of Lookup test, moet u een kleine set bekende gegevens gebruiken voor uw test. U kunt de bovenstaande foutopsporingsoptie Instellingen om een tijdelijk bestand in te stellen dat moet worden gebruikt voor uw tests. Dit is nodig omdat u bij het beperken of nemen van steekproeven van rijen uit een grote gegevensset niet kunt voorspellen welke rijen en welke sleutels in de stroom worden gelezen om te worden getest. Het resultaat is niet-deterministisch, wat betekent dat de join-voorwaarden kunnen mislukken.

Snelle acties

Zodra u het voorbeeld van de gegevens ziet, kunt u een snelle transformatie genereren voor het typecasten, verwijderen of wijzigen van een kolom. Klik op de kolomkop en selecteer een van de opties in de werkbalk voor het gegevensvoorbeeld.

Schermopname van de werkbalk van het gegevensvoorbeeld met opties: Typecast, Modify, Statistics en Remove.

Wanneer u een wijziging selecteert, wordt het voorbeeld van gegevens onmiddellijk vernieuwd. Klik op Bevestigen in de rechterbovenhoek om een nieuwe transformatie te genereren.

Schermopname van de knop Bevestigen.

Met Typecast en Modify wordt een afgeleide kolomtransformatie gegenereerd en met Verwijderen wordt een Select-transformatie gegenereerd.

Schermopname toont de Instellingen.

Notitie

Als u uw Data Flow bewerkt, moet u de voorbeeldgegevens opnieuw ophalen voordat u een snelle transformatie toevoegt.

Gegevensprofilering

Als u een kolom selecteert op het tabblad gegevensvoorbeeld en op Statistieken klikt in de werkbalk van het gegevensvoorbeeld, wordt een grafiek weergegeven aan de rechterkant van uw gegevensraster met gedetailleerde statistieken over elk veld. De service maakt een beslissing op basis van de gegevenssampling van het type grafiek dat moet worden weergegeven. Velden met hoge kardinaliteit worden standaard ingesteld op NULL-/NOT NULL-grafieken, terwijl bij categorische en numerieke gegevens met lage kardinaliteit staafdiagrammen worden weergegeven met de frequentie van de gegevenswaarde. U ziet ook de maximale/lengte van tekenreeksvelden, min/max-waarden in numerieke velden, standaarddev, percentielen, tellingen en gemiddeld.

Kolomstatistieken

Volgende stappen