Share via


Iteratieve ontwikkeling en foutopsporing met Azure Data Factory- en Synapse Analytics-pijplijnen

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Azure Data Factory en Synapse Analytics ondersteunen iteratieve ontwikkeling en foutopsporing van pijplijnen. Met deze functies kunt u uw wijzigingen testen voordat u een pull-aanvraag maakt of publiceert naar de service.

Bekijk de volgende video voor een inleiding van acht minuten en demonstratie van deze functie:

Fouten opsporen in een pijplijn

Als u het pijplijncanvas gebruikt, kunt u uw activiteiten testen met behulp van de mogelijkheid voor foutopsporing . Wanneer u testuitvoeringen uitvoert, hoeft u uw wijzigingen niet naar de service te publiceren voordat u Foutopsporing selecteert. Deze functie is handig in scenario's waarin u ervoor wilt zorgen dat de wijzigingen werken zoals verwacht voordat u de werkstroom bijwerkt.

Debug capability on the pipeline canvas

Terwijl de pijplijn wordt uitgevoerd, ziet u de resultaten van elke activiteit op het tabblad Uitvoer van het pijplijncanvas.

Bekijk de resultaten van de testuitvoeringen in het uitvoervenster van het pijplijncanvas.

Output window of the pipeline canvas

Nadat een test is uitgevoerd, voegt u meer activiteiten toe aan uw pijplijn en gaat u op een iteratieve manier verder met foutopsporing. U kunt ook een testuitvoering annuleren terwijl deze wordt uitgevoerd.

Belangrijk

Als u Foutopsporing selecteert , wordt de pijplijn daadwerkelijk uitgevoerd. Als de pijplijn bijvoorbeeld kopieeractiviteit bevat, kopieert de testuitvoering gegevens van de bron naar de bestemming. Als gevolg hiervan raden we u aan testmappen te gebruiken in uw kopieeractiviteiten en andere activiteiten bij het opsporen van fouten. Nadat u fouten in de pijplijn hebt opgespoord, schakelt u over naar de werkelijke mappen die u wilt gebruiken in normale bewerkingen.

Onderbrekingspunten instellen

Met de service kunt u fouten opsporen in een pijplijn totdat u een bepaalde activiteit op het pijplijncanvas bereikt. Plaats een onderbrekingspunt voor de activiteit totdat u wilt testen en selecteer Debug. De service zorgt ervoor dat de test alleen wordt uitgevoerd totdat de onderbrekingspuntactiviteit op het pijplijncanvas wordt uitgevoerd. Deze functie Debug Until is handig als u de hele pijplijn niet wilt testen, maar alleen een subset van activiteiten in de pijplijn.

Breakpoints on the pipeline canvas

Als u een onderbrekingspunt wilt instellen, selecteert u een element op het pijplijncanvas. De optie Foutopsporing totdat wordt weergegeven als een lege rode cirkel in de rechterbovenhoek van het element.

Before setting a breakpoint on the selected element

Nadat u de optie Foutopsporing totdat hebt geselecteerd, verandert deze in een gevulde rode cirkel om aan te geven dat het onderbrekingspunt is ingeschakeld.

After setting a breakpoint on the selected element

Uitvoeringen van foutopsporing controleren

Wanneer u een uitvoering voor foutopsporing voor pijplijnen uitvoert, worden de resultaten weergegeven in het uitvoervenster van het pijplijncanvas. Het uitvoertabblad bevat alleen de meest recente uitvoering die is uitgevoerd tijdens de huidige browsersessie.

Output window of the pipeline canvas

Als u een historische weergave van foutopsporingsuitvoeringen wilt bekijken of een lijst met alle actieve foutopsporingsuitvoeringen wilt bekijken, kunt u naar de monitorervaring gaan.

Notitie

De service blijft alleen de uitvoeringsgeschiedenis voor foutopsporing gedurende 15 dagen behouden.

Toewijzingsgegevensstromen opsporen

Met toewijzingsgegevensstromen kunt u codevrije gegevenstransformatielogica bouwen die op schaal wordt uitgevoerd. Wanneer u uw logica bouwt, kunt u een foutopsporingssessie inschakelen om interactief met uw gegevens te werken met behulp van een live Spark-cluster. Lees voor meer informatie over de foutopsporingsmodus voor toewijzingsgegevensstromen.

U kunt actieve foutopsporingssessies voor gegevensstromen bewaken in de monitorervaring .

View data flow debug sessions

Gegevensvoorbeeld in de ontwerpfunctie voor gegevensstromen en pijplijnopsporing van gegevensstromen zijn bedoeld om het beste te werken met kleine voorbeelden van gegevens. Als u echter uw logica in een pijplijn of gegevensstroom wilt testen op basis van grote hoeveelheden gegevens, vergroot u de grootte van de Azure Integration Runtime die wordt gebruikt in de foutopsporingssessie met meer kernen en een minimum aan rekenkracht voor algemeen gebruik.

Fouten opsporen in een pijplijn met een gegevensstroomactiviteit

Wanneer u een foutopsporingspijplijnuitvoering uitvoert met een gegevensstroom, hebt u twee opties waarop rekenkracht moet worden gebruikt. U kunt een bestaand foutopsporingscluster gebruiken of een nieuw Just-In-Time-cluster maken voor uw gegevensstromen.

Het gebruik van een bestaande foutopsporingssessie vermindert de opstarttijd van de gegevensstroom aanzienlijk omdat het cluster al wordt uitgevoerd, maar wordt niet aanbevolen voor complexe of parallelle workloads, omdat deze mogelijk mislukken wanneer meerdere taken tegelijk worden uitgevoerd.

Met behulp van de activiteitsruntime maakt u een nieuw cluster met behulp van de instellingen die zijn opgegeven in de integratieruntime van elke gegevensstroomactiviteit. Hierdoor kan elke taak worden geïsoleerd en moeten worden gebruikt voor complexe workloads of prestatietests. U kunt ook de TTL in de Azure IR beheren, zodat de clusterbronnen die worden gebruikt voor foutopsporing, nog steeds beschikbaar zijn voor die periode om extra taakaanvragen te verwerken.

Notitie

Als u een pijplijn hebt met gegevensstromen die parallel worden uitgevoerd of gegevensstromen die moeten worden getest met grote gegevenssets, kiest u Activiteitsruntime gebruiken, zodat de service de Integration Runtime kan gebruiken die u hebt geselecteerd in uw gegevensstroomactiviteit. Hierdoor kunnen de gegevensstromen worden uitgevoerd op meerdere clusters en kunnen ze voldoen aan de uitvoeringen van uw parallelle gegevensstroom.

Running a pipeline with a dataflow

Nadat u uw wijzigingen hebt getest, promoveert u deze naar hogere omgevingen met behulp van continue integratie en implementatie.