Oefening: Een pijplijnuitvoering publiceren in Azure Data Factory

Voltooid

End-to-end-foutopsporing voor uw pijplijn

Ga naar het tabblad voor de pijplijn IngestAndTransformData.

U ziet een groen vakje op de kopieeractiviteit 'IngestIntoADLS'.

Sleep het naar de gegevensstroomactiviteit 'JoinAndAggregateData'.

Hierdoor wordt een 'bij succes' gemaakt waardoor de gegevensstroomactiviteit alleen wordt uitgevoerd als de kopie is geslaagd.

Debug Pipeline

Omdat we PolyBase gebruiken om naar het datawarehouse te schrijven, moeten we een faseringslocatie opgeven in Data Lake Storage.

Vouw op het tabblad Instellingen van de toewijzingsgegevensstroomactiviteit de PolyBase-accordie uit.

Selecteer ADLSGen2 voor de gekoppelde faseringsservice.

Kies 'sample-data' voor uw faseringscontainer en 'fasering' voor uw faseringsmap.

De gegevensstroom wordt standaard uitgevoerd op een Integration Runtime voor 8 kernen voor algemeen gebruik.

Settings tab Mapping Dataflow

Klik op Fouten opsporen om een foutopsporingsuitvoering uit te voeren.

Voor de uitvoering van foutopsporing gebruikt de gegevensstroomactiviteit het actieve foutopsporingscluster in plaats van een nieuw cluster te ontwikkelen. Een foutopsporingspijplijnuitvoering, inclusief een gegevensstroom, gebruikt het bestaande foutopsporingscluster opnieuw. Uw Integration Runtime-configuratie wordt niet gebruikt om een nieuw cluster in te stellen.

Debug Run of Dataflow

Net als bij de kopieeractiviteit heeft de gegevensstroom een speciale controleweergave die na voltooiing van de activiteit via het brilpictogram kan worden geopend.

Finished Debug Run of Dataflow

Wanneer u de bril selecteert, wordt u omgeleid naar het volgende scherm:

Specification of Debug Run of Dataflow

U kunt op een transformatie klikken om aanvullende informatie te bekijken over de uitvoering, zoals het partitioneren van gegevens en nieuwe/bijgewerkte/verwijderde kolommen.

Specification of Transformation in Debug run

Uw wijzigingen publiceren in de Data Factory-service en een triggeruitvoering uitvoeren

Nu u hebt gecontroleerd of de pijplijnuitvoering end-to-end werkt in een foutopsporingsomgeving, kunt u deze publiceren op basis van de data factory-service.

Klik op Alles publiceren om uw wijzigingen te publiceren.

ADF voert eerst een validatiecontrole uit om ervoor te zorgen dat al uw resources voldoen aan onze servicevereisten.

Als u een fout ontvangt, wordt er een zijpaneel weergegeven om de fout te beschrijven.

Zodra u uw pijplijn hebt gepubliceerd, kunt u een pijplijnuitvoering activeren voor de data factory-service door op Trigger Toevoegen te klikken.

Add a trigger to the pipeline

Wanneer het triggermenu wordt weergegeven, selecteert u Nu Activeren.

Hiermee wordt een handmatige eenmalige pijplijnuitvoering gestart.

In dit menu stelt u ook terugkerende schema's en triggers op basis van gebeurtenissen in die uw pijplijn operationeel maken.

Manual Trigger Parameters

U kunt een triggeruitvoering bewaken door het bewakingspictogram in de linkerzijbalk te selecteren.

Standaard bewaart Azure Data Factory gegevens over pijplijnuitvoeringen gedurende 45 dagen. Als u deze metrische gegevens langer wilt behouden, configureert u uw data factory met Azure Monitor.

Monitor Pipeline Runs

Klik op de naam van de pijplijn die u hebt geactiveerd om meer informatie te openen over uitvoeringen van afzonderlijke activiteiten.

In de weergave uitvoeringen van activiteit ziet u details van de pijplijnuitvoering zoals u hebt gedaan met de foutopsporingsuitvoering. Geactiveerde gegevensstromen zorgen voor een Just-In-Time Spark-cluster dat wordt beƫindigd zodra de taak is voltooid. Als gevolg hiervan duurt elke uitvoering van de gegevensstroomactiviteit 5-7 minuten aan de opstarttijd van het cluster.

Activity Runs view