Oefening: Een pijplijnuitvoering publiceren in Azure Data Factory
End-to-end-foutopsporing voor uw pijplijn
Ga naar het tabblad voor de pijplijn IngestAndTransformData.
U ziet een groen vakje op de kopieeractiviteit 'IngestIntoADLS'.
Sleep het naar de gegevensstroomactiviteit 'JoinAndAggregateData'.
Hierdoor wordt een 'bij succes' gemaakt waardoor de gegevensstroomactiviteit alleen wordt uitgevoerd als de kopie is geslaagd.
Omdat we PolyBase gebruiken om naar het datawarehouse te schrijven, moeten we een faseringslocatie opgeven in Data Lake Storage.
Vouw op het tabblad Instellingen van de toewijzingsgegevensstroomactiviteit de PolyBase-accordie uit.
Selecteer ADLSGen2 voor de gekoppelde faseringsservice.
Kies 'sample-data' voor uw faseringscontainer en 'fasering' voor uw faseringsmap.
De gegevensstroom wordt standaard uitgevoerd op een Integration Runtime voor 8 kernen voor algemeen gebruik.
Klik op Fouten opsporen om een foutopsporingsuitvoering uit te voeren.
Voor de uitvoering van foutopsporing gebruikt de gegevensstroomactiviteit het actieve foutopsporingscluster in plaats van een nieuw cluster te ontwikkelen. Een foutopsporingspijplijnuitvoering, inclusief een gegevensstroom, gebruikt het bestaande foutopsporingscluster opnieuw. Uw Integration Runtime-configuratie wordt niet gebruikt om een nieuw cluster in te stellen.
Net als bij de kopieeractiviteit heeft de gegevensstroom een speciale controleweergave die na voltooiing van de activiteit via het brilpictogram kan worden geopend.
Wanneer u de bril selecteert, wordt u omgeleid naar het volgende scherm:
U kunt op een transformatie klikken om aanvullende informatie te bekijken over de uitvoering, zoals het partitioneren van gegevens en nieuwe/bijgewerkte/verwijderde kolommen.
Uw wijzigingen publiceren in de Data Factory-service en een triggeruitvoering uitvoeren
Nu u hebt gecontroleerd of de pijplijnuitvoering end-to-end werkt in een foutopsporingsomgeving, kunt u deze publiceren op basis van de data factory-service.
Klik op Alles publiceren om uw wijzigingen te publiceren.
ADF voert eerst een validatiecontrole uit om ervoor te zorgen dat al uw resources voldoen aan onze servicevereisten.
Als u een fout ontvangt, wordt er een zijpaneel weergegeven om de fout te beschrijven.
Zodra u uw pijplijn hebt gepubliceerd, kunt u een pijplijnuitvoering activeren voor de data factory-service door op Trigger Toevoegen te klikken.
Wanneer het triggermenu wordt weergegeven, selecteert u Nu Activeren.
Hiermee wordt een handmatige eenmalige pijplijnuitvoering gestart.
In dit menu stelt u ook terugkerende schema's en triggers op basis van gebeurtenissen in die uw pijplijn operationeel maken.
U kunt een triggeruitvoering bewaken door het bewakingspictogram in de linkerzijbalk te selecteren.
Standaard bewaart Azure Data Factory gegevens over pijplijnuitvoeringen gedurende 45 dagen. Als u deze metrische gegevens langer wilt behouden, configureert u uw data factory met Azure Monitor.
Klik op de naam van de pijplijn die u hebt geactiveerd om meer informatie te openen over uitvoeringen van afzonderlijke activiteiten.
In de weergave uitvoeringen van activiteit ziet u details van de pijplijnuitvoering zoals u hebt gedaan met de foutopsporingsuitvoering. Geactiveerde gegevensstromen zorgen voor een Just-In-Time Spark-cluster dat wordt beƫindigd zodra de taak is voltooid. Als gevolg hiervan duurt elke uitvoering van de gegevensstroomactiviteit 5-7 minuten aan de opstarttijd van het cluster.