Oefening: Gegevens opnemen in Azure Data Lake Storage Gen 2 met Azure Data Factory

Voltooid

Open de Azure Data Factory UX

Open Azure Portal via een browser.

Navigeer naar de resourcegroep waarin u De Azure Data Factory hebt geïmplementeerd en selecteer. U wordt omgeleid naar de volgende pagina.

Azure Data Factory Home Page

Selecteer 'Author & Monitor' die u omleidt naar de volgende pagina:

Author and Monitor in Azure Data Factory

Een gekoppelde Azure SQL-databaseservice maken

Op de ontwerppagina kunt u data factory-resources maken, zoals pijplijnen, gegevenssets, gegevensstromen, triggers en gekoppelde services. Als u een gekoppelde service wilt maken, klikt u op de knop Beheren

Linked Services in Azure Data Factory

Klik op Nieuw om een nieuwe gekoppelde service toe te voegen en u wordt omgeleid naar de volgende pagina:

Create new Linked Service

De eerste gekoppelde service die u gaat configureren, is een Azure SQL DB. U kunt de zoekbalk gebruiken om de lijst met gegevensarchieven te filteren.

Klik op de tegel Azure SQL Database en klik op doorgaan.

Create Azure SQL Database as Linked Service

Wanneer u op Doorgaan klikt, krijgt u de volgende pagina waarin u enkele instellingen van uw SQL Database moet invullen:

Specification Azure SQL Database as Linked Service

Voer in het deelvenster SQL DB-configuratie 'SQLDB' in als de naam van de gekoppelde service. Voer uw referenties in om data factory verbinding te laten maken met uw database.

Als u SQL-verificatie gebruikt, voert u de servernaam, de database, uw gebruikersnaam en wachtwoord in. U kunt controleren of de verbindingsgegevens juist zijn door te klikken op Verbinding testen. Klik op Maken als u klaar bent.

Een gekoppelde Azure Synapse Analytics-service maken

Herhaal hetzelfde proces om een gekoppelde Azure Synapse Analytics-service toe te voegen. Klik op het tabblad verbindingen op Nieuw. Selecteer de tegel Azure Synapse Analytics (voorheen SQL DW) en klik op doorgaan.

Create Azure Synapse Analytics as Linked Service

Selecteer Synapse Analytics en u wordt omgeleid naar het volgende scherm:

Specification Azure Synapse Analytics as Linked Service

Vul de instellingen in en klik op Maken. De gekoppelde serviceverbinding is vervolgens tot stand gebracht voor de Synapse Analytics-resource.

Een gekoppelde Azure Data Lake Storage Gen2-service maken

De laatste gekoppelde service die nodig is, is een Azure Data Lake Storage Gen2. Klik op het tabblad verbindingen op Nieuw. Selecteer de tegel Azure Data Lake Storage Gen2 en klik op doorgaan.

Azure Data Lake Storage Gen2 as Linked Service

U wordt omgeleid naar het volgende scherm:

Create Azure Data Lake Storage Gen2 as Linked Service

Zodra u op Create hebt geklikt, wordt u omgeleid naar het volgende scherm:

Linked Services

Selecteer foutopsporing voor gegevensstromen die moeten worden ingeschakeld.

Foutopsporingsmodus voor gegevensstromen inschakelen

Nu bouwen we een toewijzingsgegevensstroom. Een best practice voordat u toewijzingsgegevensstromen bouwt, is door de foutopsporingsmodus in te schakelen waarmee u transformatielogica in seconden op een actief Spark-cluster kunt testen.

Als u foutopsporing wilt inschakelen, klikt u op de schuifregelaar Foutopsporing gegevensstroom in de bovenste balk van de factory.

Klik op OK als het bevestigingsvenster wordt weergegeven. Het duurt ongeveer 5-7 minuten om het cluster te starten.

Turn on data flow debug

Gegevens uit Azure SQL DB opnemen in ADLS Gen2 met behulp van de kopieeractiviteit

U maakt nu een pijplijn met een kopieeractiviteit die één tabel uit een Azure SQL DB opneemt in een ADLS Gen2-opslagaccount door een pijplijn toe te voegen, een gegevensset te configureren en fouten in een pijplijn op te sporen via de ADF UX.

Een pijplijn met kopieeractiviteit maken

Klik in het deelvenster Factory-resources op het pluspictogram om het menu Nieuwe resource te openen. Selecteer Pijplijn.

Create a pipeline

U wordt omgeleid naar het volgende scherm:

Properties of Pipeline

Geef de pijplijn een naam en sla deze op.

Open in het deelvenster Activiteiten van het pijplijncanvas de accordion Verplaatsen en transformeren en sleep de activiteit Gegevens kopiëren naar het canvas.

Geef de kopieeractiviteit een beschrijvende naam zoals 'IngestIntoADLS'.

Copy Data Pipeline

Azure SQL DB-brongegevensset configureren

Klik op het tabblad Bron van de kopieeractiviteit. Klik op Nieuw om een nieuwe gegevensset te maken.

Uw bron is de tabel dbo. TripData bevindt zich in de gekoppelde service SQLDB die we in de vorige oefening hebben geconfigureerd.

Source Copy Data Pipeline

Zoek naar Azure SQL Database en klik op doorgaan.

New SQL Dataset Source

Roep de gegevensset 'TripData' aan.

Selecteer 'SQLDB' als uw gekoppelde service.

Selecteer tabelnaam 'dbo.TripData' uit de vervolgkeuzelijst voor de tabelnaam.

Importeer het schema Uit verbinding/archief.

Als u klaar bent, klikt u op OK.

Set properties SQL Dataset Source

U hebt uw eerste brongegevensset gemaakt.

Zorg ervoor dat in de broninstellingen de standaardwaarde Tabel is geselecteerd in het veld Query gebruiken.

ADLS Gen 2-sinkgegevensset configureren

Klik op het tabblad Sink van de kopieeractiviteit.

Klik op Nieuw om een nieuwe gegevensset te maken.

Select ADLS Gen2 as Sink Dataset

Selecteer ADLS Gen 2 en klik op Doorgaan:

ADLS Gen2 as Sink Dataset

Selecteer in het deelvenster Indeling selecteren DelimitedText terwijl u naar een CSV-bestand schrijft.

Klik op Doorgaan.

Select format of Sink Dataset

Noem uw sinkgegevensset 'TripDataCSV'.

Selecteer 'ADLSGen2' als uw gekoppelde service.

Voer in waar u uw CSV-bestand wilt schrijven. U kunt uw gegevens bijvoorbeeld schrijven naar file trip-data.csv in container staging-container.

Stel Eerste rij als header in op waar als u wilt dat uw uitvoergegevens headers bevatten.

Omdat er nog geen bestand in de bestemming bestaat, stelt u Importschema in op Geen.

Als u klaar bent, klikt u op OK.

Set Properties of Sink Dataset

De kopieeractiviteit testen met het uitvoeren van een pijplijnfoutopsporing

Als u wilt controleren of uw kopieeractiviteit correct werkt, klikt u op Fouten opsporen bovenaan het pijplijncanvas om een uitvoering van de foutopsporing uit te voeren. Met een foutopsporingsuitvoering kunt u de pijplijn end-to-end testen of tot een onderbrekingspunt voordat u deze naar de data factory-service publiceert.

Debug Copy pipeline

Als u de foutopsporingsuitvoering wilt controleren, gaat u naar het tabblad Uitvoer van het pijplijncanvas.

Het bewakingsscherm wordt elke 20 seconden automatisch vernieuwd of wanneer u handmatig op de knop Vernieuwen klikt.

De kopieeractiviteit heeft een speciale controleweergave die u kunt openen door op het brilpictogram te klikken in de kolom Acties.

Output of Debug Copy pipeline

Als u op de bril klikt, wordt u omgeleid naar het volgende scherm.

De controleweergave voor kopiëren bevat de uitvoeringsdetails en prestatiekenmerken van de activiteit. U kunt informatie bekijken zoals gelezen/geschreven gegevens, gelezen/geschreven rijen, gelezen/geschreven bestanden en doorvoer.

Monitoring Specification of Copy pipeline

U wordt aangeraden uw wijzigingen te publiceren in de data factory-service door op Alles publiceren te klikken in de bovenste balk van de fabriek. Azure Data Factory biedt ondersteuning voor volledige git-integratie. Git-integratie biedt versiebeheer, iteratief opslaan in een opslagplaats en samenwerking op een data factory. Zie voor meer informatie broncodebeheer in Azure Data Factory.

Publish all changes of pipeline

Als u op Alles publiceren klikt, wordt u omgeleid naar het volgende scherm om te bevestigen:

Confirmation of Publish all changes of pipeline

Selecteer Publiceren en de pijplijn wordt gepubliceerd.