Oefening: Gegevens opnemen in Azure Data Lake Storage Gen 2 met Azure Data Factory
Open de Azure Data Factory UX
Open Azure Portal via een browser.
Navigeer naar de resourcegroep waarin u De Azure Data Factory hebt geïmplementeerd en selecteer. U wordt omgeleid naar de volgende pagina.
Selecteer 'Author & Monitor' die u omleidt naar de volgende pagina:
Een gekoppelde Azure SQL-databaseservice maken
Op de ontwerppagina kunt u data factory-resources maken, zoals pijplijnen, gegevenssets, gegevensstromen, triggers en gekoppelde services. Als u een gekoppelde service wilt maken, klikt u op de knop Beheren
Klik op Nieuw om een nieuwe gekoppelde service toe te voegen en u wordt omgeleid naar de volgende pagina:
De eerste gekoppelde service die u gaat configureren, is een Azure SQL DB. U kunt de zoekbalk gebruiken om de lijst met gegevensarchieven te filteren.
Klik op de tegel Azure SQL Database en klik op doorgaan.
Wanneer u op Doorgaan klikt, krijgt u de volgende pagina waarin u enkele instellingen van uw SQL Database moet invullen:
Voer in het deelvenster SQL DB-configuratie 'SQLDB' in als de naam van de gekoppelde service. Voer uw referenties in om data factory verbinding te laten maken met uw database.
Als u SQL-verificatie gebruikt, voert u de servernaam, de database, uw gebruikersnaam en wachtwoord in. U kunt controleren of de verbindingsgegevens juist zijn door te klikken op Verbinding testen. Klik op Maken als u klaar bent.
Een gekoppelde Azure Synapse Analytics-service maken
Herhaal hetzelfde proces om een gekoppelde Azure Synapse Analytics-service toe te voegen. Klik op het tabblad verbindingen op Nieuw. Selecteer de tegel Azure Synapse Analytics (voorheen SQL DW) en klik op doorgaan.
Selecteer Synapse Analytics en u wordt omgeleid naar het volgende scherm:
Vul de instellingen in en klik op Maken. De gekoppelde serviceverbinding is vervolgens tot stand gebracht voor de Synapse Analytics-resource.
Een gekoppelde Azure Data Lake Storage Gen2-service maken
De laatste gekoppelde service die nodig is, is een Azure Data Lake Storage Gen2. Klik op het tabblad verbindingen op Nieuw. Selecteer de tegel Azure Data Lake Storage Gen2 en klik op doorgaan.
U wordt omgeleid naar het volgende scherm:
Zodra u op Create hebt geklikt, wordt u omgeleid naar het volgende scherm:
Selecteer foutopsporing voor gegevensstromen die moeten worden ingeschakeld.
Foutopsporingsmodus voor gegevensstromen inschakelen
Nu bouwen we een toewijzingsgegevensstroom. Een best practice voordat u toewijzingsgegevensstromen bouwt, is door de foutopsporingsmodus in te schakelen waarmee u transformatielogica in seconden op een actief Spark-cluster kunt testen.
Als u foutopsporing wilt inschakelen, klikt u op de schuifregelaar Foutopsporing gegevensstroom in de bovenste balk van de factory.
Klik op OK als het bevestigingsvenster wordt weergegeven. Het duurt ongeveer 5-7 minuten om het cluster te starten.
Gegevens uit Azure SQL DB opnemen in ADLS Gen2 met behulp van de kopieeractiviteit
U maakt nu een pijplijn met een kopieeractiviteit die één tabel uit een Azure SQL DB opneemt in een ADLS Gen2-opslagaccount door een pijplijn toe te voegen, een gegevensset te configureren en fouten in een pijplijn op te sporen via de ADF UX.
Een pijplijn met kopieeractiviteit maken
Klik in het deelvenster Factory-resources op het pluspictogram om het menu Nieuwe resource te openen. Selecteer Pijplijn.
U wordt omgeleid naar het volgende scherm:
Geef de pijplijn een naam en sla deze op.
Open in het deelvenster Activiteiten van het pijplijncanvas de accordion Verplaatsen en transformeren en sleep de activiteit Gegevens kopiëren naar het canvas.
Geef de kopieeractiviteit een beschrijvende naam zoals 'IngestIntoADLS'.
Azure SQL DB-brongegevensset configureren
Klik op het tabblad Bron van de kopieeractiviteit. Klik op Nieuw om een nieuwe gegevensset te maken.
Uw bron is de tabel dbo. TripData bevindt zich in de gekoppelde service SQLDB die we in de vorige oefening hebben geconfigureerd.
Zoek naar Azure SQL Database en klik op doorgaan.
Roep de gegevensset 'TripData' aan.
Selecteer 'SQLDB' als uw gekoppelde service.
Selecteer tabelnaam 'dbo.TripData' uit de vervolgkeuzelijst voor de tabelnaam.
Importeer het schema Uit verbinding/archief.
Als u klaar bent, klikt u op OK.
U hebt uw eerste brongegevensset gemaakt.
Zorg ervoor dat in de broninstellingen de standaardwaarde Tabel is geselecteerd in het veld Query gebruiken.
ADLS Gen 2-sinkgegevensset configureren
Klik op het tabblad Sink van de kopieeractiviteit.
Klik op Nieuw om een nieuwe gegevensset te maken.
Selecteer ADLS Gen 2 en klik op Doorgaan:
Selecteer in het deelvenster Indeling selecteren DelimitedText terwijl u naar een CSV-bestand schrijft.
Klik op Doorgaan.
Noem uw sinkgegevensset 'TripDataCSV'.
Selecteer 'ADLSGen2' als uw gekoppelde service.
Voer in waar u uw CSV-bestand wilt schrijven. U kunt uw gegevens bijvoorbeeld schrijven naar file trip-data.csv in container staging-container.
Stel Eerste rij als header in op waar als u wilt dat uw uitvoergegevens headers bevatten.
Omdat er nog geen bestand in de bestemming bestaat, stelt u Importschema in op Geen.
Als u klaar bent, klikt u op OK.
De kopieeractiviteit testen met het uitvoeren van een pijplijnfoutopsporing
Als u wilt controleren of uw kopieeractiviteit correct werkt, klikt u op Fouten opsporen bovenaan het pijplijncanvas om een uitvoering van de foutopsporing uit te voeren. Met een foutopsporingsuitvoering kunt u de pijplijn end-to-end testen of tot een onderbrekingspunt voordat u deze naar de data factory-service publiceert.
Als u de foutopsporingsuitvoering wilt controleren, gaat u naar het tabblad Uitvoer van het pijplijncanvas.
Het bewakingsscherm wordt elke 20 seconden automatisch vernieuwd of wanneer u handmatig op de knop Vernieuwen klikt.
De kopieeractiviteit heeft een speciale controleweergave die u kunt openen door op het brilpictogram te klikken in de kolom Acties.
Als u op de bril klikt, wordt u omgeleid naar het volgende scherm.
De controleweergave voor kopiëren bevat de uitvoeringsdetails en prestatiekenmerken van de activiteit. U kunt informatie bekijken zoals gelezen/geschreven gegevens, gelezen/geschreven rijen, gelezen/geschreven bestanden en doorvoer.
U wordt aangeraden uw wijzigingen te publiceren in de data factory-service door op Alles publiceren te klikken in de bovenste balk van de fabriek. Azure Data Factory biedt ondersteuning voor volledige git-integratie. Git-integratie biedt versiebeheer, iteratief opslaan in een opslagplaats en samenwerking op een data factory. Zie voor meer informatie broncodebeheer in Azure Data Factory.
Als u op Alles publiceren klikt, wordt u omgeleid naar het volgende scherm om te bevestigen:
Selecteer Publiceren en de pijplijn wordt gepubliceerd.