Oefening: de kopieeractiviteit van data factory gebruiken
Zodra het maken van het Data Factory-exemplaar is voltooid, kunt u naar de resource gaan waar u uw gegevenspijplijnen kunt maken door op de knop Auteur & Monitor te klikken. Hiermee opent u het volgende scherm:
De eerste stap in uw pijplijn is het maken van een kopieeractiviteit waarmee gegevens tussen de bron en bestemming worden gekopieerd met behulp van de volgende stappen.
Open het ontwerpcanvas door te klikken op het potloodpictogram op de linkerzijbalk of de knop Pijplijn maken om het ontwerpcanvas te openen.
Maak de pijplijn. Klik op de + knop in het deelvenster Factory-resources en selecteer Pijplijn.
Voeg een kopieeractiviteit toe. Open in het deelvenster Activiteiten de accordeon Verplaatsen en transformeren en sleep de activiteit Gegevens kopiëren naar het pijplijncanvas.
Wanneer de kopieeractiviteit is toegevoegd, begint u vervolgens met het definiëren van de brongegevens
Klik op het tabblad Bron van de instellingen voor kopieeractiviteit op + Nieuw om een gegevensbron te selecteren.
Selecteer bijvoorbeeld in de lijst met gegevensarchieven de tegel Amazon S3 en klik op Doorgaan
Selecteer in de lijst met bestandsindelingen de tegel DelimitedText-indeling en klik op Doorgaan
Geef uw gegevensset in het venster Eigenschappen instellen een begrijpelijke naam en klik op de vervolgkeuzelijst Gekoppelde service. Als u uw gekoppelde S3-service niet hebt gemaakt, selecteert u Nieuw.
Specifiek voor het configuratiedeelvenster van de gekoppelde S3-service, geeft u uw S3-toegangssleutel en geheime sleutel op. De Data Factory-service versleutelt referenties met certificaten die worden beheerd door Microsoft. Zie Beveiligingsoverwegingen voor gegevensverplaatsing voor meer informatie. Als u wilt controleren of uw referenties geldig zijn, klikt u op Test Verbinding maken ion. Klik op Maken als u klaar bent.
Nadat u de gekoppelde service hebt gemaakt en geselecteerd, geeft u de rest van uw gegevenssetinstellingen op. Met deze instellingen geeft u op hoe en waar in uw verbinding de gegevens moeten worden opgehaald. Klik op Voltooien zodra dit is voltooid.
Als u wilt controleren of uw gegevensset correct is geconfigureerd, klikt u op Voorbeeldgegevens op het tabblad Bron van de kopieeractiviteit om een kleine momentopname van uw gegevens op te halen.
Als de brongegevens zijn gedefinieerd, definieert u de sink waarin de gegevens worden geladen. In dit voorbeeld is de sink Azure Data Lake Storage Gen2 door de volgende stappen uit te voeren:
Klik op het tabblad Sink op + Nieuw
Selecteer de tegel Azure Data lake Storage Gen2 en klik op Doorgaan
Geef uw gegevensset in het navigatievenster Eigenschappen instellen een begrijpelijke naam en klik op de vervolgkeuzelijst Gekoppelde service. Als u uw gekoppelde ADLS-service niet hebt gemaakt, selecteert u Nieuw.
Selecteer in het configuratiedeelvenster van de gekoppelde ADLS-service uw verificatiemethode en voer uw referenties in. In het onderstaande voorbeeld hebt u een accountsleutel en mijn opslagaccount geselecteerd in de vervolgkeuzelijst.
Nadat u de gekoppelde service hebt geconfigureerd, voert u de configuratie van de ADLS-gegevensset in. Klik op Voltooien zodra dit is voltooid.
Op dit moment hebt u uw kopieeractiviteit volledig geconfigureerd.
Als u het wilt testen, klikt u boven aan het pijplijncanvas op de knop Foutopsporing . Hiermee start u een uitvoering voor foutopsporing in de pijplijn.
Als u de voortgang van een uitvoering voor foutopsporing van een pijplijn wilt controleren, klikt u op het tabblad Uitvoer van de pijplijn
Als u een gedetailleerdere beschrijving van de activiteitsuitvoer wilt bekijken, klikt u op het brilpictogram. Hiermee opent u het scherm voor het bewaken van kopiëren, dat nuttige metrische gegevens biedt, zoals gegevens die worden gelezen/geschreven, doorvoer en uitgebreide duurstatistieken.
Als u wilt controleren of de kopie werkt zoals verwacht, opent u uw ADLS Gen2-opslagaccount en controleert u of uw bestand is geschreven zoals verwacht