Gegevens laden in Azure Data Lake Storage Gen2 met Azure Data Factory

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Azure Data Lake Storage Gen2 is een set mogelijkheden die is toegewezen aan big data-analyses, ingebouwd in Azure Blob Storage. Hiermee kunt u interface met uw gegevens met behulp van zowel bestandssysteem- als objectopslagparadigma's.

Azure Data Factory (ADF) is een volledig beheerde cloudgebaseerde gegevensintegratieservice. U kunt de service gebruiken om het meer te vullen met gegevens uit een uitgebreide set on-premises en cloudgegevensarchieven en om tijd te besparen bij het bouwen van uw analyseoplossingen. Zie de tabel met ondersteunde gegevensarchieven voor een gedetailleerde lijst met ondersteunde connectors.

Azure Data Factory biedt een oplossing voor het uitschalen van beheerde gegevensverplaatsing. Vanwege de uitschaalarchitectuur van ADF kan deze gegevens opnemen met een hoge doorvoer. Zie Copy-activiteit prestaties voor meer informatie.

In dit artikel leest u hoe u het hulpprogramma Data Factory Copy Data gebruikt om gegevens uit de Amazon Web Services S3-service te laden in Azure Data Lake Storage Gen2. U kunt vergelijkbare stappen volgen om gegevens te kopiëren vanuit andere typen gegevensarchieven.

Tip

Raadpleeg deze specifieke procedure voor het kopiëren van gegevens uit Azure Data Lake Storage Gen1 naar Gen2.

Vereisten

  • Azure-abonnement: als u geen Azure-abonnement hebt, maakt u een gratis account voordat u begint.
  • Azure Storage-account waarvoor Data Lake Storage Gen2 is ingeschakeld: als u geen Opslagaccount hebt, maakt u een account.
  • AWS-account met een S3-bucket die gegevens bevat: in dit artikel wordt beschreven hoe u gegevens kopieert uit Amazon S3. U kunt andere gegevensarchieven gebruiken door vergelijkbare stappen uit te voeren.

Een data factory maken

  1. Als u uw data factory nog niet hebt gemaakt, volgt u de stappen in quickstart: Een gegevensfactory maken met behulp van Azure Portal en Azure Data Factory Studio om er een te maken. Nadat u deze hebt gemaakt, bladert u naar de data factory in Azure Portal.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Selecteer Openen op de tegel Azure Data Factory Studio openen om de Data-Integratie toepassing op een afzonderlijk tabblad te starten.

Gegevens laden in Azure Data Lake Storage Gen2

  1. Selecteer op de startpagina van Azure Data Factory de tegel Opnemen om het hulpprogramma Copy Data te starten.

  2. Kies op de pagina Eigenschappen de optie Ingebouwde kopieertaak onder Taaktype en kies Eenmaal uitvoeren onder taakritme of taakplanning en selecteer vervolgens Volgende.

    Properties page

  3. Voer op de pagina Brongegevensarchief de volgende stappen uit:

    1. Selecteer + Nieuwe verbinding. Selecteer Amazon S3 in de galerie met connectors en selecteer Doorgaan.

      Source data store s3 page

    2. Voer op de pagina Nieuwe verbinding (Amazon S3) de volgende stappen uit:

      1. Geef de waarde voor de toegangssleutel-id op.
      2. Geef de waarde van de geheime toegangssleutel op.
      3. Selecteer Verbinding testen om de instellingen te valideren en selecteer vervolgens Maken.

      Specify Amazon S3 account

    3. Controleer op de pagina Brongegevensarchief of de zojuist gemaakte Amazon S3-verbinding is geselecteerd in het Verbinding maken ionblok.

    4. Blader in de sectie Bestand of map naar de map en het bestand dat u wilt kopiëren. Selecteer de map/het bestand en selecteer VERVOLGENS OK.

    5. Geef het kopieergedrag op door de recursieve en binaire kopieeropties te controleren. Selecteer Volgende.

    Screenshot that shows the source data store page.

  4. Voer op de pagina Doelgegevensarchief de volgende stappen uit.

    1. Selecteer + Nieuwe verbinding en selecteer vervolgens Azure Data Lake Storage Gen2 en selecteer Doorgaan.

      Destination data store page

    2. Selecteer op de pagina Nieuwe verbinding (Azure Data Lake Storage Gen2) het account dat geschikt is voor Data Lake Storage Gen2 in de vervolgkeuzelijst Opslagaccountnaam en selecteer Maken om de verbinding te maken.

      Specify Azure Data Lake Storage Gen2 account

    3. Selecteer op de pagina Doelgegevensarchief de zojuist gemaakte verbinding in het Verbinding maken ionblok. Voer vervolgens onder Mappad copyfroms3 in als de naam van de uitvoermap en selecteer Volgende. ADF maakt het bijbehorende ADLS Gen2-bestandssysteem en submappen tijdens het kopiëren als deze niet bestaat.

      Screenshot that shows the destination data store page.

  5. Geef op de Instellingen pagina CopyFromAmazonS3ToADLS op voor het veld Taaknaam en selecteer Volgende om de standaardinstellingen te gebruiken.

    Settings page

  6. Controleer de instellingen op de pagina Samenvatting en selecteer Volgende.

    Summary page

  7. Selecteer op de pagina Implementatie de optie Controleren om de pijplijn of taak te controleren.

  8. Wanneer de pijplijnuitvoering is voltooid, ziet u een pijplijnuitvoering die wordt geactiveerd door een handmatige trigger. U kunt koppelingen onder de kolom Pijplijnnaam gebruiken om activiteitsgegevens weer te geven en de pijplijn opnieuw uit te voeren.

    Monitor pipeline runs

  9. Als u de activiteitsuitvoeringen wilt zien die zijn gekoppeld aan de pijplijnuitvoering, selecteert u de koppeling CopyFromAmazonS3ToADLS onder de kolom Pijplijnnaam . Selecteer de koppeling Details (pictogram van een bril) in de kolom Naam activiteit om details van de kopieerbewerking te zien. U kunt details bewaken, zoals het volume gegevens dat van de bron naar de sink is gekopieerd, gegevensdoorvoer, uitvoeringsstappen met de bijbehorende duur en de gebruikte configuratie.

    Monitor activity runs

    Monitor activity run details

  10. Selecteer Vernieuwen om de weergave te vernieuwen. Selecteer Bovenaan alle pijplijnuitvoeringen om terug te gaan naar de weergave Pijplijnuitvoeringen.

  11. Controleer of de gegevens zijn gekopieerd naar uw Data Lake Storage Gen2-account.