Gegevens laden in Azure Data Lake Storage Gen2 met Azure Data Factory
VAN TOEPASSING OP:
Azure Data Factory
Azure Synapse Analytics
Azure Data Lake Storage Gen2 is een set mogelijkheden die is toegewezen aan big data analytics, ingebouwd in Azure Blob Storage. Hiermee kunt u een interface met uw gegevens maken met behulp van paradigma's voor zowel bestandssysteem- als objectopslag.
Azure Data Factory (ADF) is een volledig beheerde cloudservice voor gegevensintegratie. U kunt de service gebruiken om het lake te vullen met gegevens uit een uitgebreide set on-premises en cloudgegevensopslag en tijd te besparen bij het bouwen van uw analyseoplossingen. Zie de tabel met ondersteunde gegevensopslag voor een gedetailleerde lijst met ondersteunde connectors.
Azure Data Factory biedt een oplossing voor uitschalen en het verplaatsen van beheerde gegevens. Vanwege de uitschaalarchitectuur van ADF kan deze gegevens opnemen met een hoge doorvoer. Zie prestaties Copy-activiteit voor meer informatie.
In dit artikel wordt beschreven hoe u het hulpprogramma Data Factory Gegevens kopiëren gebruikt om gegevens uit de Amazon Web Services S3-service te laden in Azure Data Lake Storage Gen2. U kunt vergelijkbare stappen volgen om gegevens te kopiëren vanuit andere typen gegevensarchieven.
Tip
Raadpleeg dit specifieke scenario voor het kopiëren van gegevens Storage Azure Data Lake Storage Gen1 naar Gen2.
Vereisten
- Azure-abonnement: Als u nog geen abonnement op Azure hebt, maak dan een gratis account aan voordat u begint.
- Azure Storage account met Data Lake Storage Gen2 ingeschakeld: als u geen Storage hebt, maakt u een account.
- AWS-account met een S3-bucket die gegevens bevat: In dit artikel wordt beschreven hoe u gegevens kopieert uit Amazon S3. U kunt andere gegevensopslag gebruiken door vergelijkbare stappen uit te voeren.
Een gegevensfactory maken
Selecteer in het linkermenu Een resource maken > Integratie > Data Factory:
Geef op de pagina Data factory waarden op voor de volgende velden:
- Naam: voer een wereldwijd unieke naam in voor uw Azure-data factory. Als u de foutmelding 'Data factory name YourDataFactoryName is not available' (Naam data factory YourDataFactoryName is niet beschikbaar) ontvangt, voert u een andere naam in voor de data factory. U kunt bijvoorbeeld de __ naam ADFTutorialDataFactory gebruiken. Maak de data factory opnieuw. Raadpleeg het onderwerp Data Factory - Naamgevingsregels voor meer informatie over naamgevingsregels voor Data Factory-artefacten.
- Abonnement: selecteer uw Azure-abonnement waarin u de data factory.
- Resourcegroep: selecteer een bestaande resourcegroep in de vervolgkeuzelijst of selecteer de optie Nieuwe maken en voer de naam van een resourcegroep in. Zie Resourcegroepen gebruiken om Azure-resources te beheren voor meer informatie.
- Versie: Selecteer V2.
- Locatie: selecteer de locatie voor de data factory. In de vervolgkeuzelijst worden alleen ondersteunde locaties weergegeven. De gegevensopslag die wordt gebruikt door data factory kunnen zich in andere locaties en regio's bevinden.
Selecteer Maken.
Nadat het maken is voltooid, gaat u naar uw data factory. U ziet de Data Factory startpagina zoals wordt weergegeven in de volgende afbeelding:
Selecteer Openen op de tegel Azure Data Factory Studio om de gegevensintegratietoepassing op een afzonderlijk tabblad te openen.
Gegevens laden in Azure Data Lake Storage Gen2
Selecteer op de startpagina van Azure Data Factory de tegel Opnemen om het hulpprogramma Gegevens kopiëren starten.
Kies op de pagina Eigenschappen de optie Ingebouwde kopieertaak onder Taaktype en kies nu eenmaal uitvoeren onder Taakfrequentie of taakschema en selecteer vervolgens Volgende.
Voltooi op de pagina Brongegevensopslag de volgende stappen:
Selecteer + Nieuwe verbinding. Selecteer Amazon S3 in de connectorgalerie en selecteer Doorgaan.
Ga als volgt te werk op de pagina Nieuwe verbinding (Amazon S3) :
- Geef de waarde voor Toegangssleutel-id op.
- Geef de waarde van de geheime toegangssleutel op.
- Selecteer Verbinding testen om de instellingen te valideren en selecteer vervolgens Maken.
Controleer op de pagina Brongegevensopslag of de zojuist gemaakte Amazon S3-verbinding is geselecteerd in het blok Verbinding.
Blader in de sectie Bestand of map naar de map en het bestand dat u wilt kopiëren. Selecteer de map/het bestand en selecteer vervolgens OK.
Geef het kopieergedrag op door de opties Recursief en Binair kopiëren te controleren. Selecteer Next.
Voltooi op de pagina Doelgegevensopslag de volgende stappen.
Selecteer + Nieuwe verbinding en selecteer vervolgens Azure Data Lake Storage Gen2 en selecteer Doorgaan.
Selecteer op de pagina Nieuwe verbinding (Azure Data Lake Storage Gen2) uw voor Data Lake Storage Gen2 geschikte account in de vervolgkeuzelijst Storage-accountnaam en selecteer Maken om de verbinding te maken.
Selecteer op de pagina Doelgegevensopslag de zojuist gemaakte verbinding in het blok Verbinding. Voer vervolgens onder Mappad copyfroms3 in als de naam van de uitvoermap en selecteer Volgende. ADF maakt de bijbehorende ADLS Gen2 bestandssysteem en submappen tijdens het kopiëren als deze niet bestaat.
Geef op Instellingen pagina CopyFromAmazonS3ToADLS op als het veld Taaknaam en selecteer Volgende om de standaardinstellingen te gebruiken.
Controleer de instellingen op de pagina Samenvatting en selecteer Volgende.
Selecteer op de pagina Implementatie de optie Controleren om de pijplijn of taak te controleren.
Wanneer de pijplijn is uitgevoerd, ziet u een pijplijn die wordt geactiveerd door een handmatige trigger. U kunt koppelingen in de kolom Pijplijnnaam gebruiken om details van de activiteit weer te geven en de pijplijn opnieuw uit te proberen.
controlerenSelecteer de koppeling CopyFromAmazonS3ToADLS in de kolom Pijplijnnaam om de activiteituit te zien die zijn gekoppeld aan de pijplijnuitleiding. Selecteer de koppeling Details (pictogram van een bril) in de kolom Naam activiteit om details van de kopieerbewerking te zien. U kunt details bewaken, zoals de hoeveelheid gegevens die van de bron naar de sink zijn gekopieerd, de gegevensdoorvoer, de uitvoeringsstappen met de bijbehorende duur en de gebruikte configuratie.
Selecteer Vernieuwen om de weergave te vernieuwen. Selecteer Alle pijplijn runs bovenaan om terug te gaan naar de weergave Pijplijn-runs.
Controleer of de gegevens zijn gekopieerd naar uw Data Lake Storage Gen2-account.