Läsa in data till Azure Data Lake Storage Gen2 med Azure Data Factory

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Azure Data Lake Storage Gen2 är en uppsättning funktioner för analys av stordata som är inbyggda i Azure Blob Storage. Det gör att du kan samverka med dina data med hjälp av både filsystem- och objektlagringsparadigm.

Azure Data Factory (ADF) är en fullständigt hanterad molnbaserad dataintegreringstjänst. Du kan använda tjänsten för att fylla i lake med data från en omfattande uppsättning lokala och molnbaserade datalager och spara tid när du skapar dina analyslösningar. En detaljerad lista över anslutningsappar som stöds finns i tabellen över datalager som stöds.

Azure Data Factory en utskalningslösning för hanterad dataförflyttning. På grund av utskalningsarkitekturen i ADF kan den mata in data med ett högt dataflöde. Mer information finns i aktiviteten Kopiera prestanda.

Den här artikeln visar hur du använder Data Factory Kopiera data för att läsa in data från Amazon Web Services S3-tjänsten till Azure Data Lake Storage Gen2. Du kan följa liknande steg för att kopiera data från andra typer av datalager.

Tips

Information om hur du kopierar data från Azure Data Lake Storage Gen1 till Gen2 finns i den här specifika genomgången.

Förutsättningar

  • Azure-prenumeration: Om du inte har en Azure-prenumeration kan du skapa ett kostnadsfritt konto innan du börjar.
  • Azure Storage-konto med Data Lake Storage Gen2 aktiverat: Om du inte har ett Storage-konto skapar du ett konto.
  • AWS-konto med en S3-bucket som innehåller data: Den här artikeln visar hur du kopierar data från Amazon S3. Du kan använda andra datalager genom att följa liknande steg.

Skapa en datafabrik

  1. På den vänstra menyn väljer du Skapa en > resursintegrering > Data Factory:

    Data Factory i fönstret " " Nytt

  2. På sidan Ny datafabrik anger du värden för följande fält:

    • Namn: Ange ett globalt unikt namn för din Azure-datafabrik. Om du får felet "Datafabriksnamnet YourDataFactoryName är inte tillgängligt" anger du ett annat namn för datafabriken. Du kan till exempel använda namnet yournameADFTutorialDataFactory. Försök att skapa datafabriken igen. Se artikeln Data Factory – namnregler för namnregler för Data Factory-artefakter.
    • Prenumeration: Välj den Azure-prenumeration där du vill skapa datafabriken.
    • Resursgrupp: Välj en befintlig resursgrupp i listrutan eller välj alternativet Skapa ny och ange namnet på en resursgrupp. Mer information om resursgrupper finns i Använda resursgrupper till att hantera Azure-resurser.
    • Version: Välj V2.
    • Plats: Välj platsen för datafabriken. Endast platser som stöds visas i listrutan. Datalager som används av datafabriken kan finnas på andra platser och i andra regioner.
  3. Välj Skapa.

  4. När datafabriken har skapats går du till datafabriken. Du ser Data Factory på startsidan enligt följande bild:

    Startsidan för Azure Data Factory med panelen Open Azure Data Factory Studio.

    Välj Öppna på panelen Öppna Azure Data Factory Studio för att starta dataintegreringsprogrammet på en separat flik.

Läsa in data i Azure Data Lake Storage Gen2

  1. På startsidan för Azure Data Factory väljer du panelen Mata in för att starta Kopiera data verktyget.

  2. På sidan Egenskaper väljer du Inbyggd kopieringsaktivitet under Aktivitetstyp och väljer Kör en gång nu under Aktivitet takt eller uppgiftsschema och väljer sedan Nästa.

    Sidan Egenskaper

  3. På sidan Källdatalager utför du följande steg:

    1. Välj + Ny anslutning. Välj Amazon S3 från galleriet för anslutningsappar och välj Fortsätt.

      Sidan Källdatalager s3

    2. Gör följande på sidan Ny anslutning (Amazon S3):

      1. Ange värdet åtkomstnyckel-ID.
      2. Ange värdet för Hemlig åtkomstnyckel.
      3. Välj Testa anslutning för att verifiera inställningarna och välj sedan Skapa.

      Ange Amazon S3-konto

    3. På sidan Källdatalager ser du till att den nyligen skapade Amazon S3-anslutningen har valts i anslutningsblocket.

    4. I avsnittet Fil eller mapp bläddrar du till den mapp och fil som du vill kopiera över. Välj mappen/filen och välj sedan OK.

    5. Ange kopieringsbeteendet genom att kontrollera alternativen Rekursivt och Binär kopiering. Välj Nästa.

    Skärmbild som visar sidan för källdatalager.

  4. På sidan Måldatalager utför du följande steg.

    1. Välj + Ny anslutning och välj sedan Azure Data Lake Storage Gen2 och välj Fortsätt.

      Sidan Måldatalager

    2. På sidan Ny anslutning (Azure Data Lake Storage Gen2) väljer du ditt Data Lake Storage Gen2-kompatibla konto i listrutan "Storage-kontonamn" och väljer Skapa för att skapa anslutningen.

      Ange Azure Data Lake Storage Gen2-konto

    3. På sidan Måldatalager väljer du den nyligen skapade anslutningen i anslutningsblocket. Under Mappsökväg anger du copyfroms3 som namn på utdatamappen och väljer Nästa. ADF skapar motsvarande ADLS Gen2 filsystem och undermappar under kopieringen om det inte finns.

      Skärmbild som visar sidan för måldatalager.

  5. Inställningar anger du CopyFromAktivitetzonS3ToADLS i fältet Aktivitetsnamn och väljer Nästa för att använda standardinställningarna.

    Sidan Inställningar

  6. Granska inställningarna på sidan Sammanfattning och välj Nästa.

    Sammanfattningssida

  7. Välj Övervaka på sidan Distribution för att övervaka pipelinen (aktiviteten).

  8. När pipelinekörningen har slutförts visas en pipelinekörning som utlöses av en manuell utlösare. Du kan använda länkar under kolumnen Pipelinenamn för att visa aktivitetsinformation och köra pipelinen igen.

    Övervaka pipelinekörningar

  9. Om du vill se aktivitetskörningar som är associerade med pipelinekörningen väljer du länken CopyFromAktivitetzonS3ToADLS under kolumnen Pipelinenamn. Om du vill ha mer information om kopieringsåtgärden väljer du länken Information (glasögonikonen) under kolumnen Aktivitetsnamn. Du kan övervaka information som mängden data som kopieras från källan till mottagaren, dataflöde, körningssteg med motsvarande varaktighet och använd konfiguration.

    Övervaka aktivitetskörningar

    Övervaka aktivitetskörningsinformation

  10. Välj Uppdatera för att uppdatera vyn. Välj Alla pipelinekörningar högst upp för att gå tillbaka till vyn "Pipelinekörningar".

  11. Kontrollera att data kopieras till ditt Data Lake Storage Gen2-konto.

Nästa steg