Läsa in data till Azure Data Lake Storage Gen2 med Azure Data Factory
GÄLLER FÖR:
Azure Data Factory
Azure Synapse Analytics
Azure Data Lake Storage Gen2 är en uppsättning funktioner för analys av stordata som är inbyggda i Azure Blob Storage. Det gör att du kan samverka med dina data med hjälp av både filsystem- och objektlagringsparadigm.
Azure Data Factory (ADF) är en fullständigt hanterad molnbaserad dataintegreringstjänst. Du kan använda tjänsten för att fylla i lake med data från en omfattande uppsättning lokala och molnbaserade datalager och spara tid när du skapar dina analyslösningar. En detaljerad lista över anslutningsappar som stöds finns i tabellen över datalager som stöds.
Azure Data Factory en utskalningslösning för hanterad dataförflyttning. På grund av utskalningsarkitekturen i ADF kan den mata in data med ett högt dataflöde. Mer information finns i aktiviteten Kopiera prestanda.
Den här artikeln visar hur du använder Data Factory Kopiera data för att läsa in data från Amazon Web Services S3-tjänsten till Azure Data Lake Storage Gen2. Du kan följa liknande steg för att kopiera data från andra typer av datalager.
Tips
Information om hur du kopierar data från Azure Data Lake Storage Gen1 till Gen2 finns i den här specifika genomgången.
Förutsättningar
- Azure-prenumeration: Om du inte har en Azure-prenumeration kan du skapa ett kostnadsfritt konto innan du börjar.
- Azure Storage-konto med Data Lake Storage Gen2 aktiverat: Om du inte har ett Storage-konto skapar du ett konto.
- AWS-konto med en S3-bucket som innehåller data: Den här artikeln visar hur du kopierar data från Amazon S3. Du kan använda andra datalager genom att följa liknande steg.
Skapa en datafabrik
På den vänstra menyn väljer du Skapa en > resursintegrering > Data Factory:
På sidan Ny datafabrik anger du värden för följande fält:
- Namn: Ange ett globalt unikt namn för din Azure-datafabrik. Om du får felet "Datafabriksnamnet YourDataFactoryName är inte tillgängligt" anger du ett annat namn för datafabriken. Du kan till exempel använda namnet yournameADFTutorialDataFactory. Försök att skapa datafabriken igen. Se artikeln Data Factory – namnregler för namnregler för Data Factory-artefakter.
- Prenumeration: Välj den Azure-prenumeration där du vill skapa datafabriken.
- Resursgrupp: Välj en befintlig resursgrupp i listrutan eller välj alternativet Skapa ny och ange namnet på en resursgrupp. Mer information om resursgrupper finns i Använda resursgrupper till att hantera Azure-resurser.
- Version: Välj V2.
- Plats: Välj platsen för datafabriken. Endast platser som stöds visas i listrutan. Datalager som används av datafabriken kan finnas på andra platser och i andra regioner.
Välj Skapa.
När datafabriken har skapats går du till datafabriken. Du ser Data Factory på startsidan enligt följande bild:
Välj Öppna på panelen Öppna Azure Data Factory Studio för att starta dataintegreringsprogrammet på en separat flik.
Läsa in data i Azure Data Lake Storage Gen2
På startsidan för Azure Data Factory väljer du panelen Mata in för att starta Kopiera data verktyget.
På sidan Egenskaper väljer du Inbyggd kopieringsaktivitet under Aktivitetstyp och väljer Kör en gång nu under Aktivitet takt eller uppgiftsschema och väljer sedan Nästa.
På sidan Källdatalager utför du följande steg:
Välj + Ny anslutning. Välj Amazon S3 från galleriet för anslutningsappar och välj Fortsätt.
Gör följande på sidan Ny anslutning (Amazon S3):
- Ange värdet åtkomstnyckel-ID.
- Ange värdet för Hemlig åtkomstnyckel.
- Välj Testa anslutning för att verifiera inställningarna och välj sedan Skapa.
På sidan Källdatalager ser du till att den nyligen skapade Amazon S3-anslutningen har valts i anslutningsblocket.
I avsnittet Fil eller mapp bläddrar du till den mapp och fil som du vill kopiera över. Välj mappen/filen och välj sedan OK.
Ange kopieringsbeteendet genom att kontrollera alternativen Rekursivt och Binär kopiering. Välj Nästa.
På sidan Måldatalager utför du följande steg.
Välj + Ny anslutning och välj sedan Azure Data Lake Storage Gen2 och välj Fortsätt.
På sidan Ny anslutning (Azure Data Lake Storage Gen2) väljer du ditt Data Lake Storage Gen2-kompatibla konto i listrutan "Storage-kontonamn" och väljer Skapa för att skapa anslutningen.
På sidan Måldatalager väljer du den nyligen skapade anslutningen i anslutningsblocket. Under Mappsökväg anger du copyfroms3 som namn på utdatamappen och väljer Nästa. ADF skapar motsvarande ADLS Gen2 filsystem och undermappar under kopieringen om det inte finns.
På Inställningar anger du CopyFromAktivitetzonS3ToADLS i fältet Aktivitetsnamn och väljer Nästa för att använda standardinställningarna.
Granska inställningarna på sidan Sammanfattning och välj Nästa.
Välj Övervaka på sidan Distribution för att övervaka pipelinen (aktiviteten).
När pipelinekörningen har slutförts visas en pipelinekörning som utlöses av en manuell utlösare. Du kan använda länkar under kolumnen Pipelinenamn för att visa aktivitetsinformation och köra pipelinen igen.
Om du vill se aktivitetskörningar som är associerade med pipelinekörningen väljer du länken CopyFromAktivitetzonS3ToADLS under kolumnen Pipelinenamn. Om du vill ha mer information om kopieringsåtgärden väljer du länken Information (glasögonikonen) under kolumnen Aktivitetsnamn. Du kan övervaka information som mängden data som kopieras från källan till mottagaren, dataflöde, körningssteg med motsvarande varaktighet och använd konfiguration.
Välj Uppdatera för att uppdatera vyn. Välj Alla pipelinekörningar högst upp för att gå tillbaka till vyn "Pipelinekörningar".
Kontrollera att data kopieras till ditt Data Lake Storage Gen2-konto.