načtení dat do Azure Data Lake Storage Gen2 s využitím Azure Data Factory
PLATÍ PRO:
Azure Data Factory
Azure Synapse Analytics
Azure Data Lake Storage Gen2 je sada funkcí vyhrazených pro analýzy velkých objemů dat, která je integrovaná do úložiště objektů Blob v Azure. Umožňuje vám přidružit data pomocí systémů souborů i úložišť objektů.
Azure Data Factory (ADF) je plně spravovaná cloudová služba pro integraci dat. Službu můžete využít k naplnění dat z bohatých sad místních i cloudových úložišť dat a ušetřit čas při vytváření analytických řešení. Podrobný seznam podporovaných konektorů najdete v tabulce podporovaných úložišť dat.
Azure Data Factory nabízí řešení pro přesun spravovaných dat se škálováním na více instancí. Z důvodu architektury automatického navýšení na více instancí (ADF) může ingestovat data při vysoké propustnosti. Podrobnosti najdete v tématu o výkonu aktivity kopírování.
v tomto článku se dozvíte, jak pomocí nástroje Data Factory Kopírování dat načíst Data ze služby Amazon Web Services S3 do Azure Data Lake Storage Gen2. Můžete postupovat podle podobných kroků a kopírovat data z jiných typů úložišť dat.
Tip
chcete-li kopírovat data z Azure Data Lake Storage Gen1 do Gen2, přečtěte si tento konkrétní návod.
Požadavky
- Předplatné Azure: Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.
- účet Azure Storage s povoleným Data Lake Storage Gen2m: pokud nemáte účet Storage, vytvořte účet.
- Účet AWS s kontejnerem S3, který obsahuje data: Tento článek popisuje, jak kopírovat data z Amazon S3. Pomocí podobných kroků můžete použít další úložiště dat.
Vytvoření datové továrny
V nabídce vlevo vyberte vytvořit data Factory pro > integraci prostředků > :
Na stránce Nová datová továrna zadejte hodnoty pro následující pole:
- Název: zadejte globálně jedinečný název pro objekt pro vytváření dat Azure. Pokud se zobrazí chyba "název objektu pro vytváření dat YourDataFactoryName není k dispozici", zadejte jiný název pro datovou továrnu. Můžete například použít název YourADFTutorialDataFactory. Zkuste vytvořit datovou továrnu znovu. Pravidla pojmenování artefaktů služby Data Factory najdete v tématu Data Factory – pravidla pojmenování.
- Předplatné: vyberte předplatné Azure, ve kterém chcete vytvořit datovou továrnu.
- Skupina prostředků: v rozevíracím seznamu vyberte existující skupinu prostředků nebo vyberte možnost vytvořit novou a zadejte název skupiny prostředků. Informace o skupinách prostředků najdete v článku Použití skupin prostředků ke správě prostředků Azure.
- Verze: Vyberte V2.
- Umístění: vyberte umístění pro datovou továrnu. V rozevíracím seznamu se zobrazí pouze podporovaná umístění. Úložiště dat, která služba Data Factory používá, můžou být v jiných umístěních a oblastech.
Vyberte Vytvořit.
Až se vytváření dokončí, přejdete do vaší datové továrny. Zobrazí se Domovská stránka Data Factory , jak je znázorněno na následujícím obrázku:
Vyberte otevřít na dlaždici otevřít Azure Data Factory Studio a spusťte aplikaci pro integraci dat na samostatné kartě.
Načtení dat do Azure Data Lake Storage Gen2
Na domovské stránce Azure Data Factory Vyberte dlaždici ingestovat a spusťte nástroj kopírování dat.
Na stránce vlastnosti vyberte v části typ úlohy možnost předdefinovaná úloha kopírování a v části úkol tempo nebo plán úlohy zvolte Spustit znovu a pak vyberte Další.
Na stránce zdrojové úložiště dat proveďte následující kroky:
Vyberte + nové připojení. Z Galerie konektorů vyberte Amazon S3 a vyberte pokračovat.
Na stránce nové připojení (Amazon S3) proveďte následující kroky:
- Zadejte hodnotu ID přístupového klíče .
- Zadejte hodnotu tajného přístupového klíče .
- Vyberte Test připojení , abyste ověřili nastavení, a pak vyberte vytvořit.
Na stránce zdrojové úložiště dat zajistěte, aby bylo v bloku připojení vybráno nově vytvořené připojení Amazon S3.
V části soubor nebo složka přejděte do složky a souboru, který chcete zkopírovat. Vyberte složku nebo soubor a pak vyberte OK.
Určete chování kopírování kontrolou možností rekurzivního a binárního kopírování . Vyberte Další.
Na stránce cílové úložiště dat proveďte následující kroky.
vyberte + nové připojení a pak vyberte Azure Data Lake Storage Gen2 a pokračovat.
na stránce nové připojení (Azure Data Lake Storage Gen2) vyberte účet s podporou Data Lake Storage Gen2 z rozevíracího seznamu "název účtu Storage" a vyberte vytvořit a vytvořte připojení.
Na stránce cílové úložiště dat vyberte nově vytvořené připojení v bloku připojení . Pak v části cesta ke složce zadejte copyfroms3 jako název výstupní složky a vyberte Další. ADF vytvoří během kopírování ADLS Gen2 odpovídající soubor systému souborů a podsložek, pokud neexistuje.
na stránce Nastavení pro pole název úlohy zadejte CopyFromAmazonS3ToADLS a vyberte další , aby se použilo výchozí nastavení.
Na stránce Souhrn zkontrolujte nastavení a klikněte na tlačítko Další.
Na stránce Nasazení vyberte Monitorovat a začněte monitorovat kanál (úlohu).
Po úspěšném dokončení kanálu se zobrazí spuštění kanálu, které se aktivuje ruční triggerem. Pomocí odkazů ve sloupci název kanálu můžete zobrazit podrobnosti o aktivitách a znovu spustit kanál.
Pokud chcete zobrazit spuštění aktivit související se spuštěním kanálu, vyberte odkaz CopyFromAmazonS3ToADLS pod sloupcem název kanálu . Pokud chcete zobrazit podrobnosti o operaci kopírování, vyberte odkaz Podrobnosti (ikona brýlí) ve sloupci název aktivity . Můžete monitorovat podrobnosti, jako je objem dat zkopírovaných ze zdroje, do jímky, propustnosti dat, postup provádění s odpovídající dobou trvání a použitou konfiguraci.
Jestliže chcete zobrazení aktualizovat, vyberte Aktualizovat. Vyberte všechny spuštěné kanály v horní části a vraťte se do zobrazení "spuštění kanálu".
ověřte, že se data zkopírují do účtu Data Lake Storage Gen2.