načtení dat do Azure Data Lake Storage Gen2 s využitím Azure Data Factory

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Azure Data Lake Storage Gen2 je sada funkcí vyhrazených pro analýzy velkých objemů dat, která je integrovaná do úložiště objektů Blob v Azure. Umožňuje vám přidružit data pomocí systémů souborů i úložišť objektů.

Azure Data Factory (ADF) je plně spravovaná cloudová služba pro integraci dat. Službu můžete využít k naplnění dat z bohatých sad místních i cloudových úložišť dat a ušetřit čas při vytváření analytických řešení. Podrobný seznam podporovaných konektorů najdete v tabulce podporovaných úložišť dat.

Azure Data Factory nabízí řešení pro přesun spravovaných dat se škálováním na více instancí. Z důvodu architektury automatického navýšení na více instancí (ADF) může ingestovat data při vysoké propustnosti. Podrobnosti najdete v tématu o výkonu aktivity kopírování.

v tomto článku se dozvíte, jak pomocí nástroje Data Factory Kopírování dat načíst Data ze služby Amazon Web Services S3 do Azure Data Lake Storage Gen2. Můžete postupovat podle podobných kroků a kopírovat data z jiných typů úložišť dat.

Tip

chcete-li kopírovat data z Azure Data Lake Storage Gen1 do Gen2, přečtěte si tento konkrétní návod.

Požadavky

  • Předplatné Azure: Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.
  • účet Azure Storage s povoleným Data Lake Storage Gen2m: pokud nemáte účet Storage, vytvořte účet.
  • Účet AWS s kontejnerem S3, který obsahuje data: Tento článek popisuje, jak kopírovat data z Amazon S3. Pomocí podobných kroků můžete použít další úložiště dat.

Vytvoření datové továrny

  1. V nabídce vlevo vyberte vytvořit data Factory pro > integraci prostředků > :

    Data Factory výběr v " novém " podokně

  2. Na stránce Nová datová továrna zadejte hodnoty pro následující pole:

    • Název: zadejte globálně jedinečný název pro objekt pro vytváření dat Azure. Pokud se zobrazí chyba "název objektu pro vytváření dat YourDataFactoryName není k dispozici", zadejte jiný název pro datovou továrnu. Můžete například použít název YourADFTutorialDataFactory. Zkuste vytvořit datovou továrnu znovu. Pravidla pojmenování artefaktů služby Data Factory najdete v tématu Data Factory – pravidla pojmenování.
    • Předplatné: vyberte předplatné Azure, ve kterém chcete vytvořit datovou továrnu.
    • Skupina prostředků: v rozevíracím seznamu vyberte existující skupinu prostředků nebo vyberte možnost vytvořit novou a zadejte název skupiny prostředků. Informace o skupinách prostředků najdete v článku Použití skupin prostředků ke správě prostředků Azure.
    • Verze: Vyberte V2.
    • Umístění: vyberte umístění pro datovou továrnu. V rozevíracím seznamu se zobrazí pouze podporovaná umístění. Úložiště dat, která služba Data Factory používá, můžou být v jiných umístěních a oblastech.
  3. Vyberte Vytvořit.

  4. Až se vytváření dokončí, přejdete do vaší datové továrny. Zobrazí se Domovská stránka Data Factory , jak je znázorněno na následujícím obrázku:

    Domovská stránka Azure Data Factory s dlaždicí otevřít Azure Data Factory Studio.

    Vyberte otevřít na dlaždici otevřít Azure Data Factory Studio a spusťte aplikaci pro integraci dat na samostatné kartě.

Načtení dat do Azure Data Lake Storage Gen2

  1. Na domovské stránce Azure Data Factory Vyberte dlaždici ingestovat a spusťte nástroj kopírování dat.

  2. Na stránce vlastnosti vyberte v části typ úlohy možnost předdefinovaná úloha kopírování a v části úkol tempo nebo plán úlohy zvolte Spustit znovu a pak vyberte Další.

    Stránka Vlastnosti

  3. Na stránce zdrojové úložiště dat proveďte následující kroky:

    1. Vyberte + nové připojení. Z Galerie konektorů vyberte Amazon S3 a vyberte pokračovat.

      Stránka S3 zdrojového úložiště dat

    2. Na stránce nové připojení (Amazon S3) proveďte následující kroky:

      1. Zadejte hodnotu ID přístupového klíče .
      2. Zadejte hodnotu tajného přístupového klíče .
      3. Vyberte Test připojení , abyste ověřili nastavení, a pak vyberte vytvořit.

      Zadat účet Amazon S3

    3. Na stránce zdrojové úložiště dat zajistěte, aby bylo v bloku připojení vybráno nově vytvořené připojení Amazon S3.

    4. V části soubor nebo složka přejděte do složky a souboru, který chcete zkopírovat. Vyberte složku nebo soubor a pak vyberte OK.

    5. Určete chování kopírování kontrolou možností rekurzivního a binárního kopírování . Vyberte Další.

    Snímek obrazovky zobrazující stránku zdrojového úložiště dat.

  4. Na stránce cílové úložiště dat proveďte následující kroky.

    1. vyberte + nové připojení a pak vyberte Azure Data Lake Storage Gen2 a pokračovat.

      Stránka cílové úložiště dat

    2. na stránce nové připojení (Azure Data Lake Storage Gen2) vyberte účet s podporou Data Lake Storage Gen2 z rozevíracího seznamu "název účtu Storage" a vyberte vytvořit a vytvořte připojení.

      zadat Azure Data Lake Storage Gen2 účet

    3. Na stránce cílové úložiště dat vyberte nově vytvořené připojení v bloku připojení . Pak v části cesta ke složce zadejte copyfroms3 jako název výstupní složky a vyberte Další. ADF vytvoří během kopírování ADLS Gen2 odpovídající soubor systému souborů a podsložek, pokud neexistuje.

      Snímek obrazovky, který ukazuje stránku cílového úložiště dat.

  5. na stránce Nastavení pro pole název úlohy zadejte CopyFromAmazonS3ToADLS a vyberte další , aby se použilo výchozí nastavení.

    Stránka Nastavení

  6. Na stránce Souhrn zkontrolujte nastavení a klikněte na tlačítko Další.

    Stránka souhrnu

  7. Na stránce Nasazení vyberte Monitorovat a začněte monitorovat kanál (úlohu).

  8. Po úspěšném dokončení kanálu se zobrazí spuštění kanálu, které se aktivuje ruční triggerem. Pomocí odkazů ve sloupci název kanálu můžete zobrazit podrobnosti o aktivitách a znovu spustit kanál.

    Monitorování spuštění kanálu

  9. Pokud chcete zobrazit spuštění aktivit související se spuštěním kanálu, vyberte odkaz CopyFromAmazonS3ToADLS pod sloupcem název kanálu . Pokud chcete zobrazit podrobnosti o operaci kopírování, vyberte odkaz Podrobnosti (ikona brýlí) ve sloupci název aktivity . Můžete monitorovat podrobnosti, jako je objem dat zkopírovaných ze zdroje, do jímky, propustnosti dat, postup provádění s odpovídající dobou trvání a použitou konfiguraci.

    Monitorování spuštění aktivit

    Podrobnosti o spuštění aktivity monitorování

  10. Jestliže chcete zobrazení aktualizovat, vyberte Aktualizovat. Vyberte všechny spuštěné kanály v horní části a vraťte se do zobrazení "spuštění kanálu".

  11. ověřte, že se data zkopírují do účtu Data Lake Storage Gen2.

Další kroky