Přírůstkové kopírování nových souborů na základě názvu souboru rozděleného podle času pomocí nástroje pro kopírování dat

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto kurzu pomocí webu Azure Portal vytvoříte datovou továrnu. Potom pomocí nástroje pro kopírování dat vytvoříte kanál, který přírůstkově kopíruje nové soubory na základě názvu souboru rozděleného podle času z Úložiště objektů blob v Azure do služby Azure Blob Storage.

Poznámka:

Pokud se službou Azure Data Factory začínáte, přečtěte si téma Seznámení se službou Azure Data Factory.

V tomto kurzu budete provádět následující kroky:

  • Vytvoření datové továrny
  • Vytvoření kanálu pomocí nástroje pro kopírování dat
  • Monitorování spuštění aktivit a kanálu

Požadavky

  • Předplatné Azure: Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.
  • Účet úložiště Azure: Jako zdrojové úložiště dat a úložiště dat jímky použijte úložiště objektů blob. Pokud účet úložiště Azure nemáte, přečtěte si pokyny v tématu Vytvoření účtu úložiště.

Vytvoření dvou kontejnerů v úložišti objektů blob

Připravte si úložiště objektů blob pro kurz provedením těchto kroků.

  1. Vytvořte kontejner pojmenovaný zdroj. Ve svém kontejneru vytvořte cestu ke složce 2021/07/15/06 . Vytvořte prázdný textový soubor a pojmenujte ho jako file1.txt. Nahrajte soubor1.txt do zdroje cesty ke složce/ 2021/07/15/06 ve vašem účtu úložiště. K provedení těchto úloh můžete použít různé nástroje, například Průzkumníka služby Azure Storage.

    upload files

    Poznámka:

    Upravte název složky podle času UTC. Pokud je například aktuální čas UTC 15. července 2021 6:10, můžete cestu ke složce vytvořit jako zdroj/2021/07/15/06/podle pravidla zdroje/{Rok}/{Měsíc}/{Den}/{Hodina}/.

  2. Vytvořte kontejner s názvem cíl. K provedení těchto úloh můžete použít různé nástroje, například Průzkumníka služby Azure Storage.

Vytvoření datové továrny

  1. V nabídce vlevo vyberte Vytvořit službu Data Factory pro integraci>prostředků>:

    Data Factory selection in the "New" pane

  2. Na stránce Nová datová továrna v části Název zadejte ADFTutorialDataFactory.

    Název datové továrny musí být globálně jedinečný. Možná se zobrazí následující chybová zpráva:

    New data factory error message for duplicate name.

    Pokud se zobrazí chybová zpráva týkající se hodnoty názvu, zadejte jiný název datové továrny. Použijte například název vaše_jménoADFTutorialDataFactory. Pravidla pojmenování artefaktů služby Data Factory najdete v tématu Data Factory – pravidla pojmenování.

  3. Vyberte předplatné Azure, v rámci kterého se má nová datová továrna vytvořit.

  4. U položky Skupina prostředků proveďte jeden z následujících kroků:

    a. Vyberte Použít existující a z rozevíracího seznamu vyberte existující skupinu prostředků.

    b. Vyberte Vytvořit novou a zadejte název skupiny prostředků.

    Informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.

  5. V části Verze vyberte V2.

  6. V části Umístění vyberte umístění datové továrny. V rozevíracím seznamu se zobrazují jenom podporovaná umístění. Úložiště dat (například služby Azure Storage a SQL Database) a výpočetní prostředí (například Azure HDInsight) používané datovou továrnou můžou být v jiných umístěních a oblastech.

  7. Vyberte Vytvořit.

  8. Po vytvoření se zobrazí domovská stránka Datová továrna.

  9. Pokud chcete spustit uživatelské rozhraní (UI) Azure Data Factory na samostatné kartě, vyberte Otevřít na dlaždici Otevřít Azure Data Factory Studio .

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

Vytvoření kanálu pomocí nástroje pro kopírování dat

  1. Na domovské stránce služby Azure Data Factory vyberte název Ingestování a spusťte nástroj pro kopírování dat.

    Screenshot that shows the ADF home page.

  2. Na stránce Vlastnosti proveďte následující kroky:

    1. V části Typ úkolu zvolte Předdefinovaný úkol kopírování.

    2. V části Tempo úkolu nebo plán úkolu vyberte Přeskakující okno.

    3. V části Opakování zadejte 1 hodiny.

    4. Vyberte Další.

    Properties page

  3. Na stránce Source data store (Zdrojové úložiště dat) proveďte následující kroky:

    a. Pokud chcete přidat připojení, vyberte + Nové připojení .

    b. V galerii vyberte Azure Blob Storage a pak vyberte Pokračovat.

    c. Na stránce Nové připojení (Azure Blob Storage) zadejte název připojení. Vyberte své předplatné Azure a v seznamu názvů účtů úložiště vyberte svůj účet úložiště. Otestujte připojení a pak vyberte Vytvořit.

    Source data store page

    d. Na stránce Zdrojové úložiště dat vyberte nově vytvořené připojení v oddílu Připojení ion.

    e. V části Soubor nebo složka vyhledejte zdrojový kontejner a pak vyberte OK.

    f. V části Chování při načítání souborů vyberte Přírůstkové načtení: časově dělené složky nebo názvy souborů.

    g. Napište cestu dynamické složky jako zdroj/{year}/{month}/{day}/{hour}/a změňte formát, jak je znázorněno na následujícím snímku obrazovky.

    h. Zaškrtněte binární kopii a vyberte Další.

    Screenshot that shows the configuration of Source data store page.

  4. Na stránce Cílové úložiště dat proveďte následující kroky:

    1. Vyberte AzureBlobStorage, což je stejný účet úložiště jako úložiště zdrojů dat.

    2. Vyhledejte a vyberte cílovou složku a pak vyberte OK.

    3. Napište cestu dynamické složky jako cíl/{year}/{month}/{day}/{hour}/a změňte formát, jak je znázorněno na následujícím snímku obrazovky.

    4. Vyberte Další.

    Screenshot that shows the configuration of Destination data store page.

  5. Na stránce Nastavení v části Název úlohy zadejte DeltaCopyFromBlobPipeline a pak vyberte Další. Uživatelské rozhraní služby Data Factory vytvoří kanál se zadaným názvem úlohy.

    Screenshot that shows the configuration of settings page.

  6. Na stránce Souhrn zkontrolujte nastavení a pak vyberte Další.

    Summary page

  7. Na stránce Nasazení vyberte Monitorovat a začněte monitorovat kanál (úlohu). Deployment page

  8. Všimněte si, že je vlevo automaticky vybraná karta Monitorování. Potřebujete počkat na spuštění kanálu, když se aktivuje automaticky (přibližně po jedné hodině). Po spuštění vyberte odkaz na název kanálu DeltaCopyFromBlobPipeline a zobrazte podrobnosti o spuštění aktivity nebo znovu spusťte kanál. Seznam můžete aktualizovat kliknutím na Aktualizovat.

    Screenshot shows the Pipeline runs pane.

  9. Kanál obsahuje pouze jednu aktivitu (aktivita kopírování), takže se zobrazí pouze jedna položka. Pokud je to potřeba, upravte šířku sloupce Zdroj a Cíl , abyste zobrazili další podrobnosti, můžete vidět, že zdrojový soubor (file1.txt) se zkopíroval ze zdroje/2021/07/15/06/ do cíle/2021/07/15/06/ se stejným názvem souboru.

    Screenshot shows pipeline run details.

    Totéž můžete ověřit také pomocí Průzkumník služby Azure Storage (https://storageexplorer.com/) ke kontrole souborů.

    Screenshot shows pipeline run details for the destination.

  10. Vytvořte další prázdný textový soubor s novým názvem jako file2.txt. Nahrajte soubor file2.txt do zdroje cesty ke složce/ 2021/07/15/07 ve vašem účtu úložiště. K provedení těchto úloh můžete použít různé nástroje, například Průzkumníka služby Azure Storage.

    Poznámka:

    Možná víte, že je potřeba vytvořit novou cestu ke složce. Upravte název složky podle času UTC. Pokud je například aktuální čas UTC 7:30 v červenci. 15. 2021 můžete vytvořit cestu ke složce jako zdroj/2021/07/15/07/ pravidlem {Year}/{Month}/{Day}/{Hour}//.

  11. Pokud se chcete vrátit do zobrazení spuštění kanálu, vyberte Všechna spuštění kanálů a počkejte, až se stejný kanál aktivuje automaticky po jedné hodině.

    Screenshot shows the All pipeline runs link to return to that page.

  12. Vyberte nový odkaz DeltaCopyFromBlobPipeline pro druhé spuštění kanálu, pokud je k dispozici, a proveďte totéž, abyste zkontrolovali podrobnosti. Zdrojový soubor (file2.txt) se zkopíruje ze zdroje/2021/07/15/07/ do cíle/2021/07/07/15/07/ se stejným názvem souboru. Stejný postup můžete ověřit také pomocí Průzkumník služby Azure Storage (https://storageexplorer.com/) ke kontrole souborů v cílovém kontejneru.

Pokud se chcete dozvědět víc o transformaci dat pomocí clusteru Spark v Azure, přejděte k následujícímu kurzu: