Rychlý start: Vytvoření datové továrny pomocí uživatelského rozhraní Azure Data Factory
PLATÍ PRO:
Azure Data Factory
Azure Synapse Analytics
Tento rychlý start popisuje vytvoření a monitorování datové továrny pomocí uživatelského rozhraní služby Azure Data Factory. Kanál, který vytvoříte v této datové továrně, kopíruje data z jedné složky do jiné složky v úložišti objektů blob v Azure. Informace o transformaci dat pomocí Azure Data Factory najdete v tématu Mapování toku dat.
Poznámka
Pokud se službou Azure Data Factory začínáte, přečtěte si téma Seznámení se službou Azure Data Factory, než s tímto rychlým startem začnete.
Požadavky
Předplatné Azure
Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet.
Role Azure
Pro vytvoření instancí služby Data Factory musí být uživatelský účet, který použijete pro přihlášení k Azure, členem role přispěvatel nebo vlastník nebo správcem předplatného Azure. Pokud chcete zobrazit oprávnění, která máte v rámci předplatného, klikněte na Azure Portal, v pravém horním rohu vyberte své uživatelské jméno, pro další možnosti vyberte ikonu ... a pak vyberte Moje oprávnění. Pokud máte přístup k několika předplatným, vyberte odpovídající předplatné.
Při vytváření a správě podřízených prostředků pro službu Data Factory, včetně datových sad, propojených služeb, kanálů, triggerů a prostředí Integration Runtime, platí následující požadavky:
- K vytváření a správě podřízených prostředků v Azure Portal musíte patřit do role přispěvatel Data Factory na úrovni skupiny prostředků nebo výše.
- Pro vytváření a správu podřízených prostředků pomocí PowerShellu nebo sady SDK na úrovni prostředku nebo vyšší je dostatečná role Přispěvatel.
Ukázku pokynů pro přidání uživatele do role najdete v článku věnovaném přidávání rolí.
Další informace najdete v následujících článcích:
Účet služby Azure Storage
V tomto rychlém startu použijete účet pro obecné účely Azure Storage (konkrétně úložiště objektů BLOB) jako zdrojové i cílové úložiště dat. Pokud nemáte účet pro obecné účely Azure Storage, přečtěte si článek Vytvoření účtu úložiště a vytvořte si ho.
Získání názvu účtu úložiště
Pro účely tohoto rychlého startu potřebujete název účtu Azure Storage. Následující postup popisuje kroky pro získání názvu účtu úložiště:
- Ve webovém prohlížeči přejdete na Azure Portal a přihlaste se pomocí uživatelského jména a hesla Azure.
- V nabídce Azure Portal vyberte všechny služby a pak vyberte > účty úložiště úložiště. Můžete také vyhledat a vybrat účty úložiště z libovolné stránky.
- Na stránce účty úložiště vyfiltrujte váš účet úložiště (Pokud je to potřeba) a pak vyberte svůj účet úložiště.
Můžete také vyhledat a vybrat účty úložiště z libovolné stránky.
Vytvoření kontejneru objektů blob
V této části vytvoříte v úložišti objektů blob v Azure kontejner objektů blob s názvem adftutorial.
Na stránce účet úložiště vyberte přehledové > kontejnery.
Na <Account name> - panelu nástrojů stránky kontejnerů vyberte kontejner.
V dialogovém okně Nový kontejner jako název zadejte adftutorial a pak vyberte OK. <Account name> - Stránka kontejnery je aktualizována tak, aby zahrnovala adftutorial v seznamu kontejnerů.
Přidání vstupní složky a souboru pro kontejner objektů BLOB
V této části vytvoříte ve vytvořeném kontejneru složku s názvem input a nahrajete do ní ukázkový soubor. Než začnete, otevřete textový editor, jako je například Poznámkový blok, a vytvořte soubor s názvem emp.txt s následujícím obsahem:
John, Doe
Jane, Doe
Uložte soubor do složky C:\ADFv2QuickStartPSH . (Pokud složka ještě neexistuje, vytvořte ji.) Pak se vraťte do Azure Portal a proveďte následující kroky:
Na <Account name> - stránce kontejnery , kde jste skončili, vyberte adftutorial z aktualizovaného seznamu kontejnerů.
- Pokud jste okno zavřeli nebo jste přešli na jinou stránku, přihlaste se k Azure Portal znovu.
- V nabídce Azure Portal vyberte všechny služby a pak vyberte > účty úložiště úložiště. Můžete také vyhledat a vybrat účty úložiště z libovolné stránky.
- Vyberte svůj účet úložiště a pak vyberte kontejnery > adftutorial.
Na panelu nástrojů na stránce kontejneru adftutorial vyberte nahrát.
Na stránce nahrát objekt BLOB vyberte pole soubory a pak vyhledejte a vyberte soubor emp.txt .
Rozbalte nadpis Upřesnit . Stránka se teď zobrazí, jak je znázorněno na následujícím obrázku:
Do pole Odeslat do složky zadejte Input ( vstup).
Vyberte tlačítko Nahrát. Měli byste vidět soubor emp.txt a stav nahrávání v seznamu.
Vyberte ikonu Zavřít ( X) pro zavření stránky nahrát objekt BLOB .
Nechejte stránku kontejneru adftutorial otevřenou. Použijete ji k ověření výstupu na konci tohoto rychlého startu.
Video
Toto video vám pomůže seznámit se s uživatelským rozhraním služby Data Factory:
Vytvoření datové továrny
Spusťte webový prohlížeč Microsoft Edge nebo Google Chrome. Uživatelské rozhraní služby Data Factory podporují v současnosti jenom webové prohlížeče Microsoft Edge a Google Chrome.
Přejděte na Azure Portal.
V nabídce webu Azure Portal vyberte Vytvořit prostředek.
Vyberte Integrace a pak vyberte Data Factory.
Na stránce vytvořit Data Factory na kartě Základy vyberte své předplatné Azure, ve kterém chcete vytvořit datovou továrnu.
U položky Skupina prostředků proveďte jeden z následujících kroků:
a. V rozevíracím seznamu vyberte existující skupinu prostředků.
b. Vyberte Vytvořit novou a zadejte název nové skupiny prostředků.
Informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.
V oblasti vyberte umístění datové továrny.
Seznam obsahuje jenom umístění podporovaná službou Data Factory, do kterých se budou ukládat vaše metadata Azure Data Factory. Přidružená úložiště dat (například Azure Storage a Azure SQL Database) a výpočetní prostředí (například Azure HDInsight), která Data Factory používá, mohou běžet v jiných oblastech.
Jako Název zadejte ADFTutorialDataFactory. Název objektu pro vytváření dat Azure musí být globálně jedinečný. Pokud se zobrazí následující chyba, změňte název datové továrny (například na váš_název_ADFTutorialDataFactory) < > a zkuste to znovu. Pravidla pojmenování artefaktů služby Data Factory najdete v článku Data Factory – pravidla pojmenování.
V poli Verze vyberte V2.
Vyberte Další: Konfigurace Gitu a potom zaškrtněte políčko Konfigurovat Git později.
Vyberte Zkontrolovat a vytvořit a po ověření vyberte Vytvořit. Po vytvoření vyberte Přejít k prostředku a přejděte na Data Factory stránky.
Na dlaždici Open Azure Data Factory Studio (Otevřít Azure Data Factory Studio) spusťte aplikaci Azure Data Factory uživatelského rozhraní na samostatné kartě prohlížeče.
Poznámka
Pokud se ve webovém prohlížeči zasekne možnost Autorizovat, zrušte zaškrtnutí políčka Blokovat soubory cookie třetích stran a data webu. Nebo nechte vybranou, vytvořte výjimku pro login.microsoftonline.com a pak zkuste aplikaci znovu otevřít.
Vytvoření propojené služby
V tomto postupu vytvoříte propojenou službu, která propojí váš účet Azure Storage s datovou továrnou. Tato propojená služba má informace o připojení, které služba Data Factory používá pro připojení za běhu.
Na stránce Azure Data Factory uživatelského rozhraní otevřete v levém podokně kartu Spravovat.
Na stránce Propojené služby vyberte + Nové a vytvořte novou propojenou službu.
Na stránce Nová propojená služba vyberte Azure Blob Storage a pak vyberte Pokračovat.
Na stránce Nová propojená služba (Azure Blob Storage) proveďte následující kroky:
a. Jako Název zadejte AzureStorageLinkedService.
b. Jako Storage název účtu vyberte název vašeho Azure Storage účtu.
c. Vyberte Test připojení a potvrďte, že se služba Data Factory dokáže připojit k účtu úložiště.
d. Vyberte Vytvořit a uložte propojenou službu.
Vytvoření datových sad
V tomto postupu vytvoříte dvě datové sady:InputDataset a OutputDataset. Tyto datové sady jsou typu AzureBlob. Odkazují na propojenou službu Azure Storage, kterou jste vytvořili v předchozí části.
Vstupní datová sada představuje zdrojová data ve vstupní složce. V definici vstupní datové sady určíte kontejner objektů blob (adftutorial), složku (input) a soubor (emp.txt) obsahující zdrojová data.
Výstupní datová sada představuje data kopírovaná do cíle. V definici výstupní datové sady určíte kontejner objektů blob (adftutorial), složku (output) a soubor, do kterého se data kopírují. Ke každému spuštění kanálu je přiřazené jedinečné ID. Přístup k tomuto ID můžete získat pomocí systémové proměnné RunId. Název výstupního souboru se dynamicky vyhodnocuje na základě ID spuštění kanálu.
V nastavení propojené služby jste zadali účet Azure Storage, který obsahuje zdrojová data. V nastavení zdrojové datové sady určíte, kde přesně se data nacházejí (kontejner objektů blob, složka a soubor). V nastavení datové sady jímky určíte, kam se data kopírují (kontejner objektů blob, složka a soubor).
V levém podokně vyberte kartu Autor.
Vyberte tlačítko + (plus) a pak vyberte Datová sada.
Na stránce Nová datová sada vyberte Azure Blob Storage a pak vyberte Pokračovat.
Na stránce Vybrat formát zvolte typ formátu vašich dat a pak vyberte Pokračovat. V takovém případě při kopírování souborů tak, jak jsou, vyberte Binární bez analýzy obsahu.
Na stránce Nastavit vlastnosti proveďte následující kroky:
a. V části Název zadejte InputDataset.
b. Jako Propojená služba vyberte AzureStorageLinkedService.
c. V části Cesta k souboru vyberte tlačítko Procházet.
d. V okně Zvolte soubor nebo složku přejděte do složky input v kontejneru adftutorial, vyberte souboremp.txt a pak vyberte OK.
e. Vyberte OK.
Pomocí stejného postupu vytvořte výstupní datovou sadu:
a. Vyberte tlačítko + (plus) a pak vyberte Datová sada.
b. Na stránce Nová datová sada vyberte Azure Blob Storage a pak vyberte Pokračovat.
c. Na stránce Vybrat formát zvolte typ formátu vašich dat a pak vyberte Pokračovat.
d. Na stránce Nastavit vlastnosti jako název zadejte OutputDataset. Jako propojenou službu vyberte AzureStorageLinkedService.
e. V části Cesta k souboru zadejte adftutorial/output. Pokud výstupní složka neexistuje, aktivita kopírování ji vytvoří za běhu.
f. Vyberte OK.
Vytvoření kanálu
V tomto postupu vytvoříte a ověříte kanál s aktivitou kopírování, která používá vstupní a výstupní datovou sadu. Aktivita kopírování kopíruje data ze souboru zadaného v nastavení vstupní datové sady do souboru zadaného v nastavení výstupní datové sady. Pokud vstupní datová sada určuje pouze složku (bez názvu souboru), aktivita kopírování zkopíruje do cíle všechny soubory ve zdrojové složce.
Vyberte + tlačítko (plus) a pak vyberte Kanál.
Na panelu Obecné v části Vlastnosti jako Název zadejte CopyPipeline. Pak panel sbalte kliknutím na ikonu Vlastnosti v pravém horním rohu.
Na panelu nástrojů Aktivity rozbalte Přesunout a transformovat. Přetáhněte aktivitu Kopírování dat z panelu nástrojů Aktivity na plochu návrháře kanálu. Na panelu nástrojů Aktivity můžete aktivity také vyhledávat. Jako Název zadejte CopyFromBlobToBlob.
V nastavení aktivity kopírování přepněte na kartu Zdroj a jako Zdrojová datová sada vyberte InputDataset.
V nastavení aktivity kopírování přepněte na kartu Jímka a jako Datová sada jímky vyberte OutputDataset.
Kliknutím na Ověřit na panelu nástrojů kanálu nad plátnem ověřte nastavení kanálu. Ověřte úspěšné ověření kanálu. Pokud chcete výstup ověření zavřít, vyberte tlačítko Ověření v pravém horním rohu.
Ladění kanálu
V tomto kroku provedete ladění kanálu před tím, než ho nasadíte do služby Data Factory.
Kliknutím na Ladit na panelu nástrojů kanálu nad plátnem aktivujte testovací běh.
Ověřte, že se na kartě Výstup v nastavení kanálu v dolní části zobrazí stav spuštění kanálu.
Ověřte, že složka output kontejneru adftutorial obsahuje výstupní soubor. Pokud výstupní složka neexistuje, služba Data Factory automaticky vytvoří.
Ruční aktivace kanálu
V tomto postupu nasadíte entity (propojené služby, datové sady a kanály) do služby Azure Data Factory. Pak ručně aktivujete spuštění kanálu.
Před aktivací kanálu je nutné publikovat entity do služby Data Factory. Pokud chcete publikovat, vyberte v horní části Publikovat vše.
Pokud chcete kanál aktivovat ručně, vyberte Přidat aktivační událost na panelu nástrojů kanálu a pak vyberte Aktivovat. Na stránce Spuštění kanálu vyberte OK.
Monitorování kanálu
Vlevo přepněte na kartu Monitorování. Pomocí tlačítka Aktualizovat seznam aktualizujte.
Vyberte odkaz CopyPipeline a na této stránce se zobrazí stav spuštění aktivity kopírování.
Pokud chcete zobrazit podrobnosti o operaci kopírování, vyberte odkaz Podrobnosti (obrázek brýlí). Podrobnosti o vlastnostech najdete v tématu Přehled aktivity kopírování.
Ověřte, že složka output obsahuje nový soubor.
V zobrazení Spuštění aktivit můžete přepnout zpět na zobrazení Spuštění kanálu výběrem odkazu Všechna spuštění kanálu.
Aktivace kanálu podle plánu
Tento postup je v tomto kurzu volitelný. Můžete vytvořit aktivační událost plánovače a naplánovat pravidelné spouštění kanálu (každou hodinu, každý den atd.). V tomto postupu vytvoříte aktivační událost, která se bude spouštět každou minutu až do koncového data a času, které zadáte.
Přepněte na kartu Vytvořit.
Přejděte ke svému kanálu, na panelu nástrojů kanálu vyberte Přidat trigger a pak vyberte Nový/Upravit.
Na stránce Přidat aktivační události vyberte Zvolit aktivační událost a pak vyberte Nová.
Na stránce Nová aktivační událost v části Konec vyberte K datu, zadejte koncový čas několik minut od aktuálního času a pak vyberte OK.
Každé spuštění kanálu je zpoplatněno, proto zadejte koncový čas pouze pár minut po času zahájení. Ujistěte se, že se jedná o stejný den. Ujistěte se však, že je dostatek času ke spuštění kanálu mezi časem publikování a koncovým časem. Aktivační událost nabývá účinnosti po publikování řešení do služby Data Factory, a ne při uložení aktivační události v uživatelském rozhraní.
Na stránce Nová aktivační událost zaškrtněte políčko Aktivováno a pak vyberte OK.
Zkontrolujte zprávu upozornění a vyberte OK.
Vyberte Publikovat vše a publikujte změny do Data Factory.
Vlevo přepněte na kartu Monitorování. Seznam můžete aktualizovat kliknutím na Aktualizovat. Uvidíte, že se kanál spustí každou minutu od času publikování až do koncového času.
Všimněte si hodnot ve sloupci TRIGGERED BY (AKTIVOVAL). Ruční spuštění aktivační události proběhlo v kroku, který jste provedli dříve (Aktivovat).
Přepněte do zobrazení Spuštění aktivační události.
Ověřte, že se ve složce output vytvořil výstupní soubor pro každé spuštění kanálu až do zadaného koncového data a času.
Další kroky
Kanál v této ukázce kopíruje data z jednoho umístění do jiného umístění v úložišti objektů blob v Azure. Pokud se chcete naučit používat službu Data Factory ve více scénářích, projděte si příslušné kurzy.