Sdílet prostřednictvím


Zabezpečená transformace dat pomocí mapování toku dat

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Pokud se službou Azure Data Factory začínáte, přečtěte si téma Seznámení se službou Azure Data Factory.

V tomto kurzu použijete uživatelské rozhraní služby Data Factory k vytvoření kanálu, který kopíruje a transformuje data ze zdroje Azure Data Lake Storage Gen2 na jímku Data Lake Storage Gen2 (obojí umožňuje přístup pouze k vybraným sítím) pomocí mapování toku dat ve spravované virtuální síti data Factory. Vzor konfigurace v tomto kurzu můžete rozšířit při transformaci dat pomocí mapování toku dat.

V tomto kurzu provedete následující kroky:

  • Vytvoření datové továrny
  • Vytvoření kanálu s aktivitou toku dat
  • Sestavte tok dat mapování se čtyřmi transformacemi.
  • Testovací spuštění kanálu
  • Monitorujte aktivitu toku dat.

Požadavky

  • Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet Azure před tím, než začnete.
  • Účet služby Azure Storage. Data Lake Storage používáte jako úložiště dat zdroje a jímky . Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu služby Azure Storage, kde najdete postup jeho vytvoření. Ujistěte se, že účet úložiště umožňuje přístup jenom z vybraných sítí.

Soubor, který v tomto kurzu transformujeme, je moviesDB.csv, který najdete na tomto webu obsahu GitHubu. Pokud chcete soubor načíst z GitHubu, zkopírujte obsah do textového editoru podle vašeho výběru a uložte ho místně jako soubor .csv. Pokud chcete nahrát soubor do účtu úložiště, přečtěte si téma Nahrání objektů blob pomocí webu Azure Portal. Příklady budou odkazovat na kontejner s názvem sample-data.

Vytvoření datové továrny

V tomto kroku vytvoříte datovou továrnu a otevřete uživatelské rozhraní služby Data Factory, abyste vytvořili kanál v datové továrně.

  1. Otevřete Microsoft Edge nebo Google Chrome. V současné době uživatelské rozhraní služby Data Factory podporují pouze webové prohlížeče Microsoft Edge a Google Chrome.

  2. V nabídce vlevo vyberte Vytvořit datovou továrnu pro analýzu>prostředků.>

  3. Na stránce Nová datová továrna v části Název zadejte ADFTutorialDataFactory.

    Název datové továrny musí být globálně jedinečný. Pokud se zobrazí chybová zpráva o hodnotě názvu, zadejte jiný název datové továrny (například názevADFTutorialDataFactory). Pravidla pro pojmenovávání artefaktů služby Data Factory najdete v tématu Data Factory – pravidla pojmenování.

  4. Vyberte předplatné Azure, v rámci kterého chcete datovou továrnu vytvořit.

  5. U položky Skupina prostředků proveďte jeden z následujících kroků:

    • Vyberte Použít existující a z rozevíracího seznamu vyberte existující skupinu prostředků.
    • Vyberte Vytvořit novou a zadejte název skupiny prostředků.

    Informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.

  6. Jako Verzi vyberte V2.

  7. V části Umístění vyberte umístění datové továrny. V rozevíracím seznamu se zobrazí pouze podporovaná umístění. Úložiště dat (například Azure Storage a Azure SQL Database) a výpočty (například Azure HDInsight) používané datovou továrnou můžou být v jiných oblastech.

  8. Vyberte Vytvořit.

  9. Po vytvoření se v Centru oznámení zobrazí oznámení. Výběrem možnosti Přejít k prostředku přejděte na stránku Data Factory .

  10. Výběrem možnosti Otevřít Azure Data Factory Studio spusťte uživatelské rozhraní služby Data Factory na samostatné kartě.

Vytvoření prostředí Azure IR ve spravované virtuální síti služby Data Factory

V tomto kroku vytvoříte prostředí Azure IR a povolíte službu Data Factory Managed Virtual Network.

  1. Na portálu Data Factory přejděte na Spravovat a vyberte Nový a vytvořte nové prostředí Azure IR.

    Screenshot that shows creating a new Azure IR.

  2. Na stránce nastavení prostředí Integration Runtime zvolte, jaké prostředí Integration Runtime se má vytvořit na základě požadovaných možností. V tomto kurzu vyberte Azure, v místním prostředí a potom klikněte na Pokračovat.

  3. Vyberte Azure a potom kliknutím na Pokračovat vytvořte prostředí Azure Integration Runtime.

    Screenshot that shows a new Azure IR.

  4. V části Konfigurace virtuální sítě (Preview) vyberte Povolit.

    Screenshot that shows enabling a new Azure IR.

  5. Vyberte Vytvořit.

Vytvoření kanálu s aktivitou toku dat

V tomto kroku vytvoříte kanál, který obsahuje aktivitu toku dat.

  1. Na domovské stránce služby Azure Data Factory vyberte Orchestrate (Orchestrate).

    Screenshot that shows the data factory home page with the Orchestrate button highlighted.

  2. V podokně vlastností kanálu zadejte transformMovies pro název kanálu.

  3. V podokně Aktivity rozbalte položku Přesunout a transformovat. Přetáhněte aktivitu Tok dat z podokna na plátno kanálu.

  4. V místní nabídce Přidání toku dat vyberte Vytvořit nový tok dat a pak vyberte Mapování Tok dat. Až budete hotovi, vyberte OK .

    Screenshot that shows Mapping Data Flow.

  5. Pojmenujte svůj tok dat TransformMovies v podokně vlastností.

  6. Na horním panelu plátna kanálu posuňte posuvník Tok dat ladění. Režim ladění umožňuje interaktivní testování logiky transformace na živém clusteru Spark. Tok dat clusterů trvá 5 až 7 minut, než se zahřejí, a pokud plánují vývoj Tok dat, doporučuje se nejprve zapnout ladění. Další informace naleznete v tématu Režim ladění.

    Screenshot that shows the Data flow debug slider.

Vytvoření logiky transformace na plátně toku dat

Po vytvoření toku dat se automaticky odešle na plátno toku dat. V tomto kroku vytvoříte tok dat, který vezme soubor moviesDB.csv ve službě Data Lake Storage a agreguje průměrné hodnocení comedies z roku 1910 do roku 2000. Potom tento soubor zapíšete zpět do Služby Data Lake Storage.

Přidání zdrojové transformace

V tomto kroku nastavíte Data Lake Storage Gen2 jako zdroj.

  1. Na plátně toku dat přidejte zdroj výběrem pole Přidat zdroj .

  2. Pojmenujte zdroj MoviesDB. Výběrem možnosti Nový vytvoříte novou zdrojovou datovou sadu.

  3. Vyberte Azure Data Lake Storage Gen2 a pak vyberte Pokračovat.

  4. Vyberte Text s oddělovači a pak vyberte Pokračovat.

  5. Pojmenujte datovou sadu MoviesDB. V rozevíracím seznamu propojené služby vyberte Nový.

  6. Na obrazovce vytvoření propojené služby pojmenujte propojenou službu Data Lake Storage Gen2 ADLSGen2 a zadejte metodu ověřování. Pak zadejte přihlašovací údaje pro připojení. V tomto kurzu používáme klíč účtu pro připojení k našemu účtu úložiště.

  7. Ujistěte se, že jste povolili interaktivní vytváření. Povolení může chvíli trvat.

    Screenshot that shows Interactive authoring.

  8. Vyberte Test připojení. Měl by selhat, protože účet úložiště k němu neumožňuje přístup bez vytvoření a schválení privátního koncového bodu. V chybové zprávě by se měl zobrazit odkaz na vytvoření privátního koncového bodu, podle kterého můžete vytvořit spravovaný privátní koncový bod. Alternativou je přejít přímo na kartu Správa a podle pokynů v této části vytvořit spravovaný privátní koncový bod.

  9. Nechte dialogové okno otevřené a přejděte do svého účtu úložiště.

  10. Podle pokynů v této části schvalte privátní propojení.

  11. Vraťte se do dialogového okna. Znovu vyberte Test připojení a výběrem možnosti Vytvořit nasaďte propojenou službu.

  12. Na obrazovce pro vytvoření datové sady zadejte, kde se soubor nachází v poli Cesta k souboru. V tomto kurzu se soubor moviesDB.csv nachází v ukázkových datech kontejneru. Protože soubor obsahuje záhlaví, zaškrtněte políčko První řádek jako záhlaví . Pokud chcete importovat schéma hlaviček přímo ze souboru v úložišti, vyberte z připojení nebo úložiště . Až budete hotovi, vyberte OK .

    Screenshot that shows the source path.

  13. Pokud se váš ladicí cluster spustil, přejděte na kartu Náhled dat ve zdrojové transformaci a vyberte Aktualizovat , abyste získali snímek dat. Pomocí náhledu dat můžete ověřit, jestli je transformace správně nakonfigurovaná.

    Screenshot that shows the Data Preview tab.

Vytvoření spravovaného privátního koncového bodu

Pokud jste při otestování předchozího připojení nepoužíli hypertextový odkaz, postupujte podle cesty. Teď potřebujete vytvořit spravovaný privátní koncový bod, který se připojíte k propojené službě, kterou jste vytvořili.

  1. Přejděte na kartu Spravovat .

    Poznámka:

    Karta Spravovat nemusí být k dispozici pro všechny instance služby Data Factory. Pokud ho nevidíte, můžete k privátním koncovým bodům přistupovat tak, že vyberete Možnost Autor> Připojení ions>privátní koncový bod.

  2. Přejděte do části Spravované privátní koncové body .

  3. V části Spravované privátní koncové body vyberte + Nový.

    Screenshot that shows the Managed private endpoints New button.

  4. V seznamu vyberte dlaždici Azure Data Lake Storage Gen2 a vyberte Pokračovat.

  5. Zadejte název účtu úložiště, který jste vytvořili.

  6. Vyberte Vytvořit.

  7. Po několika sekundách byste měli vidět, že privátní propojení vytvořené vyžaduje schválení.

  8. Vyberte privátní koncový bod, který jste vytvořili. Zobrazí se hypertextový odkaz, který vás povede ke schválení privátního koncového bodu na úrovni účtu úložiště.

    Screenshot that shows the Manage private endpoint pane.

  1. V účtu úložiště přejděte do připojení privátního koncového bodu v části Nastavení.

  2. Zaškrtněte políčko u privátního koncového bodu, který jste vytvořili, a vyberte Schválit.

    Screenshot that shows the private endpoint Approve button.

  3. Přidejte popis a vyberte ano.

  4. Vraťte se do části Spravované privátní koncové body na kartě Správa ve službě Data Factory.

  5. Přibližně za minutu by se mělo zobrazit schválení vašeho privátního koncového bodu.

Přidání transformace filtru

  1. Vedle zdrojového uzlu na plátně toku dat vyberte ikonu plus a přidejte novou transformaci. První přidanou transformací je filtr.

    Screenshot that shows adding a filter.

  2. Pojmenujte transformační filtr FilterYears. Výběrem pole výrazu vedle možnosti Filtrovat otevřete tvůrce výrazů. Tady zadáte podmínku filtrování.

    Screenshot that shows FilterYears.

  3. Tvůrce výrazů toku dat umožňuje interaktivně vytvářet výrazy pro použití v různých transformacích. Výrazy můžou zahrnovat předdefinované funkce, sloupce ze vstupního schématu a uživatelem definované parametry. Další informace o vytváření výrazů najdete v tématu Tvůrce výrazů toku dat.

    • V tomto kurzu chcete filtrovat filmy v žánru comedy, které vyšly mezi roky 1910 a 2000. Vzhledem k tomu, že rok je aktuálně řetězec, musíte ho pomocí funkce převést na celé číslo toInteger() . K porovnání s hodnotami literálového roku 1910 a 2000 použijte operátory větší než nebo rovno>< (=) a menší než (=). Sjednocujte tyto výrazy společně s operátorem a (&). Výraz vychází takto:

      toInteger(year) >= 1910 && toInteger(year) <= 2000

    • Pokud chcete zjistit, které filmy jsou komiky, můžete pomocí rlike() funkce najít vzor "Comedy" ve sloupcových žánrech. Sjednocujte rlike výraz s porovnáním roku, abyste získali:

      toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    • Pokud máte aktivní ladicí cluster, můžete ověřit logiku výběrem možnosti Aktualizovat a zobrazit výstup výrazu ve srovnání se vstupy použitými. Existuje více než jedna správná odpověď na to, jak tuto logiku dosáhnout pomocí jazyka výrazů toku dat.

      Screenshot that shows the filter expression.

    • Po dokončení výrazu vyberte Uložit a dokončit .

  4. Načtením náhledu dat ověřte, že filtr funguje správně.

    Screenshot that shows the filtered Data Preview.

Přidání agregační transformace

  1. Další přidanou transformací je agregační transformace v modifikátoru schématu.

    Screenshot that shows adding the aggregate.

  2. Pojmenujte agregační transformaci AggregateComedyRating. Na kartě Seskupit podle vyberte rok z rozevíracího seznamu a seskupte agregace podle roku, ve které film přišel.

    Screenshot that shows the aggregate group.

  3. Přejděte na kartu Agregace . V levém textovém poli pojmenujte agregovaný sloupec AverageComedyRating. Výběrem pravého pole výrazu zadejte agregační výraz prostřednictvím tvůrce výrazů.

    Screenshot that shows the aggregate column name.

  4. Pokud chcete získat průměr sloupce Hodnocení, použijte avg() agregační funkci. Protože Rating je řetězec a avg() přebírá číselný vstup, musíme hodnotu převést na číslo prostřednictvím toInteger() funkce. Tento výraz vypadá takto:

    avg(toInteger(Rating))

  5. Po dokončení vyberte Uložit a dokončit .

    Screenshot that shows saving the aggregate.

  6. Přejděte na kartu Náhled dat a zobrazte výstup transformace. Všimněte si, že existují jenom dva sloupce, rok a AverageComedyRating.

Přidání transformace jímky

  1. Dále chcete v části Cíl přidat transformaci jímky.

    Screenshot that shows adding a sink.

  2. Pojmenujte jímku. Vyberte Nový a vytvořte datovou sadu jímky.

    Screenshot that shows creating a sink.

  3. Na stránce Nová datová sada vyberte Azure Data Lake Storage Gen2 a pak vyberte Pokračovat.

  4. Na stránce Vybrat formát vyberte Oddělovač a pak vyberte Pokračovat.

  5. Pojmenujte datovou sadu jímky MoviesSink. Pro propojenou službu zvolte stejnou propojenou službu ADLSGen2 , kterou jste vytvořili pro transformaci zdroje. Zadejte výstupní složku pro zápis dat do. V tomto kurzu zapisujeme do výstupu složky v ukázkových datech kontejneru. Složka nemusí předem existovat a je možné ji dynamicky vytvořit. Zaškrtněte políčko První řádek jako záhlaví a jako schéma importu vyberte Žádné. Vyberte OK.

    Screenshot that shows the sink path.

Teď jste dokončili vytváření toku dat. Jste připraveni ho spustit ve svém kanálu.

Spuštění a monitorování toku dat

Kanál můžete ladit, než ho publikujete. V tomto kroku aktivujete spuštění ladění kanálu toku dat. Náhled dat sice nezapisuje data, ale spuštění ladění zapíše data do cíle jímky.

  1. Přejděte na plátno kanálu. Vyberte Ladit , aby se aktivovalo spuštění ladění.

  2. Ladění kanálu aktivit toku dat používá aktivní ladicí cluster, ale inicializace trvá aspoň minutu. Průběh můžete sledovat pomocí karty Výstup . Po úspěšném spuštění vyberte ikonu brýle pro podrobnosti spuštění.

  3. Na stránce podrobností můžete zobrazit počet řádků a čas strávený jednotlivými kroky transformace.

    Screenshot that shows a monitoring run.

  4. Výběrem transformace získáte podrobné informace o sloupcích a dělení dat.

Pokud jste postupovali podle tohoto kurzu správně, měli byste do složky jímky napsat 83 řádků a 2 sloupce. Správnost dat můžete ověřit kontrolou úložiště objektů blob.

Shrnutí

V tomto kurzu jste pomocí uživatelského rozhraní služby Data Factory vytvořili kanál, který kopíruje a transformuje data ze zdroje Data Lake Storage Gen2 na jímku Data Lake Storage Gen2 (obojí umožňuje přístup jenom k vybraným sítím) pomocí mapování toku dat ve spravované virtuální síti Data Factory.