Rychlý start: Transformace dat pomocí mapování toků dat

V tomto rychlém startu použijete Azure Synapse Analytics k vytvoření kanálu, který transformuje data ze zdroje Azure Data Lake Storage Gen2 (ADLS Gen2) do jímky ADLS Gen2 pomocí mapování toku dat. Vzor konfigurace v tomto rychlém startu je možné rozšířit při transformaci dat pomocí mapování toku dat.

V tomto rychlém startu proveďte následující kroky:

  • Vytvoření kanálu s aktivitou Flow dat v Azure Synapse Analytics
  • Sestavte mapování toku dat se čtyřmi transformacemi.
  • Testovací spuštění kanálu
  • Monitorování aktivity Flow dat

Požadavky

  • Předplatné Azure: Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.

  • Azure Synapse pracovního prostoru: Vytvořte pracovní prostor Synapse pomocí Azure Portal podle pokynů v tématu Rychlý start: Vytvoření pracovního prostoru Synapse.

  • Účet úložiště Azure: Úložiště ADLS se používá jako zdrojová úložiště dat a úložiště dat jímky. Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu služby Azure Storage, kde najdete postup jeho vytvoření.

    Soubor, který v tomto kurzu transformujeme, MoviesDB.csv najdete tady. Pokud chcete soubor načíst z GitHub, zkopírujte obsah do textového editoru podle vašeho výběru a uložte ho místně .csv souboru. Pokud chcete soubor nahrát do svého účtu úložiště, podívejte se Upload objektů blob s Azure Portal. Příklady budou odkazovat na kontejner s názvem sample-data.

Po vytvoření Azure Synapse pracovního prostoru máte dva způsoby, jak ho Synapse Studio:

  • Otevřete pracovní prostor Synapse v Azure Portal. Na kartě Otevřít Synapse Studio v části Začínáme vyberte Otevřít.
  • Otevřete Azure Synapse Analytics a přihlaste se k pracovnímu prostoru.

V tomto rychlém startu použijeme jako příklad pracovní prostor s názvem "adftest2020". Automaticky vás přejde na domovskou Synapse Studio stránky.

Synapse Studio domovská stránka

Vytvoření kanálu s aktivitou Flow dat

Kanál obsahuje logický tok pro provádění sady aktivit. V této části vytvoříte kanál, který obsahuje aktivitu datového Flow dat.

  1. Přejděte na kartu Integrace. Vyberte ikonu se znaménkem plus vedle hlavičky pipelines (Kanály) a pak vyberte Pipeline (Kanál).

    Vytvoření nového kanálu

  2. Na stránce Nastavení vlastností kanálu jako Název zadejte Transform (Transformace)Properties (Transformace)Properties (Vlastnosti).

  3. V části Přesunout a transformovat v podokně Aktivity přetáhněte tok dat na plátno kanálu.

  4. V místní nabídce na stránce Přidání toku dat vyberte Vytvořit nový tok dat -> Tok dat. Až to bude hotové, klikněte na OK.

    Vytvoření toku dat

  5. Na stránce Vlastnosti pojmnujte tok dat transformací.

Sestavení logiky transformace na plátně toku dat

Po vytvoření datového Flow se automaticky odesílá na plátno toku dat. V tomto kroku sestavíte tok dat, který vezme MoviesDB.csv v úložišti ADLS a agreguje průměrné hodnocení komedie od roku 1910 do roku 2000. Pak tento soubor zapíšete zpět do úložiště ADLS.

  1. Nad plátnem toku dat nastavte posuvník Ladění toku dat. Režim ladění umožňuje interaktivní testování logiky transformace na živém clusteru Spark. Zahřeje Flow datových clusterů 5 až Flow 7 minut a uživatelům se doporučuje, aby při vývoji dat nejprve zapli ladění. Další informace najdete v tématu Režim ladění.

    Posuňte ladění na

  2. Na plátně toku dat přidejte zdroj kliknutím na pole Přidat zdroj.

  3. Zadejte název zdrojové databáze MoviesDB. Kliknutím na Nová vytvořte novou zdrojovou datovou sadu.

    Vytvoření nové zdrojové datové sady

  4. Zvolte Azure Data Lake Storage Gen2. Klikněte na Pokračovat.

    Volba Azure Data Lake Storage Gen2

  5. Zvolte DelimitedText. Klikněte na Pokračovat.

  6. Pojmete datovou sadu MoviesDB. V rozevíracím seznamu propojené služby zvolte Nová.

  7. Na obrazovce pro vytvoření propojené služby zadejte název ADLS Gen2 ADLSGen2 a zadejte metodu ověřování. Pak zadejte přihlašovací údaje pro připojení. V tomto rychlém startu používáme klíč účtu pro připojení k účtu úložiště. Kliknutím na Test připojení můžete ověřit správné zadání přihlašovacích údajů. Po dokončení klikněte na Vytvořit.

    Vytvoření zdrojové propojené služby

  8. Až se vrátíte na obrazovku pro vytvoření datové sady, zadejte do pole Cesta k souboru, kde se soubor nachází. V tomto rychlém startu se soubor "MoviesDB.csv" nachází v kontejneru "sample-data". Protože soubor obsahuje záhlaví, zaškrtněte první řádek jako záhlaví. Pokud chcete importovat schéma záhlaví přímo ze souboru v úložišti, vyberte Z připojení nebo úložiště. Až to bude hotové, klikněte na OK.

    Nastavení zdrojové datové sady

  9. Pokud se váš cluster ladění zahájil, přejděte na kartu Náhled dat v transformaci zdroje a kliknutím na Aktualizovat získejte snímek dat. Pomocí náhledu dat můžete ověřit, že je transformace správně nakonfigurovaná.

    Náhled dat

  10. Vedle zdrojového uzlu na plátně toku dat klikněte na ikonu plus a přidejte novou transformaci. První transformací, kterou přidáte, je Filtr.

    Přidání filtru

  11. Pojmnujte transformaci filtru FilterYears. Kliknutím na pole výrazu vedle možnosti Filtrovat podle otevřete tvůrce výrazů. Tady zadáte podmínku filtrování.

  12. Tvůrce výrazů toku dat umožňuje interaktivně vytvářet výrazy, které se používají v různých transformacích. Výrazy mohou obsahovat předdefinované funkce, sloupce ze vstupního schématu a uživatelsky definované parametry. Další informace o vytváření výrazů najdete v tématu Tvůrce Flow dat.

    V tomto rychlém startu chcete filtrovat filmy žánrů, které se objevily v letech 1910 až 2000. Vzhledem k tomu, že year je aktuálně řetězec, musíte ho pomocí funkce převést na celé toInteger() číslo. Použijte operátory větší než nebo rovno (>=) a menší než nebo rovno (<=) k porovnání s literálními hodnotami roku 1910 a 200-. Tyto výrazy sjednotte s && operátorem (a). Výraz vychází takto:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Pokud chcete zjistit, které filmy jsou komediemi, můžete pomocí funkce najít rlike() vzor "Ádž" ve sloupcových žánrech. rlikeSjednotte výraz s porovnáním roků a získejte:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Zadání podmínky filtrování

    Pokud máte aktivní cluster ladění, můžete logiku ověřit kliknutím na Aktualizovat a zobrazit výstup výrazu v porovnání s použitými vstupy. Existuje více než jedna dobrá odpověď na to, jak můžete tuto logiku dosáhnout pomocí jazyka výrazů toku dat.

    Jakmile s výrazem skončíte, klikněte na Uložit a dokončit.

  13. Načtením náhledu dat ověřte, že filtr funguje správně.

  14. Další transformací, kterou přidáte, je transformace agregace v části Modifikátor schématu.

    Přidání agregace

  15. Agregační transformaci pojmete AggregateComedyRatings. Na kartě Seskupit podle vyberte v rozevíracím seznamu rok a seskupte agregace podle roku, kdy film pochází.

    Agregační nastavení 1

  16. Přejděte na kartu Agregace. V levém textovém poli pojmete agregační sloupec AverageComedyRating. Kliknutím na pole pravého výrazu zadejte agregační výraz prostřednictvím tvůrce výrazů.

    Agregační nastavení 2

  17. Pokud chcete získat průměr sloupce Rating, použijte avg() agregační funkci. Protože Rating je řetězec a přebírá číselný vstup, musíme hodnotu převést na avg() číslo prostřednictvím funkce toInteger() . Tento výraz vypadá jako:

    avg(toInteger(Rating))

    Po dokončení klikněte na Uložit a dokončit.

    Average rating (Průměrné hodnocení klientů)

  18. Přejděte na kartu Náhled dat a zobrazte výstup transformace. Všimněte si, že existují pouze dva sloupce: year a AverageComedyRating.

    Náhled agregovaných dat

  19. Dále chcete v části Cíl přidat transformaci jímky.

    Přidání jímky

  20. Zadejte název jímky. Kliknutím na Nová vytvořte datovou sadu jímky.

  21. Zvolte Azure Data Lake Storage Gen2. Klikněte na Pokračovat.

  22. Zvolte DelimitedText. Klikněte na Pokračovat.

  23. Datovou sadu jímky pojmete MoviesSink. V případě propojené služby zvolte ADLS Gen2, kterou jste vytvořili v kroku 7. Zadejte výstupní složku, do které chcete zapisovat data. V tomto rychlém startu zapisujeme do složky output v kontejneru sample-data. Složka nemusí existovat předem a je možné ji vytvořit dynamicky. Nastavte První řádek jako záhlaví na true a v části Importovat schéma vyberte Žádný. Až to bude hotové, klikněte na OK.

    Vlastnosti datové sady jímky

Teď jste dokončili vytváření toku dat. Jste připraveni ho spustit ve svém kanálu.

Spuštění a monitorování datového Flow

Kanál můžete před publikováním ladit. V tomto kroku aktivujete spuštění ladění kanálu toku dat. I když náhled dat nezapisuje data, ladicí běh zapíše data do cíle jímky.

  1. Přejděte na plátno kanálu. Kliknutím na Ladit aktivujte spuštění ladění.

    Kanál ladění

  2. Ladění kanálu aktivit Flow využívá aktivní cluster ladění, ale inicializace je stále minimálně minutu. Průběh můžete sledovat na kartě Výstup. Po úspěšném spuštění kliknutím na ikonu brýlí otevřete podokno monitorování.

    Výstup ladění

  3. V podokně monitorování vidíte počet řádků a čas strávený v každém kroku transformace.

    Monitorování transformací

  4. Kliknutím na transformaci zobrazíte podrobné informace o sloupcích a dělení dat.

    Podrobnosti transformace

Pokud jste postupují podle tohoto rychlého startu správně, měli byste do složky jímky zapsat 83 řádků a 2 sloupce. Data můžete ověřit kontrolou úložiště objektů blob.

Další kroky

V následujících článcích se dozvíte o podpoře Azure Synapse Analytics: