Rychlý start: Přesun a transformace dat pomocí toků dat a datových kanálů

V tomto kurzu zjistíte, jak může tok dat a prostředí datového kanálu vytvořit výkonné a komplexní řešení Data Factory.

Požadavky

Abyste mohli začít, musíte mít následující požadavky:

Toky dat ve srovnání s kanály

Toky dat Gen2 umožňují využít rozhraní s nízkým kódem a transformace založené na umělé inteligenci a 300+ pro snadné vyčištění, přípravu a transformaci dat s větší flexibilitou než jakýkoli jiný nástroj. Datové kanály umožňují bohaté možnosti orchestrace předefinovaných dat vytvářet flexibilní datové pracovní postupy, které vyhovují potřebám vašeho podniku. V kanálu můžete vytvořit logické seskupení aktivit, které provádějí úlohu, což může zahrnovat volání toku dat k vyčištění a přípravě dat. I když se některé funkce mezi těmito dvěma funkcemi překrývají, výběr, který se má použít pro konkrétní scénář, závisí na tom, jestli požadujete plnou funkčnost kanálů, nebo můžete použít jednodušší, ale omezenější možnosti toků dat. Další podrobnosti najdete v průvodci rozhodováním o prostředcích infrastruktury.

Transformace dat pomocí toků dat

Postupujte podle těchto kroků a nastavte tok dat.

Krok 1: Vytvoření toku dat

  1. Zvolte pracovní prostor s podporou prostředků infrastruktury a pak vyberte Nový. Pak vyberte Dataflow Gen2.

    Screenshot showing where to start creating a dataflow gen2.

  2. Zobrazí se okno editoru toku dat. Vyberte kartu Importovat z SQL Serveru.

    Screenshot showing the dataflow editor window.

Krok 2: Získání dat

  1. V dialogovém okně Připojení ke zdroji dat, které se zobrazí dále, zadejte podrobnosti pro připojení k databázi Azure SQL a pak vyberte Další. V tomto příkladu použijete ukázkovou databázi AdventureWorksLT nakonfigurovanou při nastavování databáze Azure SQL v požadavcích.

    Screenshot showing how to connect to an Azure SQL database.

  2. Vyberte data, která chcete transformovat, a pak vyberte Vytvořit. V tomto rychlém startu vyberte SalesLT.Customer z ukázkových dat AdventureWorksLT zadaných pro Azure SQL DB a potom tlačítko Vybrat související tabulky , které automaticky obsahují dvě další související tabulky.

    Screenshot showing where to choose from the available data.

Krok 3: Transformace dat

  1. Pokud není vybraná, vyberte tlačítko Zobrazení diagramu na stavovém řádku v dolní části stránky nebo vyberte zobrazení diagramu v nabídce Zobrazení v horní části editoru Power Query. Některé z těchto možností můžou přepnout zobrazení diagramu.

    Screenshot showing where to select diagram view.

  2. Klikněte pravým tlačítkem myši na dotaz SalesLT Customer nebo vyberte svislé tři tečky napravo od dotazu a pak vyberte Sloučit dotazy.

    Screenshot showing where to find the Merge queries option.

  3. Sloučení nakonfigurujte tak , že vyberete tabulku SalesLTOrderHeader jako správnou tabulku pro sloučení, sloupec CustomerID z každé tabulky jako sloupec spojení a levý vnější jako druh spojení. Potom vyberte OK a přidejte slučovací dotaz.

    Screenshot of the Merge configuration screen.

  4. Vyberte tlačítko Přidat cíl dat, které vypadá jako symbol databáze se šipkou nad ní, z nového dotazu hromadné korespondence, který jste právě vytvořili. Pak jako cílový typ vyberte databázi Azure SQL.

    Screenshot highlighting the Add data destination button on the newly created merge query.

  5. Zadejte podrobnosti o připojení k databázi Azure SQL, kde se má publikovat slučovací dotaz. V tomto příkladu můžete použít také databázi AdventureWorksLT , kterou jsme použili jako zdroj dat pro cíl.

    Screenshot showing the Connect to data destination dialog with sample values populated.

  6. Zvolte databázi, do které chcete data uložit, a zadejte název tabulky a pak vyberte Další.

    Screenshot showing the Choose destination target window.

  7. Výchozí nastavení můžete ponechat v dialogovém okně Zvolit nastavení cíle a stačí vybrat Uložit nastavení bez provedení jakýchkoli změn.

    Screenshot showing the Choose destination settings dialog.

  8. Pokud chcete tok dat publikovat, vyberte možnost Publikovat zpět na stránce editoru toku dat.

    Screenshot highlighting the Publish button on the dataflow gen2 editor.

Přesun dat pomocí datových kanálů

Teď, když jste vytvořili tok dat Gen2, můžete s ním pracovat v kanálu. V tomto příkladu zkopírujete data vygenerovaná z toku dat do textového formátu v účtu služby Azure Blob Storage.

Krok 1: Vytvoření nového datového kanálu

  1. V pracovním prostoru vyberte Nový a pak vyberte Datový kanál.

    Screenshot showing where to start a new data pipeline.

  2. Pojmenujte svůj kanál a pak vyberte Vytvořit.

    Screenshot showing the new pipeline creation prompt with a sample pipeline name.

Krok 2: Konfigurace toku dat

  1. Výběrem toku dat na kartě Aktivity přidejte do datového kanálu novou aktivitu toku dat.

    Screenshot showing where to select the Dataflow option.

  2. Vyberte tok dat na plátně kanálu a potom kartu Nastavení. V rozevíracím seznamu vyberte tok dat, který jste vytvořili dříve.

    Screenshot showing how to choose the dataflow you created.

  3. Vyberte Uložit a pak spuštěním spuštění toku dat na začátku naplníte sloučenou tabulku dotazů, kterou jste navrhli v předchozím kroku.

    Screenshot showing where to select Run.

Krok 3: Přidání aktivity kopírování pomocí pomocníka pro kopírování

  1. Začněte tím, že vyberete Kopírovat data na plátně a otevřete nástroj Copy Assistant . Nebo v rozevíracím seznamu Kopírovat data napásu karet vyberte Použít pomocníka pro kopírování dat.

    Screenshot showing the two ways to access the copy assistant.

  2. Vyberte zdroj dat tak, že vyberete typ zdroje dat. V tomto kurzu použijete Službu Azure SQL Database použitou dříve při vytváření toku dat k vygenerování nového slučovacího dotazu. Posuňte se dolů pod ukázkové nabídky dat a vyberte kartu Azure a pak Azure SQL Database. Pokračujte výběrem možnosti Další .

    Screenshot showing where to choose a data source.

  3. Výběrem možnosti Vytvořit nové připojení vytvořte připojení ke zdroji dat. Vyplňte požadované informace o připojení na panelu a zadejte AdventureWorksLT pro databázi, kde jsme vygenerovali slučovací dotaz v toku dat. Pak vyberte Další.

    Screenshot showing where to create a new connection.

  4. Vyberte tabulku, kterou jste vygenerovali v předchozím kroku toku dat, a pak vyberte Další.

    Screenshot showing how to select from available tables.

  5. Jako cíl zvolte Azure Blob Storage a pak vyberte Další.

    Screenshot showing the Azure Blob Storage data destination.

  6. Výběrem možnosti Vytvořit nové připojení vytvořte připojení k cíli. Zadejte podrobnosti o připojení a pak vyberte Další.

    Screenshot showing how to create a connection.

  7. Vyberte cestu ke složce a zadejte název souboru a pak vyberte Další.

    Screenshot showing how to select folder path and file name.

  8. Dalším výběrem možnosti Další přijměte výchozí formát souboru, oddělovač sloupců, oddělovač řádků a typ komprese, volitelně včetně záhlaví.

    Screenshot showing the configuration options for the file in Azure Blob Storage.

  9. Dokončete nastavení. Pak proces dokončete tak, že zkontrolujete a vyberete Uložit a spustit .

    Screenshot showing how to review copy data settings.

Krok 5: Návrh datového kanálu a uložení pro spouštění a načítání dat

  1. Chcete-li spustit aktivitu kopírování po aktivitě toku dat, přetáhněte z úspěšné aktivity toku dat do aktivity kopírování. Aktivita kopírování se spustí pouze po úspěšném provedení aktivity toku dat.

    Screenshot showing how to make the dataflow run take place after the copy activity.

  2. Vyberte Uložit a uložte datový kanál. Pak vyberte Spustit a spusťte datový kanál a načtěte data.

    Screenshot showing where to select Save and Run.

Naplánování spuštění kanálu

Jakmile dokončíte vývoj a testování kanálu, můžete ho naplánovat tak, aby se spustil automaticky.

  1. Na kartě Domů v okně editoru kanálu vyberte Plán.

    A screenshot of the Schedule button on the menu of the Home tab in the pipeline editor.

  2. Podle potřeby nakonfigurujte plán. V tomto příkladu je naplánováno spuštění kanálu denně do konce roku v 18:00.

    Screenshot showing the schedule configuration for a pipeline to run daily at 8:00 PM until the end of the year.

Tato ukázka ukazuje, jak vytvořit a nakonfigurovat tok dat Gen2 pro vytvoření slučovacího dotazu a jeho uložení do databáze Azure SQL a následné kopírování dat z databáze do textového souboru ve službě Azure Blob Storage. Naučili jste se:

  • Vytvoření toku dat.
  • Transformujte data pomocí toku dat.
  • Vytvořte datový kanál pomocí toku dat.
  • Seřazení provádění kroků v kanálu
  • Kopírování dat pomocí Nástroje pro kopírování
  • Spusťte a naplánujte datový kanál.

V dalším kroku se dozvíte další informace o monitorování spuštění kanálu.