Rychlý start: Vytvoření prvního toku dat pro získání a transformaci dat

Toky dat jsou samoobslužná cloudová technologie pro přípravu dat. V tomto článku vytvoříte první tok dat, získáte data pro tok dat a pak data transformujete a publikujete tok dat.

Požadavky

Před spuštěním jsou vyžadovány následující požadavky:

Vytvoření toku dat

V této části vytváříte svůj první tok dat.

  1. Přepněte do prostředí datové továrny .

    Screenshot with the data factory experience emphasized.

  2. Přejděte do pracovního prostoru Microsoft Fabric.

    Screenshot of the workspaces window where you navigate to your workspace.

  3. Vyberte Nový a pak vyberte Dataflow Gen2.

    Screenshot with the Dataflow Gen2 selection emphasized.

Získat data

Pojďme získat nějaká data. V tomto příkladu získáváte data ze služby OData. K získání dat do toku dat použijte následující postup.

  1. V editoru toku dat vyberte Získat data a pak vyberte Další.

    Screenshot with the Get Data option selected and More emphasized in the drop-down box.

  2. Ve výběru zdroje dat vyberte Zobrazit více.

    Screenshot of Get data source with View more emphasized.

  3. V části Nový zdroj vyberte jako zdroj dat jiný>objekt OData.

    Screenshot of Get data source with the Other category and the OData connector emphasized.

  4. Zadejte adresu URL https://services.odata.org/v4/northwind/northwind.svc/a pak vyberte Další.

    Screenshot of the OData data source where you enter the data URL.

  5. Vyberte tabulky Objednávky a Zákazníci a pak vyberte Vytvořit.

    Screenshot of the Power Query navigator with the Customers and Orders tables emphasized.

Další informace o možnostech získání dat a funkcí najdete v tématu Získání přehledu dat.

Použití transformací a publikování

Právě jste načetli data do prvního toku dat, blahopřejeme! Teď je čas použít několik transformací, aby se tato data přenesla do požadovaného tvaru.

Tuto úlohu budete dělat v editoru Power Query. Podrobný přehled editoru Power Query najdete v uživatelském rozhraní Power Query.

Při použití transformací a publikování postupujte takto:

  1. Přejděte do globálních možností> Možnosti domovské>stránky a ujistěte se, že jsou povolené nástroje pro profilaci dat.

    Screenshot of Global options with the Column profile selections emphasized.

    Také se ujistěte, že jste povolili zobrazení diagramu pomocí možností na kartě Zobrazení na pásu karet editoru Power Query nebo výběrem ikony zobrazení diagramu v pravém dolním rohu okna Power Query.

    Screenshot of the overall look of Power Query diagram view.

  2. V tabulce Objednávky vypočítáte celkový počet objednávek na zákazníka. Chcete-li dosáhnout tohoto cíle, vyberte sloupec CustomerID v náhledu dat a pak vyberte seskupit podle na kartě Transformace na pásu karet.

    Screenshot showing the Orders table selected, and Group by emphasized in the Transform tab.

  3. V rámci skupiny podle provedete počet řádků jako agregaci. Další informace o možnostech Seskupit podle najdete v tématu Seskupování nebo shrnutí řádků.

    Screenshot of Group by, with the Count rows operation selected.

  4. Po seskupení dat v tabulce Objednávky získáme tabulku se dvěma sloupci s ID zákazníka a započítáme jako sloupce.

    Screenshot of the two column table.

  5. Dále chcete zkombinovat data z tabulky Zákazníci s počtem objednávek na zákazníka. Pokud chcete zkombinovat data, vyberte dotaz Zákazníci v zobrazení diagramu a pomocí nabídky "⋮" otevřete dotazy sloučení jako novou transformaci.

    Screenshot of the dataflow editor, with the vertical ellipsis of the Customers table and Merge queries as new emphasized.

  6. Nakonfigurujte operaci sloučení, jak je znázorněno na následujícím snímku obrazovky, a to tak, že jako odpovídající sloupec v obou tabulkách vyberete CUSTOMERID. Pak vyberte OK.

    Screenshot of the Merge window.

    Snímek obrazovky s oknem Sloučit s levou tabulkou pro sloučení nastavenou na tabulku Customers (Zákazníci) a pravou tabulkou pro sloučení nastavenou na tabulku Orders (Objednávky). Sloupec CustomerID (ID zákazníka) je vybraný pro tabulky Customers (Zákazníci) i Orders (Objednávky). Typ spojení je také nastaven na levý vnější. Všechny ostatní výběry jsou nastavené na výchozí hodnotu.

  7. Při provádění slučovacích dotazů jako nové operace získáte nový dotaz se všemi sloupci z tabulky Zákazníci a jedním sloupcem s vnořenými daty z tabulky Objednávky.

    Screenshot of the dataflows editor with the new Merge query added to the right of the Customers and Orders tables.

  8. V tomto příkladu vás zajímá jenom podmnožina sloupců v tabulce Zákazníci. Tyto sloupce vyberete pomocí zobrazení schématu. V pravém dolním rohu editoru toků dat povolte zobrazení schématu v přepínacím tlačítku.

    Screenshot of the dataflows editor with the schema view button emphasized in the bottom-right corner.

  9. Zobrazení schématu poskytuje prioritní zobrazení informací o schématu tabulky, včetně názvů sloupců a datových typů. Zobrazení schématu obsahuje sadu nástrojů schématu, které jsou k dispozici prostřednictvím kontextové karty pásu karet. V tomto scénáři vyberete sloupce CustomerID( CompanyName) a Orders (2), pak vyberete tlačítko Odebrat sloupce a pak vyberete Odebrat další sloupce na kartě Nástroje schématu.

    Screenshot of the schema view showing all of the available column names, with the CustomerID, CompanyName, and Orders (2) columns emphasized.

    Screenshot of the schema tools menu with Remove other columns emphasized.

  10. Sloupec Objednávky (2) obsahuje vnořené informace vyplývající z operace sloučení, kterou jste provedli před několika kroky. Teď přepněte zpět do zobrazení dat tak , že vyberete tlačítko Zobrazit zobrazení dat vedle tlačítka Zobrazit zobrazení schématu v pravém dolním rohu uživatelského rozhraní. Potom pomocí transformace Rozbalit sloupec v záhlaví sloupce Objednávky (2) vyberte sloupec Count .

    Screenshot for using data view.

  11. Jako konečnou operaci chcete seřadit zákazníky na základě jejich počtu objednávek. Vyberte sloupec Počet a pak na pásu karet vyberte tlačítko Sloupec pořadí na kartě Přidat sloupec.

    Screenshot of the dataflows editor with the Count column selected.

  12. Ponechte výchozí nastavení ve sloupci pořadí. Potom tuto transformaci použijte výběrem tlačítka OK .

    Screenshot of the Rank window with all default settings displayed.

  13. Teď přejmenujte výsledný dotaz jako seřazení zákazníci pomocí podokna Nastavení dotazu na pravé straně obrazovky.

    Screenshot of the dataflows editor with the Ranked Customers name emphasized under the query settings properties.

  14. Dokončili jste transformaci a kombinování dat. Teď tedy nakonfigurujete jeho nastavení výstupního cíle. V dolní části podokna Nastavení dotazu vyberte Zvolit cíl dat.

    Screenshot of the dataflows editor with the location of the Data destination selection emphasized.

  15. Pro účely tohoto kroku můžete nakonfigurovat výstup do jezera, pokud máte k dispozici, nebo tento krok přeskočit, pokud ne. V tomto prostředí můžete kromě metody update (Append nebo Replace) nakonfigurovat cílové jezero a tabulku pro výsledky dotazu.

    Screenshot of the Connect to data destination window with lakehouse selected.

    Screenshot of the Choose destination settings window.

  16. Váš tok dat je teď připravený k publikování. Zkontrolujte dotazy v zobrazení diagramu a pak vyberte Publikovat.

    Screenshot of the dataflows editor with the Publish button on the lower-right side emphasized.

    Teď se vrátíte do pracovního prostoru. Ikona číselníku vedle názvu toku dat označuje, že probíhá publikování. Po dokončení publikování je tok dat připravený k aktualizaci.

    Důležité

    Když se v pracovním prostoru vytvoří první tok dat Gen2, zřídí se položky Lakehouse a Warehouse společně s souvisejícími koncovými body analýzy SQL a sémantickými modely. Tyto položky jsou sdíleny všemi toky dat v pracovním prostoru a jsou nutné, aby tok dat Gen2 fungoval, neměl by být odstraněn a nejsou určeny k přímému použití uživateli. Položky jsou podrobností implementace toku dat Gen2. Položky nejsou v pracovním prostoru viditelné, ale můžou být přístupné v jiných prostředích, jako jsou poznámkové bloky, koncový bod analýzy SQL, Lakehouse a Warehouse. Položky můžete rozpoznat podle jejich předpony v názvu. Předpona položek je DataflowsStaging.

  17. V pracovním prostoru vyberte ikonu Naplánovat aktualizaci .

    Screenshot of the workspace with the schedule refresh icon emphasized.

  18. Zapněte plánovanou aktualizaci, vyberte Přidat jiný čas a nakonfigurujte aktualizaci, jak je znázorněno na následujícím snímku obrazovky.

    Screenshot showing how to select another time.

    Snímek obrazovky s možnostmi plánované aktualizace se zapnutou plánovanou aktualizací, frekvencí aktualizace nastavenou na Denní, časovým pásmem nastaveným na koordinovaný univerzální čas a časem nastaveným na 4:00 Tlačítko Zapnuto, další výběr času, vlastník toku dat a tlačítko Použít jsou zvýrazněny.

Vyčištění prostředků

Pokud nebudete tento tok dat dál používat, odstraňte tok dat pomocí následujícího postupu:

  1. Přejděte do pracovního prostoru Microsoft Fabric.

    Screenshot of the workspaces window where you navigate to your workspace.

  2. Vyberte svislé tři tečky vedle názvu toku dat a pak vyberte Odstranit.

    Screenshot with the three vertical dots and the delete option in the drop-down menu emphasized.

  3. Výběrem možnosti Odstranit potvrďte odstranění toku dat.

    Screenshot of the Delete dataflow window, with the Delete button emphasized.

Tok dat v této ukázce ukazuje, jak načíst a transformovat data v toku dat Gen2. Naučili jste se:

  • Vytvořte tok dat Gen2.
  • Transformujte data.
  • Nakonfigurujte nastavení cíle pro transformovaná data.
  • Spusťte a naplánujte datový kanál.

V dalším článku se dozvíte, jak vytvořit první datový kanál.