Rýchla konfigurácia: Vytvorenie prvého toku údajov na získanie a transformáciu údajov

Toky údajov predstavujú samoobslužnú cloudovú technológiu prípravy údajov. V tomto článku vytvoríte svoj prvý tok údajov, získate údaje pre svoj tok údajov, potom transformujete údaje a publikujete tok údajov.

Predpoklady

Pred začatím sa vyžadujú nasledujúce predpoklady:

Vytvorenie toku údajov

V tejto časti vytvárate svoj prvý tok údajov.

  1. Prepnite na prostredie výrobcu údajov.

    Screenshot with the data factory experience emphasized.

  2. Prejdite do pracovného priestoru služby Microsoft Fabric.

    Screenshot of the workspaces window where you navigate to your workspace.

  3. Vyberte položku Nové a potom vyberte položku Tok údajov Gen2.

    Screenshot with the Dataflow Gen2 selection emphasized.

Získať údaje

Poďme získať nejaké údaje. V tomto príklade získavate údaje zo služby OData. Údaje vo svojom toku údajov získate podľa nasledujúcich krokov.

  1. V editore toku údajov vyberte položku Získať údaje a potom vyberte položku Viac.

    Screenshot with the Get Data option selected and More emphasized in the drop-down box.

  2. V časti Vybrať zdroj údajov vyberte položku Zobraziť viac.

    Screenshot of Get data source with View more emphasized.

  3. V časti Nový zdroj vyberte ako zdroj údajov možnosť Iné>OData.

    Screenshot of Get data source with the Other category and the OData connector emphasized.

  4. Zadajte URL adresu https://services.odata.org/v4/northwind/northwind.svc/a potom vyberte položku Ďalej.

    Screenshot of the OData data source where you enter the data URL.

  5. Vyberte tabuľky Orders (Objednávky) a Customers (Zákazníci) a potom vyberte položku Create (Vytvoriť).

    Screenshot of the Power Query navigator with the Customers and Orders tables emphasized.

Ďalšie informácie o získaní údajov a funkciách nájdete v téme Prehľad získavania údajov.

Použitie transformácií a publikovanie

Teraz ste načítali údaje do prvého toku údajov, gratulujeme! Teraz je čas použiť niekoľko transformácií, aby sa tieto údaje mohli dostať do želaného tvaru.

Túto úlohu vykonáte v editore Power Query. Podrobný prehľad editora Power Query nájdete v používateľskom rozhraní Power Query.

Ak chcete použiť transformácie a publikovať, postupujte podľa týchto krokov:

  1. Uistite sa, že nástroje profilovania údajov sú povolené prechodom na položku Globálne možnosti možností domovskej>stránky.>

    Screenshot of Global options with the Column profile selections emphasized.

    Tiež sa uistite, že ste povolili zobrazenie diagramu pomocou možností na karte Zobrazenie na páse s nástrojmi Editora Power Query alebo výberom ikony zobrazenia diagramu v pravej dolnej časti okna power query.

    Screenshot of the overall look of Power Query diagram view.

  2. V tabuľke Objednávky vypočítate celkový počet objednávok na zákazníka. Ak chcete dosiahnuť tento cieľ, vyberte stĺpec CustomerID v ukážke údajov a potom vyberte položku Zoskupiť podľa na karte Transformovať na páse s nástrojmi.

    Screenshot showing the Orders table selected, and Group by emphasized in the Transform tab.

  3. Vykonáte počet riadkov ako agregáciu v rámci funkcie Zoskupiť podľa. Ďalšie informácie o funkciách zoskupiť podľa nájdete v téme Zoskupenie alebo sumarizáciu riadkov.

    Screenshot of Group by, with the Count rows operation selected.

  4. Po zoskupení údajov v tabuľke Orders (Objednávky) získame tabuľku s dvomi stĺpcami CustomerID (ID zákazníka) a Count (Počet ) ako stĺpce.

    Screenshot of the two column table.

  5. V ďalšom kroku budete chcieť skombinovať údaje z tabuľky Customers s počtom objednávok na zákazníka. Ak chcete skombinovať údaje, vyberte dotaz Customers (Zákazníci) v zobrazení diagramu a pomocou ponuky ⋮ získate prístup k zlučovacím dotazom ako k novej transformácii.

    Screenshot of the dataflow editor, with the vertical ellipsis of the Customers table and Merge queries as new emphasized.

  6. Nakonfigurujte operáciu Zlúčenie tak, ako je to znázornené na nasledujúcej snímke obrazovky, výberom položky CustomerID ako zodpovedajúceho stĺpca v oboch tabuľkách. Potom vyberte tlačidlo OK.

    Screenshot of the Merge window.

    Snímka obrazovky okna Zlúčenie s ľavou tabuľkou na zlúčenie nastavenou na tabuľku Zákazníci a pravou tabuľkou na zlúčenie nastavenou na tabuľku Orders. Stĺpec CustomerID je vybratý pre tabuľky Customers (Zákazníci) aj Orders (Objednávky). Okrem toho je vlastnosť Druh spojenia nastavená na možnosť Ľavý vonkajší. Všetky ostatné výbery sú nastavené na predvolenú hodnotu.

  7. Keď vykonáte zlúčiť dotazy ako novú operáciu, získate nový dotaz so všetkými stĺpcami z tabuľky Zákazníci a jeden stĺpec s vnorenými údajmi z tabuľky Orders.

    Screenshot of the dataflows editor with the new Merge query added to the right of the Customers and Orders tables.

  8. V tomto príklade vás zaujíma len podmnožina stĺpcov v tabuľke Zákazníci. Tieto stĺpce vyberiete pomocou zobrazenia schémy. Povoľte zobrazenie schémy v rámci tlačidla prepínača v pravom dolnom rohu editora tokov údajov.

    Screenshot of the dataflows editor with the schema view button emphasized in the bottom-right corner.

  9. Zobrazenie schémy poskytuje zamerané zobrazenie informácií o schéme tabuľky vrátane názvov stĺpcov a typov údajov. Zobrazenie schémy obsahuje množinu nástrojov schémy, ktoré sú k dispozícii prostredníctvom kontextovej karty na páse s nástrojmi. V tomto scenári vyberte stĺpce CustomerID (ID zákazníka), CompanyName (Názov spoločnosti) a Orders (2), potom vyberte tlačidlo Odstrániť stĺpce a potom na karte Nástroje schémy vyberte položku Remove other columns (Odstrániť ostatné stĺpce).

    Screenshot of the schema view showing all of the available column names, with the CustomerID, CompanyName, and Orders (2) columns emphasized.

    Screenshot of the schema tools menu with Remove other columns emphasized.

  10. Stĺpec Orders (2) obsahuje vnorené informácie vyplývajúce z operácie zlúčenia, ktorú ste vykonali pred niekoľkými krokmi. Teraz sa prepnite späť na zobrazenie údajov výberom tlačidla Zobraziť údaje vedľa tlačidla Zobraziť schému v pravom dolnom rohu používateľského rozhrania. Potom v hlavičke stĺpca Orders (2) vyberte stĺpec Počet pomocou transformácie Rozbaliť stĺpec.

    Screenshot for using data view.

  11. Ako poslednú operáciu chcete zoradiť svojich zákazníkov na základe počtu objednávok. Vyberte stĺpec Počet a potom vyberte tlačidlo Poradie na karte Pridať stĺpec na páse s nástrojmi.

    Screenshot of the dataflows editor with the Count column selected.

  12. Ponechajte predvolené nastavenia v stĺpci Poradie. Potom výberom položky OK túto transformáciu použijete.

    Screenshot of the Rank window with all default settings displayed.

  13. Výsledný dotaz teraz premenujte na Zoradených zákazníkov pomocou tably Nastavenia dotazu na pravej strane obrazovky.

    Screenshot of the dataflows editor with the Ranked Customers name emphasized under the query settings properties.

  14. Dokončili ste transformáciu a kombinovanie údajov. Takže teraz nakonfigurujete jej cieľové nastavenia výstupu. Vyberte položku Vybrať cieľové umiestnenie údajov v dolnej časti tably Nastavenia dotazu.

    Screenshot of the dataflows editor with the location of the Data destination selection emphasized.

  15. V tomto kroku môžete nakonfigurovať výstup do svojho jazera, ak máte k dispozícii, alebo tento krok môžete vynechať, ak tak neurobíte. V rámci tohto prostredia môžete pre výsledky dotazu nakonfigurovať cieľový lakehouse a tabuľku okrem metódy update (Pripojiť alebo Nahradiť).

    Screenshot of the Connect to data destination window with lakehouse selected.

    Screenshot of the Choose destination settings window.

  16. Váš tok údajov je teraz pripravený na publikovanie. Skontrolujte dotazy v zobrazení diagramu a potom vyberte položku Publikovať.

    Screenshot of the dataflows editor with the Publish button on the lower-right side emphasized.

    Teraz ste vrátení do pracovného priestoru. Ikona spinner vedľa názvu toku údajov označuje, že publikovanie prebieha. Po dokončení publikovania je váš tok údajov pripravený na obnovenie.

    Dôležité

    Keď sa v pracovnom priestore vytvorí prvý tok údajov Gen2, položky Lakehouse a Warehouse sa poskytujú spolu s ich súvisiacimi koncovými bodmi a sémantickými modelmi analýzy SQL. Tieto položky sú zdieľané všetkými tokmi údajov v pracovnom priestore a sú povinné, aby tok údajov Gen2 fungoval, nemal by sa odstrániť a nie je určený na priame použitie používateľmi. Položky sú podrobnou implementáciou toku údajov Gen2. Položky nie sú viditeľné v pracovnom priestore, ale môžu byť dostupné v iných prostrediach, ako sú napríklad poznámkový blok, koncový bod analýzy SQL, lakehouse a prostredie skladu. Položky môžete rozpoznať podľa ich predpony v názve. Predponou položiek je DataflowsStaging (Toky údajov).

  17. Vo svojom pracovnom priestore vyberte ikonu Naplánovať obnovenie .

    Screenshot of the workspace with the schedule refresh icon emphasized.

  18. Zapnite plánované obnovenie, vyberte položku Pridať iný čas a nakonfigurujte obnovenie tak, ako je znázornené na nasledujúcej snímke obrazovky.

    Screenshot showing how to select another time.

    Snímka obrazovky zobrazujúca možnosti plánovaného obnovenia, pri zapnutom plánovanom obnovení, frekvenciu obnovovania nastavenú na možnosť Denne, časové pásmo nastavené na koordinovaný svetový čas a čas nastavený na 4:00. Všetky možnosti Na tlačidli Pridať iný čas, vlastník toku údajov a tlačidlo Použiť, sú zvýraznené.

Vyčistenie zdrojov

Ak tento tok údajov nechcete naďalej používať, odstráňte tok údajov pomocou týchto krokov:

  1. Prejdite do pracovného priestoru služby Microsoft Fabric.

    Screenshot of the workspaces window where you navigate to your workspace.

  2. Vyberte tri zvislé bodky vedľa názvu toku údajov a potom vyberte položku Odstrániť.

    Screenshot with the three vertical dots and the delete option in the drop-down menu emphasized.

  3. Výberom položky Odstrániť potvrďte odstránenie toku údajov.

    Screenshot of the Delete dataflow window, with the Delete button emphasized.

Tok údajov v tejto ukážke zobrazuje, ako načítať a transformovať údaje v toku údajov Gen2. Naučili ste sa:

  • Vytvorte tok údajov Gen2.
  • Transformovať údaje.
  • Konfigurácia nastavení cieľa pre transformované údaje.
  • Spustite a naplánujte svoj údajový kanál.

Prejdite na ďalší článok a zistite, ako vytvoriť svoj prvý kanál údajov.