Úvod

Dokončené

Vytvorenie skvelého dátového modelu je jednou z najdôležitejších úloh, ktoré môže vykonať analytik údajov v službe Microsoft Power BI. Ak túto úlohu dobre zvládnete, pomôžete ľuďom lepšie pochopiť vaše údaje, čo obom stranám uľahčí vytváranie hodnotných zostáv v službe Power BI.

Stránky v tomto module sú iba inštruktážne, nie sú k dispozícii žiadne údajové súbory. V cvičeniach budete mať možnosť pracovať so skutočnými údajmi.

Dobrý dátový model ponúka nasledujúce výhody:

  • Údaje sa dajú rýchlejšie preskúmať.

  • Agregácie sa vytvárajú jednoduchšie.

  • Zostavy sú presnejšie.

  • Písanie zostáv trvá kratšie.

  • Zostavy sa budú v budúcnosti udržiavať jednoduchšie.

Poskytnutie súboru pravidiel o tom, čo vytvára dobrý dátový model, je zložité, pretože údaje sú rôzne a ich použitie sa líši. Vo všeobecnosti platí, že menší dátový model je lepší, pretože bude fungovať rýchlejšie a bude jednoduchší na používanie. Definícia toho, čo je menší dátový model, je však rovnako problematická, pretože ide o heuristický a subjektívny koncept.

Menší dátový model sa zvyčajne skladá z menšieho počtu tabuliek a menšieho počtu stĺpcov v každej tabuľke, ktorú používateľ môže zobraziť. Ak importujete všetky potrebné tabuľky z databázy Predaj, ale celkový počet tabuliek je 30, pre používateľa jeho použitie nebude intuitívne. Zbalením týchto tabuliek do piatich sa dátový model stane pre používateľa intuitívnejším, zatiaľ čo práca s tabuľkou so 100 stĺpcami sa mu bude zdať komplikovaná. Odstránenie nepotrebných stĺpcov s cieľom dosiahnuť číslo, s ktorým sa lepšie narába, zvýši pravdepodobnosť, že používateľ bude čítať všetky názvy stĺpcov. Stručne povedané, pri navrhovaní dátových modelov by ste sa mali snažiť o to, aby boli čo najjednoduchšie.

Nasledujúci obrázok predstavuje príklad dátového modelu. Polia obsahujú tabuľky údajov, pričom každá položka riadka v poli predstavuje stĺpec. Riadky, ktoré spájajú jednotlivé polia, predstavujú vzťahy medzi tabuľkami. Tieto vzťahy môžu byť zložité, dokonca aj v takomto zjednodušenom modeli. V dátovom modeli môže ľahko zavládnuť chaos a celkový počet tabuliek v ňom sa môže postupne zvyšovať. Udržiavanie jednoduchého, komplexného a presného údajového modelu vyžaduje neustále úsilie.

Snímka obrazovky znázorňujúca príklad dátového modelu s mnohými vzťahmi.

Vzťahy medzi tabuľkami sú definované prostredníctvom primárnych a cudzích kľúčov. Primárne kľúče sú stĺpce, ktoré identifikujú každý jedinečný údajový riadok, ktorý nie je null. Ak máte napríklad tabuľku Zákazníci, môžete použiť index, ktorý identifikuje každého jedinečného zákazníka. Prvý riadok bude mať ID 1, druhý riadok ID 2 a tak ďalej. Každému riadku je priradená jedinečná hodnota, na ktorú môže odkazovať táto jednoduchá hodnota: primárny kľúč. Tento proces má význam najmä vtedy, keď odkazujete na riadky v inej tabuľke, čo je práve úlohou cudzích kľúčov. Vzťahy medzi tabuľkami sa vytvárajú vtedy, keď máte medzi rôznymi tabuľkami spoločné primárne a cudzie kľúče.

Power BI umožňuje vytvárať vzťahy medzi tabuľkami s rôznymi zdrojmi údajov, čo je výkonná funkcia, pomocou ktorej je možné načítať údaje z jednej tabuľky v Microsoft Exceli a z druhej v relačnej databáze. To vám umožní vytvoriť vzťah medzi týmito dvoma tabuľkami a narábať s nimi ako so zjednotenou množinou údajov.

Teraz, keď ste sa dozvedeli niečo o vzťahoch, ktoré tvoria schému údajov, môžete preskúmať konkrétny typ návrhu schémy – hviezdicovú schému, ktorá je optimalizovaná s cieľom zabezpečiť vysoký výkon a použiteľnosť.

Hviezdicové schémy

Môžete navrhnúť hviezdicovú schému, ktorá údaje zjednoduší. Nie je to jediný spôsob zjednodušenia údajov, je to však populárna metóda, ktorú by mal poznať každý analytik údajov v službe Power BI. V hviezdicovej schéme je každá tabuľka v rámci množiny údajov definovaná ako dimenzia alebo tabuľka faktov, ako je znázornené v nasledujúcom vizuáli.

Ilustrácia hviezdicovej schémy s tabuľkou faktov v strede a tabuľkami dimenzií na každom z piatich bodov.

Tabuľky faktov obsahujú hodnoty pozorovaných údajov alebo udalostí: predajné objednávky, počty produktov, ceny, časy a dátumy transakcií a množstvá. Tabuľky faktov môžu obsahovať niekoľko opakovaných hodnôt. Jeden produkt sa napríklad môže zobraziť viackrát vo viacerých riadkoch, pre rôznych zákazníkov a v rôznych dátumoch. Tieto hodnoty je možné agregovať a vytvoriť z nich vizuály. Vizuálom celkového počtu predajných objednávok je napríklad agregácia všetkých predajných objednávok v tabuľke faktov. Pri tabuľkách faktov je bežné vidieť stĺpce, ktoré sú vyplnené číslami a dátumami. Týmito číslami môžu byť merné jednotky, ako napríklad suma predaja, alebo to môžu byť kľúče, ako napríklad ID zákazníka. Dátumy predstavujú zaznamenaný čas, napríklad dátum objednávky alebo dátum odoslania.

Tabuľky dimenzií obsahujú podrobnosti o údajoch v tabuľkách faktov: produkty, umiestnenia, zamestnanci a typy objednávok. Tieto tabuľky sú spojené s tabuľkou faktov prostredníctvom kľúčových stĺpcov. Tabuľky dimenzií sa používajú na filtrovanie a zoskupovanie údajov v tabuľkách faktov. Tabuľky dimenzií naproti tomu obsahujú jedinečné hodnoty, napríklad jeden riadok pre každý produkt v tabuľke Produkty a jeden riadok pre každého zákazníka v tabuľke Zákazník. Vo vizuáli celkového počtu predajných objednávok môžete údaje zoskupiť tak, že sa vám bude zobrazovať celkový počet predajných objednávok podľa produktov, pričom údaje o produktoch budú v tabuľke dimenzií.

Tabuľky faktov sú zvyčajne oveľa väčšie ako tabuľky dimenzií, pretože v tabuľkách faktov sa vyskytuje množstvo udalostí, ako napríklad individuálny predaj. Tabuľky dimenzií sú zvyčajne menšie, pretože sú obmedzené počtom položiek, ktoré môžete filtrovať a zoskupovať. Rok má napríklad len konkrétny počet mesiacov a Spojené štáty sa skladajú len z určitého počtu štátov.

Vzhľadom na tieto informácie o tabuľkách faktov a tabuľkách dimenzií vás možno zaujíma, ako takýto vizuál vytvoríte v službe Power BI.

Relevantné údaje sa nachádzajú v dvoch tabuľkách, Zamestnanec a Predaj, ako je to znázornené v nasledujúcom dátovom modeli. Vzhľadom na to, že tabuľka Predaj obsahuje hodnoty predajných objednávok, ktoré je možné agregovať, považuje sa za tabuľku faktov. Tabuľka Zamestnanec obsahuje meno konkrétneho zamestnanca, na základe ktorého sa filtrujú predajné objednávky, takže by išlo o tabuľku dimenzií. Spoločný stĺpec medzi dvomi tabuľkami, ktorý je primárnym kľúčom v tabuľke zamestnanca, je EmployeeID (ID zamestnanca), a s jeho použitím môžete vytvoriť vzťah medzi dvoma tabuľkami.

Snímka obrazovky vzťahov medzi dátovými modelmi.

Pri vytváraní tohto vzťahu môžete vytvoriť vizuál podľa požiadaviek, ako je to znázornené na nasledujúcom obrázku. Ak by ste nevytvorili tento vzťah popri zachovaní spoločných čŕt oboch tabuliek, bola by pre vás tvorba vizuálu náročnejšia.

Snímka obrazovky s výsledkom v príklade hviezdicovej schémy.

Hviezdicové schémy a základný dátový model sú základom organizovaných zostáv. Čím viac času strávite vytvorením týchto pripojení a návrhu, tým jednoduchšie bude vytváranie a údržba zostáv.