Profilovanie údajov v službe Power BI
Profilovanie údajov spočíva v skúmaní drobných rozdielov v údajoch: určovanie anomálií, skúmanie a vývoj základných štruktúr údajov a vytváranie dotazov na štatistiku údajov, ako napríklad počet riadkov, distribúcie hodnôt, minimálne a maximálne hodnoty, priemery a podobne. Tento koncept je dôležitý, pretože umožňuje tvarovať a usporadúvať údaje tak, aby bola práca s údajmi a identifikovanie ich rozloženia čo najjednoduchšie. Vďaka tomu úlohu pracovať s údajmi na strane klienta a vytvoriť prvky zostavy zvládnete takmer bez námahy.
Predpokladajme, že vyvíjate zostavy pre tím predaja v organizácii. Nie ste si istí, ako sú údaje štruktúrované a rozložené do tabuliek. Pred vývojom vizuálov chcete preto údaje najprv profilovať. Vďaka funkciám služby Power BI sú tieto úlohy používateľsky príjemné a jednoducho použiteľné.
Preskúmanie štruktúr údajov
Kým začnete skúmať údaje v Editore Power Query, mali by ste najprv získať informácie o základných štruktúrach údajov, v ktorých sú údaje usporiadané. Aktuálny dátový model si môžete pozrieť na karte Model v aplikácii Power BI Desktop.
Na karte Model môžete upraviť konkrétne vlastnosti stĺpca a tabuľky tak, že tabuľku alebo stĺpce vyberiete a na transformáciu údajov použijete tlačidlo Transformovať údaje, ktorým prejdete do Editora Power Query. Okrem toho môžete spravovať, vytvárať, upravovať a odstraňovať vzťahy medzi rôznymi tabuľkami pomocou položky Spravovanie vzťahov, ktorú nájdete na páse s nástrojmi.
Vyhľadanie anomálií v údajoch a štatistika údajov
Keď vytvoríte pripojenie k zdroju údajov a vyberiete položku Transformovať údaje, prejdete do Editora Power Query, kde môžete určiť, či sa v údajoch vyskytujú anomálie. Anomálie údajov sú odľahlé hodnoty v rámci vašich údajov. Určenie týchto anomálií vám môže pomôcť identifikovať, ako vyzerá normálna distribúcia údajov a či treba niektoré údajové body preskúmať podrobnejšie. Editor Power Query určuje anomálie údajov pomocou funkcie Distribúcia stĺpcov.
Na páse s nástrojmi vyberte položku Zobrazenie a v časti Ukážka údajov si môžete vybrať z niekoľkých možností. Ak chcete porozumieť anomáliám a štatistikám údajov, začiarknite možnosti Distribúcia stĺpcov, Kvalita stĺpcov a Profil stĺpca. Na nasledujúcom obrázku sú znázornené štatistiky, ktoré sa zobrazia.
Kvalita stĺpcov a Distribúcia stĺpcov sa zobrazujú v grafoch nad stĺpcami údajov. Kvalita stĺpcov zobrazuje percentuálny podiel platných, chybných a prázdnych údajov. V ideálnej situácii chcete, aby bolo 100 percent údajov platných.
Poznámka
Power Query predvolene preskúma prvých 1 000 riadkov množiny údajov. Ak to chcete zmeniť, vyberte stav profilovania v stavovom riadku a vyberte položku Profilovanie stĺpcov na základe celej množiny údajov. ]
Distribúcia stĺpcov zobrazuje distribúciu údajov v rámci stĺpca a počet odlišných a jedinečných hodnôt. Z oboch môžete zistiť podrobnosti o počtoch údajov. Odlišné hodnoty sú všetky rôzne hodnoty v stĺpci vrátane duplikátov a hodnôt null, zatiaľ čo jedinečné hodnoty nezahŕňajú duplikáty ani hodnoty null.Jedinečnou v tejto tabuľke je celkový počet hodnôt, ktoré obsahuje , a jedinečne určuje, koľko týchto hodnôt sa zobrazuje iba raz.
Profil stĺpca Poskytuje podrobnejší pohľad na štatistiku v rámci stĺpcov pre prvých 1 000 riadkov údajov. Tento stĺpec obsahuje niekoľko rôznych hodnôt vrátane počtu riadkov, čo je dôležité, ak overujete, či import údajov prebehol úspešne. Ak by napríklad pôvodná databáza mala 100 riadkov, mohli by ste pomocou tohto počtu overiť, či sa naozaj všetkých 100 riadkov správne importovalo. Tento počet riadkov okrem toho zobrazuje, koľko riadkov služba Power BI považuje za odľahlé hodnoty, prázdne riadky a reťazce a minimum a maximum, vďaka čomu zistíte najmenšiu a najväčšiu hodnotu v stĺpci. Toto rozlišovanie je dôležité najmä v prípade číselných údajov, pretože vás okamžite upozorní, ak maximálna hodnota výrazne prevyšuje to, čo v podniku považujete za „maximum“. Táto hodnota upúta vašu pozornosť, čo znamená, že sa následne môžete zamerať na podrobnejšie preskúmanie uvedených údajov. Ak sú údaje v textovom stĺpci, ako je zobrazené na predchádzajúcom obrázku, minimálna hodnota je prvá hodnota a maximálna hodnota je posledná hodnota (pri zoradení hodnôt v abecednom poradí).
Graf Distribúcia hodnôt okrem toho zobrazuje počet pre každú jedinečnú hodnotu v danom konkrétnom stĺpci. Keď sa pozriete na graf na predchádzajúcom obrázku, všimnite si, že distribúcia indikuje, že Anthony Grosse sa v stĺpci SalesPerson (Predajca) zobrazuje najčastejšie a Lily Code sa v ňom zobrazuje najmenej často. Tieto informácie sú obzvlášť dôležité, pretože identifikujú odľahlé hodnoty. Ak sa niektorá hodnota v stĺpci zobrazuje výrazne častejšie ako iné hodnoty, funkcia Distribúcia hodnôt umožňuje presne označiť miesto, kde máte začať svoje skúmanie, aby ste zistili, prečo je to tak.
Číselný stĺpec Štatistiky stĺpcov obsahuje aj údaje o počte núl a hodnôt null, ako aj o priemernej hodnote v stĺpci, smerodajnej odchýlke hodnôt v stĺpci a počte párnych a nepárnych hodnôt v stĺpci. Tieto štatistiky vám poskytnú predstavu o distribúcii údajov v rámci stĺpca a sú dôležité, pretože vytvárajú súhrn údajov v stĺpci a predstavujú východiskový bod, ak potrebujete určiť odľahlé hodnoty.
Pri prezeraní údajov faktúr si napríklad všimnete, ako graf Distribúcia hodnôt zobrazuje, že niekoľkí predajcovia v stĺpci SalesPerson (Predajca) sa v údajoch vyskytujú rovnaký počet krát. Okrem toho si všimnete, že rovnaká situácia nastala aj v stĺpci Profit (Zisk) aj v niektorých ďalších tabuľkách. V priebehu skúmania zistíte, že údaje, ktoré ste použili, boli nesprávne a treba ich obnoviť, čo hneď aj urobíte. Bez toho, že by ste si prezreli tento graf, by ste chybu zrejme neobjavili tak rýchlo, preto je distribúcia hodnôt tak dôležitá.
Keď dokončíte úpravy v Editore Power Query a ste pripravení začať s tvorbou vizuálov, vráťte sa na kartu Domov na páse s nástrojmi Editora Power Query. Výberom položky Zavrieť a použiť sa vrátite do aplikácie Power BI Desktop a zároveň sa použijú všetky úpravy/transformácie stĺpcov.
Teraz ste určili prvky, ktoré vplývajú na profilovanie údajov v službe Power BI vrátane načítania údajov do služby power BI, preskúmania vlastností stĺpcov s cieľom získať prehľad a vykonať ďalšie úpravy typu a formátu údajov v stĺpci, vyhľadania anomálií údajov a zobrazenia štatistiky údajov v Editore Power Query. S týmito vedomosťami môžete medzi svoje znalosti zahrnúť aj schopnosť účinne a efektívne študovať údaje.
Potrebujete pomoc? Pozrite si nášho sprievodcu riešením problémov alebo odošlite konkrétne pripomienky nahlásením problému.

