Profilovanie údajov v službe Power BI

Dokončené

Profilovanie údajov spočíva v skúmaní drobných rozdielov v údajoch: určovanie anomálií, skúmanie a vývoj základných štruktúr údajov a vytváranie dotazov na štatistiku údajov, ako napríklad počet riadkov, distribúcie hodnôt, minimálne a maximálne hodnoty, priemery a podobne. Tento koncept je dôležitý, pretože umožňuje tvarovať a usporadúvať údaje tak, aby bola práca s údajmi a identifikovanie ich rozloženia čo najjednoduchšie. Vďaka tomu úlohu pracovať s údajmi na strane klienta a vytvoriť prvky zostavy zvládnete takmer bez námahy.

Predpokladajme, že vyvíjate zostavy pre tím predaja v organizácii.  Nie ste si istí, ako sú údaje štruktúrované a rozložené do tabuliek. Pred vývojom vizuálov chcete preto údaje najprv profilovať.  Vďaka funkciám služby Power BI sú tieto úlohy používateľsky príjemné a jednoducho použiteľné.

Preskúmanie štruktúr údajov

Kým začnete skúmať údaje v Editore Power Query, mali by ste najprv získať informácie o základných štruktúrach údajov, v ktorých sú údaje usporiadané. Aktuálny sémantický model môžete zobraziť na karte Model na Power BI Desktop.

Príklad štruktúry údajov a pruh pása s nástrojmi

Na karte Model môžete upraviť konkrétne vlastnosti stĺpca a tabuľky tak, že vyberiete tabuľku alebo stĺpce. Údaje môžete transformovať pomocou tlačidla Transformovať údaje, ktorým prejdete na Editor Power Query. Okrem toho môžete spravovať, vytvárať, upravovať a odstraňovať vzťahy medzi rôznymi tabuľkami pomocou Správa vzťahov, ktorá sa nachádza na páse s nástrojmi.

Vyhľadanie anomálií v údajoch a štatistika údajov

Keď vytvoríte pripojenie k zdroju údajov a vyberiete položku Transformovať údaje, prejdete do Editora Power Query, kde môžete určiť, či sa v údajoch vyskytujú anomálie.  Anomálie údajov sú odľahlé hodnoty v rámci vašich údajov. Určenie týchto anomálií vám môže pomôcť identifikovať, ako vyzerá normálna distribúcia údajov a či treba niektoré údajové body preskúmať podrobnejšie. Editor Power Query určuje anomálie údajov pomocou funkcie Distribúcia stĺpcov.

Na páse s nástrojmi vyberte položku Zobraziť a v časti Ukážka údajov si môžete vybrať z niekoľkých možností. Ak chcete porozumieť anomáliám a štatistikám údajov, vyberte možnosti Distribúcia stĺpcov, Kvalita stĺpcov a Profil stĺpca .  Na nasledujúcom obrázku sú znázornené štatistiky, ktoré sa zobrazia.

Kvalita stĺpcov a Distribúcia stĺpcov sú zobrazené v grafoch nad stĺpcami údajov. Kvalita stĺpcov zobrazuje percento platných, chybných a prázdnych údajov. V ideálnej situácii chcete, aby bolo 100 percent údajov platných.

Anomálie a štatistika údajov pre stĺpec údajov

Poznámka

Power Query predvolene preskúma prvých 1 000 riadkov množiny údajov. Ak to chcete zmeniť, vyberte stav profilovania v stavovom riadku a vyberte položku Profilovanie stĺpcov na základe celej množiny údajov. ]

Distribúcia stĺpcov zobrazuje distribúciu údajov v rámci stĺpca a počet odlišných a jedinečných hodnôt. Z oboch môžete zistiť podrobnosti o počtoch údajov. Odlišné hodnoty sú všetky rôzne hodnoty v stĺpci vrátane duplikátov a hodnôt null, zatiaľ čo jedinečné hodnoty nezahŕňajú duplikáty ani hodnoty null. Odlišným spôsobom v tejto tabuľke je celkový počet hodnôt, ktoré obsahuje , a jedinečne určuje, koľko týchto hodnôt sa zobrazuje iba raz.

Profil stĺpca poskytuje podrobnejší pohľad na štatistiku v rámci stĺpcov pre prvých 1 000 riadkov údajov. Tento stĺpec obsahuje niekoľko rôznych hodnôt vrátane počtu riadkov, čo je dôležité, ak overujete, či import údajov prebehol úspešne. Ak by napríklad pôvodná databáza mala 100 riadkov, mohli by ste pomocou tohto počtu overiť, či sa naozaj všetkých 100 riadkov správne importovalo. Tento počet riadkov okrem toho zobrazuje, koľko riadkov služba Power BI považovala za odľahlé hodnoty, prázdne riadky a reťazce a minimum a maximum, vďaka čomu zistíte najmenšiu a najväčšiu hodnotu v stĺpci. Toto rozlišovanie je dôležité najmä v prípade číselných údajov, pretože vás okamžite upozorní, ak maximálna hodnota prekračuje to, čo v podniku považujete za "maximum". Táto hodnota upúta vašu pozornosť, čo znamená, že sa potom môžete zamerať na podrobnejšie skúmanie údajov.  Ak sú údaje v textovom stĺpci, ako je zobrazené na predchádzajúcom obrázku, minimálna hodnota je prvá hodnota a maximálna hodnota je posledná hodnota (pri zoradení hodnôt v abecednom poradí).

Graf Distribúcia hodnôt okrem toho zobrazuje počet pre každú jedinečnú hodnotu v danom konkrétnom stĺpci. Pri pohľade na graf na predchádzajúcom obrázku si všimnite, že distribúcia indikuje, že Anthony Gross sa v stĺpci SalesPerson zobrazuje najčastejšie a Lily Code sa zobrazuje najmenej často. Tieto informácie sú obzvlášť dôležité, pretože identifikujú odľahlé hodnoty.  Ak sa niektorá hodnota v stĺpci zobrazuje výrazne častejšie ako iné hodnoty, funkcia Distribúcia hodnôt umožňuje presne označiť miesto, kde máte začať svoje skúmanie, aby ste zistili, prečo je to tak.

Číselný stĺpec Štatistiky stĺpcov obsahuje aj údaje o počte núl a hodnôt null, ako aj o priemernej hodnote v stĺpci, smerodajnej odchýlke hodnôt v stĺpci a počte párnych a nepárnych hodnôt v stĺpci. Tieto štatistiky vám poskytnú predstavu o distribúcii údajov v rámci stĺpca a sú dôležité, pretože vytvárajú súhrn údajov v stĺpci a predstavujú východiskový bod, ak potrebujete určiť odľahlé hodnoty.

Pri prezeraní údajov faktúr si napríklad všimnete, že graf Distribúcia hodnôt zobrazuje, že niekdaľkí predajcovia v stĺpci SalesPerson (Predajca ) sa v údajoch vyskytujú rovnaký počet krát. Okrem toho si všimnete, že rovnaká situácia nastala aj v stĺpci Profit (Zisk ) aj v niekoľkých ďalších tabuľkách. V priebehu skúmania zistíte, že údaje, ktoré ste použili, boli nesprávne a treba ich obnoviť, čo hneď aj urobíte. Bez toho, že by ste si prezreli tento graf, by ste chybu zrejme neobjavili tak rýchlo, preto je distribúcia hodnôt tak dôležitá.

Keď dokončíte úpravy v Editor Power Query a ste pripravení začať s vytváraním vizuálov, vráťte sa na kartu Domov na páse s nástrojmi Editor Power Query. Vyberte položku Zavrieť & Použiť, čím sa vrátite do Power BI Desktop a použijú sa aj všetky úpravy/transformácie stĺpcov.

Teraz ste určili prvky, ktoré v rámci profilovania údajov v službe Power BI zahŕňajú načítanie údajov do služby Power BI, vypočúvanie vlastností stĺpcov s cieľom získať prehľad a vykonať ďalšie úpravy typu a formátu údajov v stĺpcoch, vyhľadanie anomálií údajov a zobrazenie štatistiky údajov v Editor Power Query. S týmito vedomosťami môžete medzi svoje znalosti zahrnúť aj schopnosť účinne a efektívne študovať údaje.