Laboratórium transformácie údajov

Dokončené

Získanie prístupu k prostrediu

Skôr než začnete toto cvičenie (ak nepokračujete z predchádzajúceho cvičenia), vyberte položku Spustiť cvičenie vyššie.

Do cvičného prostredia ste automaticky prihlásení ako používatelia s údajmi– ai\študentmi.

Teraz môžete začať s týmto cvičením pracovať.

Tip

Ak chcete cvičenie ukotviť, aby sa vyplnil okno, vyberte v hornej časti ikonu PC a potom vyberte položku Prispôsobiť okno do počítača.

Snímka obrazovky cvičenia s vybratou ikonou PC a zvýraznenou možnosťou Prispôsobiť okno počítaču.

Odhadovaný čas na dokončenie tohto cvičenia je 35 minút.

Pripojenie k údajom

  1. Otvorte aplikáciu Power BI Desktop.

  2. Z výzvy vyberte položku Získať údaje.

  3. Zvýraznite Excel a vyberte tlačidlo Pripojenie.

  4. Prejdite do časti D:\Power-BI-Tableau\Lab-02\Data

  5. Otvorte raw_TailspinToys2019-US.xlsx.

  6. Začiarknite políčko pre nasledujúce tabuľky a vyberte položku Načítať.

    • Dbo_Region

    • 2017_Sales

    • 2018_Sales

    • 2019_Sales

    • Podrobnosti o produkte

    Poznámka

    Aký je rozdiel medzi dbo_Region a oblasťou? dbo_Region bola v Excel definovaná ako tabuľka. Region odkazuje na celú kartu Excel s názvom Region (Oblasť).

  7. Všimnite si, že tabuľky načítané pod tablou Polia.

  8. Kliknutím na tabuľku úplne vľavo otvorte tablu Ukážka údajov. Pozrite sa na každú načítanú tabuľku údajov, aby ste sa zoznámili s údajmi. Je niečo, čo by ste zmenili?

    Snímka obrazovky ikony tabuľky na ľavej strane.

Transformácia údajov

  1. Na hornom páse s nástrojmi vyberte položku Transformovať údaje. Otvorí sa Editor Power Query.

    Snímka obrazovky pása s nástrojmi nástroja Power BI so zvýraznenou položkou Transformovať údaje.

  2. Na ľavej strane vyberte dotaz Podrobnosti o produkte. Na pravej strane si poznačte Nastavenia dotazu. Všimnite si, že už existujú použité kroky. Predvolene sa po načítaní súboru Excel zapíše kód jazyka M na správne načítanie údajov a čítanie hlavičiek.

Tabuľka čistých a kontingenčných produktov: transponovanie a orezátie

  1. Údaje o produkte neobsahujú hlavičky stĺpcov, obsahujú hlavičky riadkov. S tým sa len ťažko pracuje.

  2. Na páse s nástrojmi Transformovať vyberte položku Transponovať.

  3. Na páse s nástrojmi Domov vyberte položku Použiť prvý riadok ako hlavičky. Teraz máte tabuľku dimenzií pre produkt. Premenujte tabuľku a dotaz Product (Produkt) v časti Vlastnosti na pravej strane.

  4. Údaje o kategórii produktov nevyzerajú úplne správne. Môžeš to vyčistiť?

  5. Sú tu úvodné medzery. Odstráňte medzery na úvodných alebo koncových miestach v údajoch tak, že vyberiete stĺpec a kliknete pravým tlačidlom myši a vyberiete položku Transformovať > Vystrihnúť údaje.

Údaje o predaji: pripojenie

Ak sú všetky historické údaje o predaji na jednom mieste, je jednoduchšie vykresliť časové trendy a vykonávať medziročné výpočty.

  1. Kliknite na položku Sales 2019 (Predaj 2019), prejdite na kartu Domov, vyberte položku Pripojiť dotazy na pravej strane pásu s nástrojmi a vyberte tri alebo viac tabuliek.

  2. Pridajte Predaj 2018, Predaj 2017 v časti Tabuľky do Pridať a vyberte položku OK.

  3. Skontrolujte, či máte všetky tri roky údajov tak, že kliknete na rozbaľovací zoznam pre položku Order Date (Dátum objednávky) a potom kliknete na položku Načítať viac. V tom istom zdroji údajov by sa mali zobraziť dátumy pre rok 2017, 2018 a 2019.

  4. Premenujte dotaz "Predaj".

  5. Kliknite pravým tlačidlom myši na položku Predaj za rok 2017 a vyberte položku Povoliť načítanie, aby nebolo začiarknuté. To isté urobte pre predaj za rok 2018. Ak sa zobrazí upozornenie, vyberte položku Pokračovať. Údaje z rokov 2017 a 2018 nie je potrebné načítať do zostavy viackrát. Všetky informácie sú k dispozícii v novej tabuľke Predaj.

Vytvorenie tabuľky dimenzií zákazníka z údajov o predaji: duplicitné, odstránenie duplikátov, premenovanie stĺpcov

V tabuľke Predaj sú podrobnosti o zákazníkoch. Tieto podrobnosti sú vo všeobecnosti dlhé údaje textových reťazcov opakované pre každého zákazníka. Práve vtedy je tabuľka dimenzií užitočná, čím sa eliminuje potreba ukladať duplicitné informácie.

  1. Kliknite na stĺpec CustomerStateID a presuňte ho doľava od first_name stĺpca.

  2. Duplikujte tabuľku Sales (Predaj). Premenujte položku Predaj (2) na Customer (Zákazník). Vyhľadajte duplicitnú možnosť na tom istom mieste, kde ste nezačiarkli políčko Povoliť načítanie.

  3. Podržte stlačený kláves Ctrl a vyberte nasledujúce stĺpce: CustomerStateID, first_name, last_name a e-mail.

  4. Kliknite pravým tlačidlom myši na hlavičky stĺpcov a vyberte položku Odstrániť ostatné stĺpce.

  5. Vyberte stĺpec e-mailu, kliknite pravým tlačidlom myši na hlavičku stĺpca a vyberte položku Odstrániť duplikáty.

  6. V rozbaľovacom filtri e-mailu vyberte položku Odstrániť prázdne. Týmto sa odstránia prázdne hodnoty a hodnoty null, ktoré nie sú vhodné v tabuľkách dimenzií.

  7. Kliknite pravým tlačidlom myši na hlavičku stĺpca e-mailu a vyberte možnosť "Pridať stĺpce z príkladov..."

  8. Premenujte tento nový stĺpec Company (Spoločnosť).

  9. Začnite dávať názov spoločnosti, o ktorých predpokladáte, že je spojený s e-mailovou adresou zákazníka. Predpokladaná spoločnosť je napríklad spoločnosť fdodgson@contoso.comContoso.

    Snímka obrazovky znázorňujúca pridanie stĺpca z príkladov s vybratou možnosťou E-mail.

  10. Teraz máte k dispozícii jednoduchú tabuľku s dôležitými informáciami o zákazníkoch.

  11. Odstráňte stĺpce CustomerStateID ,,first_name" a "last_name" z dotazu predaja. Nezabudnite odoslať e-mail. Toto je náš jediný jedinečný indikátor na to, aby ste sa pripojili k tabuľke Zákazník k informáciám o predaji.

Kombinovanie dimenzie stavu a oblasti: spojenie

Na StateID máme dva odkazy, no žiadny názov Štát. Customer.CustomerStateID a Sales.OriginationStateID.

  1. Načítajte do Editor Power Query výraz state_lookup.csv.

    Dotaz dbo_Region a state_lookup vytvárajú jednoduché tabuľky dimenzií. Pre jednoduchosť ich skombinujme do novej tabuľky s názvom Geografia.

  2. Vyberte state_lookup dotaz, aby sa state_lookup tabuľka zobrazovala ukážku.

  3. Na hornom páse s nástrojmi vyberte položku Zlúčiť dotazy.

    Snímka obrazovky pása s nástrojmi Editor Power Query so zvýraznenou položkou Zlučovacie dotazy.

  4. Vyberte stĺpec RegionID v tabuľke state_lookup. Pridajte pripojenie k tabuľke Region_dbo a vyberte tiež regionID. Mali by ste vidieť, že v tabuľke state_lookup je zhodných 51 z 51 záznamov.

    Snímka obrazovky dialógového okna Zlúčenie s vybratou možnosťou state_lookup a dbo_Region a nastavením Druh spojenia na možnosť Ľavý vonkajší.

  5. Po spojení tabuliek sú všetky polia z tabuľky "dbo_Region" v jednom stĺpci.

  6. Výberom šípok na odklonenie v hlavičke stĺpca pridajte iba požadované informácie o oblasti. Potom skontrolujte, či je vybratá len položka NázovOblasti. Zrušte začiarknutie políčka "Použiť ako predponu pôvodný názov stĺpca".

    Snímka obrazovky so šípkami napravo od položky Oblasť s rozbaľovacím zoznamom zobrazujúcim vybratú položku RegionName (Názov Oblasti) a možnosť Použiť pôvodný názov stĺpca ako vymazanú predponu.

  7. Premenujte tabuľku state_lookup "Geography" (Geografia).

  8. Odstráňte stĺpec Region ID (ID oblasti).

  9. Keďže potrebné informácie o oblasti sú zahrnuté v tabuľke dimenzií Geografia, nemusíme načítať tabuľku Region (Oblasť). Zrušte začiarknutie políčka "Povoliť načítanie". Keď sa zobrazí upozornenie, vyberte položku Pokračovať. Tieto údaje sme migrovali do dotazu Geografia. Tento zdroj údajov nemôžeme úplne odstrániť, pretože je vstupom do tabuľky Geografia.

Nastavenie vzťahov

  1. Stlačte tlačidlo Zavrieť a použiť. Tým sa zatvorí Editor Power Query a načítajú sa zmeny do Power BI Desktop a všetkých zostáv v tomto súbore.

  2. Vyberte ikonu Dátový model na ľavej strane.

    Snímka obrazovky ikony Dátový model na ľavej strane.

  3. Zmeňte usporiadanie tabuliek tak, aby vyzerali približne ako na obrázku nižšie.

    Snímka obrazovky tabuliek usporiadaných podľa geografie vľavo hore, Zákazník vľavo dolu, Produkt v pravom hornom rohu so spojením k predaju v centre.

  4. V ďalšej ukážke vytvoríme vzťahy medzi týmito tabuľkami.

Ak skončíte skôr,

  • Jediný jedinečný spôsob, ako pripojiť tabuľku Customer k predaju, je pomocou "e-mailu". Nie je efektívne nastaviť vzťahy v dlhých reťazcoch. Môžete vytvoriť pole Customer ID (ID zákazníka), ktoré bude prepojiť obe tabuľky?

Súhrn

V dôsledku tohto cvičenia by ste mali mať k dispozícii nasledujúce zdroje údajov, ktoré sa budú používať v našej zostave.

  • Produkt

  • Geografia

  • Zákazník

  • Sales

Na table modelovania údajov by sa mali zobraziť tieto tabuľky.

Snímka obrazovky tabuliek usporiadaných podľa Geografia v ľavom hornom rohu, Zákazník vľavo dolu, Produkt v pravom hornom rohu pripojený k predaju v centre.

Ak ste mali nejaké problémy, opýtajte sa inštruktora. Tento zošit služby Power BI použijeme na budúce cvičenia a aktivity.

Definície údajov

V Exceli:

ProductDetails.WholesalePrice = What Tailspin Toys paid to make/acquire the product

Sales.UnitPrice = Nezlichované náklady na produkty pre zákazníkov na jednotku

Sales.DiscountAmount = dostupné zľavy, ktoré by sa mali odpočítať od Jednotkovej ceny na jednotku

SaleAmt = diskontovaná cena, ktorú zákazník zaplatí [JednotkováCena] – [ObjemZľavy]