Labb för datatransformering

Slutförd

Få åtkomst till din miljö

Innan du startar det här labbet (om du inte fortsätter från ett tidigare labb) väljer du Starta labb ovan.

Du loggas automatiskt in i labbmiljön som data-ai\student.

Nu kan du börja att arbeta med det här labbet.

Tips

Om du vill docka labbmiljön så att den fyller fönstret väljer du datorikonen längst upp och väljer sedan Anpassa fönster till dator.

Skärmbild av labbet med datorikonen markerad och alternativet Anpassa fönster till dator markerat.

Den uppskattade tiden för att slutföra den här labbbbtiden är 35 minuter.

Ansluta till data

  1. Öppna Power BI Desktop.

  2. Välj Hämta data från prompten.

  3. Markera Excel och välj Anslut knappen.

  4. Gå till D:\Power-BI-Tableau\Lab-02\Data

  5. Öppna raw_TailspinToys2019-US.xlsx.

  6. Markera kryssrutan för följande tabeller och välj Läs in.

    • Dbo_Region

    • 2017_Sales

    • 2018_Sales

    • 2019_Sales

    • Produktinformation

    Anteckning

    Vad är skillnaden mellan dbo_Region region? dbo_Region definierades i Excel som en tabell. Region refererar till hela Excel med namnet Region.

  7. Observera att tabellerna som lästs in under fönstret Fält.

  8. Öppna fönstret Dataförhandsgranskning genom att klicka på tabellen längst till vänster. Titta igenom varje datatabell som du har läst in för att bekanta dig med data. Finns det något du skulle ändra?

    Skärmbild av tabellikonen till vänster.

Omvandla data

  1. Välj Transformera data i det övre menyfliksområdet. Då öppnas Power Query redigeraren.

    Skärmbild av menyfliksområdet Power BI med Transformera data markerat.

  2. Välj frågan Produktinformation till vänster. På höger sida noterar du fråge-Inställningar. Observera att det redan finns tillämpade steg. När en fil Excel läses in skrivs M-kod som standard för att läsa in data korrekt och läsa in rubrikerna.

Rensa och pivotera produkttabell: transponera och trimma

  1. Produktdata har inte kolumnrubriker, utan radrubriker. Det här är svårt att arbeta med.

  2. Under menyfliksområdet Transformera väljer du Transponera.

  3. Under menyfliksområdet Start väljer du Använd första raden som rubriker. Nu har du en dimensionstabell för produkten. Byt namn på tabellen och fråga "Produkt" under Egenskaper till höger.

  4. Något ser inte helt rätt ut om "produktkategori"-data. Kan du rensa det här?

  5. Det finns inledande blanksteg. Ta bort inledande eller avslutande blanksteg i dina data genom att markera kolumnen, högerklicka och välja Transformera > Rensa data.

Försäljningsdata: lägg till

Det är enklare att rita tidstrender och utföra beräkningar år för år när alla dina historiska försäljningsdata finns på en enda plats.

  1. Klicka på Sales 2019, gå till fliken Start, välj "Lägg till frågor" till höger om menyfliksområdet och välj Tre eller fler tabeller.

  2. Lägg till Sales 2018, Sales 2017 under "Tables to Add" (Tabeller att lägga till) och välj OK.

  3. Se till att du har alla tre års data genom att klicka på listrutan för Order date (Orderdatum) och klicka på Load More (Läs in mer). Du bör se datum för 2017, 2018 och 2019 i samma datakälla.

  4. Byt namn på frågan "Sales".

  5. Högerklicka på 2017 Sales (Försäljning 2017) och välj "Enable Load" (Aktivera inläsning) så att det är avmarkerat. Gör samma sak för försäljning 2018. Välj Fortsätt om ett varningsfönster visas. Du behöver inte läsa in data från 2017 och 2018 i rapporten flera gånger. All information är tillgänglig i den nya tabellen Försäljning.

Skapa en kunddimensionstabell från försäljningsdata: duplicera, ta bort dubbletter, byt namn på kolumner

Det finns kundinformation i tabellen Försäljning. Den här informationen är vanligtvis långa textsträngsdata som upprepas för varje kund. Det är när en dimensionstabell är användbar, vilket eliminerar behovet av att lagra duplicerad information.

  1. Klicka på och dra kolumnen CustomerStateID till vänster om kolumnen first_name.

  2. Duplicera tabellen Försäljning. Byt namn på Försäljning (2) till Kund. Leta efter dubblettalternativet på samma plats där du avmarkerade Aktivera inläsning.

  3. Håll ned Ctrl och välj följande kolumner: CustomerStateID, first_name, last_name och e-post.

  4. Högerklicka på kolumnrubrikerna och välj Ta bort andra kolumner.

  5. Under markera e-postkolumnen högerklickar du på kolumnrubriken och väljer Ta bort dubbletter.

  6. I listrutan för e-post väljer du Ta bort tom. Detta tar bort tomma värden och null-värden, som inte är bra att ha i dimensionstabeller.

  7. Högerklicka på kolumnrubriken för e-post och välj "Lägg till kolumner från exempel..."

  8. Byt namn på den här nya kolumnen till Företag.

  9. Börja skriva in det företagsnamn som du förutsätter är associerat med kundens e-postadress. Med till exempel fdodgson@contoso.com är det antas att företaget är Contoso.

    Skärmbild av Lägg till kolumn från exempel med E-post valt.

  10. Nu har du en enkel tabell med viktig kundinformation.

  11. Ta bort kolumnerna "CustomerStateID", "first_name" och "last_name" från sales-frågan. Se till att lämna "e-post" det här är vår enda unika indikator för att ansluta tabellen Kund till försäljningsinformationen.

Kombinera tillstånds- och regiondimension: ansluta

Vi har två referenser till StateID, men inget delstatsnamn. Customer.CustomerStateID och Sales.OriginationStateID.

  1. Läs in "state_lookup.csv" i frågeredigeraren.

    Med dbo_Region och state_lookup frågan skapas enkla dimensionstabeller. För enkelhetens skull ska vi kombinera dem till en ny tabell med namnet Geografi.

  2. Välj state_lookup så att state_lookup förhandsgranskas.

  3. Välj Sammanfoga frågor i det övre menyfliksområdet.

    Skärmbild av menyfliksområdet Power Query Editor med Slå ihop frågor markerat.

  4. Välj kolumnen RegionID i den state_lookup tabellen. Lägg till en koppling Region_dbo tabellen och välj Även RegionID. Du bör se att 51 av 51 poster i state_lookup-tabellen matchas.

    Skärmbild av dialogrutan Sammanslå med state_lookup och dbo_Region valt och Kopplings kind inställt på Vänster yttre.

  5. När tabellerna har anslutits finns alla fält från "dbo_Region" i en enda kolumn.

  6. Lägg bara till den Region-information du vill ha genom att välja pilarna för att omdirigera i kolumnrubriken. Kontrollera sedan att endast "RegionName" är markerat. Avmarkera "Använd ursprungligt kolumnnamn som prefix".

    Skärmbild av pilarna till höger om Region med listrutan som visar RegionName valt och Använd det ursprungliga kolumnnamnet som prefix avmarkerat.

  7. Byt namn state_lookup tabellen "Geografi".

  8. Ta bort kolumnen Regions-ID.

  9. Eftersom den regioninformation vi behöver ingår i tabellen geografidimension behöver vi inte läsa in tabellen Region. Avmarkera "Aktivera inläsning". Välj "Fortsätt" när varningsrutan visas. Vi har migrerat dessa data till geografifrågan. Vi kan inte ta bort den här datakällan helt eftersom den är indata i vår geografitabell.

Ange relationer

  1. Tryck på "Stäng och tillämpa". Då stängs frågeredigeraren och ändringarna läses in i Power BI Desktop eventuella rapporter i filen.

  2. Välj ikonen "Datamodell" till vänster.

    Skärmbild av ikonen Datamodell till vänster.

  3. Ordna om tabellerna så att de ser ut ungefär som på bilden nedan.

    Skärmbild av tabeller ordnade med Geografi längst upp till vänster, Kund längst ned till vänster, Produkt längst upp till höger med en koppling till Försäljning i mitten.

  4. I nästa demonstration upprättar vi relationer mellan dessa tabeller.

Om du är klar tidigt

  • Det enda unika sättet att ansluta tabellen Kund till Försäljning är att använda "e-post". Det är inte effektivt att konfigurera relationer på långa strängar. Kan du skapa ett kund-ID-fält för att länka båda tabellerna?

Sammanfattning

Som ett resultat av den här labblabbet bör du ha följande datakällor tillgängliga för användning i vår rapport.

  • Produkt

  • Geografi

  • Kund

  • Sales

I datamodelleringsfönstret bör du se följande tabeller.

Skärmbild av tabeller ordnade med Geografi längst upp till vänster, Kund längst ned till vänster, Produkt längst upp till höger som är ansluten till Försäljning i mitten.

Om du har haft problem kan du be din lärare. Vi använder den här Power BI arbetsboken för framtida labb och aktiviteter.

Datadefinitioner

I Excel:

ProductDetails.WholesalePrice = Vad Tailspin Toys betalat för att göra/förvärva produkten

Sales.UnitPrice = Den icke rabatterade kostnaden för produkten för kunder per enhet

Sales.DiscountAmount = En tillgänglig rabatt som ska subtraheras från Enhetspris per enhet

SaleAmt = Det rabatterade pris som kunden betalar [UnitPrice] – [DiscountAmount]