Profilera data i Power BI

Slutförd

Profilering av data handlar om att studera olika aspekter av dem: att upptäcka avvikelser, undersöka och utveckla underliggande datastrukturer och köra frågor mot datastatistik som antal rader, fördelningar av värden, lägsta och högsta värden och medelvärden. Det här är viktigt eftersom det gör att du kan forma och organisera dina data så att det blir enklare att interagera med dem och identifiera deras fördelning, vilket gör det enklare att arbeta med data i klienterna och utveckla rapportelement.

Anta att du utvecklar rapporter åt säljteamet i din organisation. Du är osäker på hur data är strukturerade i tabellerna, så du vill profilera data bakom kulisserna innan du börjar skapa de visuella objekten. Power BI har funktioner som gör det enkelt att utföra de här uppgifterna.

Undersöka datastrukturer

Innan du börjar undersöka data i Power Query-redigeraren bör du först lära dig om de underliggande datastrukturer som data är ordnade i. Du kan visa den aktuella datamodellen på fliken Modell i Power BI Desktop.

Exempel på datastruktur och menyfliksområdet

På fliken Modell kan du redigera vissa kolumn- och tabellegenskaper genom att markera en tabell eller kolumn, och du kan transformera data med knappen  Transformera data som tar dig till Power Query-redigeraren. Du kan också hantera, skapa, redigera och ta bort relationer mellan olika tabeller med Hantera relationer i menyfliksområdet. 

Hitta avvikelser och datastatistik 

När du har skapat en anslutning till en datakälla och har valt Transformera data kommer du till Power Query-redigeraren där du kan avgöra om det finns starkt avvikande värden i dina data. Sådana avvikelser är extremvärden i datamängden. Genom att fastställa sådana avvikelser kan du identifiera den normala fördelningen och se om det finns vissa datapunkter du måste undersöka ytterligare. Power Query-redigeraren identifierar avvikande värden med funktionen Kolumnfördelning.

Välj Visa i menyfliksområdet. Under Förhandsgranska data kan du välja bland några alternativ. Om du vill se avvikande värden och statistik väljer du alternativen KolumnfördelningKolumnkvalitet och Kolumnprofil. Statistiken visas som i följande bild.

Kolumnkvalitet och  Kolumnfördelning visas i diagrammen ovanför data kolumnerna. Kolumnkvalitet visar procentandelen data som är giltiga, felaktiga och tomma. I en perfekt värld skulle 100 procent av dina data vara giltiga. 

Avvikande värden och datastatistik för en kolumn med data

Anteckning

Som standard Power Query de första 1 000 raderna i datauppsättningen. Om du vill ändra detta väljer du profileringsstatus i statusfältet och väljer Kolumnprofilering baserat på hela datauppsättningen. ]

Kolumnfördelning visar fördelningen av data i kolumnen och räknar antalet distinkta och unika värden, vilket ger information om antalet datapunkter. Distinkta värden är alla värden i en kolumn, inklusive dubbletter och nullvärden, medan unika värden inte räknar med dubbletter eller nullvärden.Därför visar distinkta i den här tabellen det totala **** antalet värden, medan unikt anger hur många av dessa värden som bara visas en gång.

Kolumnprofil   ger dig en mer detaljerad titt på statistiken i kolumnerna för de första 1 000 raderna med data. Den här kolumnen innehåller flera olika värden, bland annat antalet rader vilket är viktigt när du verifierar om importen av dina data lyckades. Om den ursprungliga databasen innehåller 100 rader kan du till exempel använda det här radantalet till att se om 100 rader faktiskt importerades. Dessutom visar det här radantalet hur många rader som Power BI har bedömt vara extremvärden, tomma rader och strängar samt min och max, vilket visar det minsta respektive största värdet i en kolumn. Den här skillnaden är särskilt viktig när det gäller numeriska data, eftersom du omedelbart ser om du har ett största värde som är större än vad som anses vara ”maximalt” i verksamheten. Det här värdet gör dig uppmärksam på sådana datapunkter så att du kan rikta in dig på dem när du tränger djupare ner bland dina data. Om data finns i textkolumnen som i föregående bild används alfabetisk ordning till att avgöra det minsta (första) och största (sista) värdet.

Dessutom visar diagrammet Värdedistribution antalet för varje distinkt värde i den specifika kolumnen. När du tittar på diagrammet i föregående bild kan du se att värdefördelningen indikerar att ”Anthony Grosse” förekommer flest antal gånger i kolumnen SalesPerson och att ”Lily Code” förekommer minst antal gånger. Den här informationen är särskilt viktig eftersom den anger avvikande värden. Om ett värde förekommer mycket oftare än andra värden i en kolumn kan du hitta rätt ställe att börja undersöka det med funktionen Värdefördelning.

I en numerisk kolumn visar  Kolumnstatistik även hur många nollor och nullvärden det finns, kolumnens medelvärde, standardavvikelsen för värdena och antalet jämna och udda värden i kolumnen. Den här statistiken ger dig en uppfattning om kolumnens datafördelning, och det här är viktigt eftersom det ger en sammanfattning av data i kolumnen och fungerar som utgångspunkt när du ska hitta extremvärden.

När du går igenom faktureringsdata märker du till exempel att diagrammet Värdefördelning visar att några säljare i kolumnen SalesPerson förekommer lika många gånger i datamängden. Dessutom ser du att samma situation har inträffat i kolumnen Profit och även i några andra tabeller. Din undersökning visar att du har använt felaktiga data som måste uppdateras, så du går genast vidare med uppdateringen. Om du inte hade sett det här diagrammet kanske du inte hade upptäckt felet lika snabbt, och det är därför värdefördelningen är så viktig. 

När du har utfört ändringarna i Power Query-redigeraren och är redo att börja skapa visuella objekt återgår du till Start i menyfliksområdet i Power Query-redigeraren. Välj Stäng och tillämpa. Då återgår du till Power BI Desktop kan se dina ändringar/transformeringar av kolumnerna.

Nu har du fastställt vilka element som ingår i profileringen av data i Power BI, alltså att läsa in data i Power BI, undersöka kolumnegenskaper för att få klarhet i och göra ytterligare ändringar av kolumndatas typ och format, att hitta avvikande datavärden och att visa datastatistik i Power Query-redigeraren. Sammantaget har du fått ett nytt verktyg för att studera dina data effektivt.