Sampling med høy linjetetthet i Power BI

Algoritmen for sampling i Power BI forbedrer visualobjekter som sampler data med høy tetthet. Du kan for eksempel opprette et linjediagram over butikkens salgsresultater, hvor hver butikk har mer enn ti tusen salgskvitteringer hvert år. Et linjediagram med slik salgsinformasjon vil velge ut data (velge en meningsfull representasjon av dataene til å illustrere hvordan salg varierer over tid) fra dataene for hver butikk, og opprette et linjediagram med flere serier som dermed representerer underliggende data. Dette er vanlig praksis for å visualisere data med høy tetthet. Detaljer om datasampling med høy tetthet er beskrevet i denne artikkelen.

Skjermbilde av linjediagrammer, som viser utvalgsdata med høy tetthet.

Obs!

Algoritmen Sampling med høy tetthet som er beskrevet i denne artikkelen, og er tilgjengelig i, både Power BI Desktop og Power BI-tjenesten.

Slik fungerer sampling med høy linjetetthet

Tidligere valgte Power BI en samling av utvalgte datapunkter i hele utvalget av underliggende data på en deterministisk måte. For data med høy tetthet kan det på et visualobjekt som dekker ett kalenderår, være 350 utvalgte datapunkter som vises i visualobjektet som ble valgt til å sikre at hele utvalget av data (den totale dataserien av underliggende data) ble representert i visualobjektet. Hvis du vil forstå hvordan dette skjer, kan du tenke deg at du noterer ned aksjekursen over en ettårsperiode, og velger 365 datapunkter til å opprette et visualobjekt for linjediagram (det er ett datapunkt for hver dag).

Det finnes mange verdier for en aksjekurs innenfor hver dag i denne situasjonen. Selvfølgelig er det daglige høyde- og lavpunkt, men de kan oppstå når som helst i løpet av dagen sålenge børsmarkedet er åpent. Hvis det underliggende data-eksemplet ble tatt kl. 10:30 og kl. 12:00 hver dag, får du et representativt øyeblikksbilde av de underliggende dataene (pris kl. 10:30 og kl. 12:00) for sampling med høy linjetetthet, men det fanger kanskje ikke det faktiske høy- og lavpunkt for aksjekursen for det representative datapunktet (den dagen). I denne situasjonen – og andre – vil samplingen være representativ for de underliggende dataene, men det vil ikke alltid fange opp viktige punkter, som i dette tilfellet vil være høy- og lavpunkter for daglig aksjekurs.

Per definisjon samples data med høy tettet for å opprette visualiseringer rimelig raskt som er responsive til interaktivitet. For mange datapunkter på en visuell effekt kan kjøre den fast, og kan gi dårlig synlighet av trender. Så hvordan slike data blir samplet, er det som driver opprettelsen av algoritmen for sampling for å gi den beste visualiseringsopplevelsen. I Power BI Desktop er algoritmen nå forbedret for å gi den beste kombinasjonen av svartid, representasjon, og klar bevaring av viktige punkter i hver tidssektor.

Slik fungerer den nye algoritemen for linjesampling

Den nye algoritmen for linjesampling med høy linjetetthet er tilgjengelig for linjediagrammet og visualobjekter for arealdiagram med en kontinuerlig x-akse.

For visualobjekter med høy tetthet vil Power BI intelligent dele dataene i deler med høy oppløsning, og deretter plukke viktige punkter til å representere hver del. Prosessen med oppdeling av høyoppløselige data er spesielt tilpasset for å sikre at det resulterende diagrammet er visuelt umulig å skille fra gjengivelse av alle de underliggende datapunktene, men mye raskere og mer interaktivt.

Minimums- og maksimumsverdiene for visualobjekter med høy linjetetthet

For en gitt visualisering gjelder følgende begrensninger for visualobjekter:

  • 3500 er maksimalt antall datapunkter som vises på visualobjektet, uavhengig av antallet underliggende datapunkt eller serier (se unntakene i følgende punktliste). Dermed, hvis du har 10 serier med 350 datapunkter hver, har visualobjektet nådd sin maksimale grense for totale datapunkter. Hvis du har én serie, kan den ha opptil 3500 datapunkter hvis den nye algoritmen anses som det beste utvalget for de underliggende dataene.

  • Det er maksimalt 60 serier for et hvert visualobjekt. Hvis du har mer enn 60 serier, kan du dele opp dataene og opprette flere visualobjekter med 60 eller færre serier i hver. Det er god praksis å bruke en slicer til å bare vise deler av dataene (bare bestemte serier). Hvis du for eksempel viser alle underkategorier i forklaringen, kan du bruke en slicer til å filtrere etter den samlede kategorien på samme rapportside.

Det maksimale antallet datagrenser er høyere for følgende visualobjekttyper, som er unntak fra grensen på 3500 datapunkter:

  • maksimalt 150 000 datapunkter for R-visualobjekter
  • 30 000 datapunkter for Power BI visualobjekter.
  • 10 000 datapunkter for punktdiagrammer (punktdiagrammer har som standard 3500)
  • 3500 for alle andre visualobjekter

Disse parameterne sikrer at visualobjekter i Power BI Desktop gjengir svært raskt, er følsom for interaksjon med brukere, og at de ikke resulterer med overbelastning av hengende databehandling på datamaskinen som gjengir den visuelle effekten.

Evaluering av representative datapunkter for visualobjekter med høy linjetetthet

Når antall underliggende datapunkter overstiger maksimalt antall datapunkter som kan vises i visualobjektet, begynner en prosess kalt binning, som deler de underliggende dataene i grupper kalt hyller og deretter iterativt redigerer disse hyllene.

Algoritmen oppretter så mange hyller som mulig for å opprette den største punkttettheten for visualobjektet. Innenfor hver hylle finner algoritmen minimum og maksimum dataverdi, for å sikre at viktige og betydelige verdier (for eksempel ytterpunktene) registreres og vises i visualobjektet. Basert på resultatene av binningen og etterfølgende evalueringen av dataene av Power BI, bestemmes den minste oppløsningen for x-aksen for visualobjektet – for å sikre maksimal punkttetthet for visualobjektet.

Som nevnt tidligere er minste tetthet for hver serie 350 punkter, største er 3500 for de fleste visualobjekter, med de unntakene som ble angitt i forrige avsnitt.

Hver hylle representeres av to datapunkter, som blir den hyllens representative datapunkt i visualobjektet. Datapunktene er ganske enkelt de høyeste- og laveste verdiene for denne hyllen, og ved å velge høyest og lavest vil binning-prosessen sikre at enhver viktig høy verdi, eller betydelige lav verdi registreres og gjengis i visualobjektet.

Hvis dette høres ut som mye analyse for å sikre at ett ytterpunkt blir fanget opp, og vises riktig i visualobjektet, er det riktig, men det er nettopp årsaken til den nye algoritme- og binning-prosessen.

Verktøytips og sampling med høy linjetetthet

Det er viktig å være oppmerksom på at denne binning-prosessen, som resulterer i at en minimum og maksimum verdi i en gitt hylle blir registrert og vist, kan påvirke hvordan verktøytips viser data når du holder pekeren over datapunktene. For å forklare hvorfor dette oppstår, kan vi gå tilbake til eksempelet vårt om aksjekurser.

La oss si at du oppretter et visualobjekt basert på aksjekurs, og at du sammenligner to forskjellige aksjer, som begge bruker Sampling med Høy tetthet. De underliggende dataene for hver serie har mange datapunkter (kanskje du registrerer aksjekursen hvert sekund hele dagen). Algoritmens sampling med høy linjetetthet med utføring av binning for hver serie er uavhengig av hverandre.

La oss nå si at den første aksjen hopper i pris kl. 12:02, og deretter kommer raskt ned igjen ti sekunder senere. Det vil være et viktig datapunkt. Når binning forekommer for den aksjen, vil høydepunktet 12:02 være et representativt datapunkt for denne hyllen.

Men for den andre aksjen var 12:02 verken høyt eller lavt i hyllen som inkluderte det tidspunktet. Kanskje høyt og lavt for hyllen som inkluderer 12:02 oppstod tre minutter senere. Når linjediagrammet blir opprettet i denne situasjonen, og du holder pekeren over 12:02, vil du se en verdi i verktøytipset for den første aksjen (fordi den hoppet ved 12:02, og denne verdien er valgt som denne hyllens høyeste datapunkt), men du vil ikke se noen verdier i verktøytips på 12:02 for den andre aksjen. Dette er fordi den andre aksjen verken hadde et høy -eller lavpunkt for hyllen som inkludert 12:02. Så det finnes ingen data å vise for den andre aksjen ved 12:02, og derfor vil ingen verktøytips-data vises.

Dette skjer ofte med verktøytips. Høye og lave verdier for en gitt hylle kan kanskje ikke samsvare helt med verdipunktene for en jevnt skalert x-akse, og slike verktøytips viser derfor ikke verdien.

Slik slår du på sampling med høy linjetetthet

Ny algoritme er aktivert til som standard. Hvis du vil endre denne innstillingen, kan du gå til ruten Formatering på kortet Generelt, og langs bunnen ser du veksleknapp for glidebryter, kalt Sampling med høy tetthet. Skyv denne til av hvis du vil deaktivere den.

Skjermbilde av et linjediagram med høy tetthet som viser pekere til formateringsruten Generelt og Utvalg med høy tetthet.

Viktige faktorer og begrensninger

Den nye algoritmen for sampling med høy linjetetthet er en viktig forbedring til Power BI, men det finnes noen hensyn du trenger å vite om når du arbeider med verdier for høy tetthet og data.

  • På grunn av økt punkttetthet og binning-prosessen kan Verktøytips kanskje bare vise én verdi hvis den representative dataen er justert med markøren. Se avsnittet Verktøytips og sampling med høy linjetetthet i denne artikkelen for mer informasjon.

  • Når størrelsen på en total datakilde er for stor, vil den nye algoritmen fjerne serien (forklaringselementer) for å imøtekomme begrensningene med maksimal dataimport.

    • I denne situasjonen sorterer den nye algoritmen forklaringsserier i alfabetisk rekkefølge, starter nedover i listen over elementer for forklaring i alfabetisk rekkefølge, inntil dataimportens maksimum er nådd, og importerer ikke flere serier.
  • Når et underliggende datasett har mer enn 60 serier (maksimalt antall serier, som beskrevet tidligere), vil den nye algoritmen sortere serien alfabetisk, og eliminere serier utover den 60. alfabetisk bestilte serien.

  • Hvis verdiene i dataene ikke er av typen numeriske eller dato/klokkeslett, vil ikke Power BI bruke den nye algoritmen, og vil gå tilbake til forrige (ikke sample med høy tetthet) algoritmen.

  • Innstillingen Vis elementer uten data støttes ikke med den nye algoritmen.

  • Ny algoritme støttes ikke når du bruker en live-tilkobling til en modell som er driftet av SQL Server Analysis Services (versjon 2016 eller tidligere). Det støttes i modeller som er driftet av Power BI eller Azure Analysis Services.

Neste trinn

For informasjon om sampling med høy tetthet i punktdiagrammer kan du se følgende artikkel.