Sampling med høy tetthet i Power BI

Samplingsalgoritmen i Power BI forbedrer visualobjekter som eksempelviser data med høy tetthet. Du kan for eksempel opprette et linjediagram fra detaljhandelens salgsresultater, hver butikk har mer enn 10 000 salgskvitteringer hvert år. Et linjediagram med slik salgsinformasjon vil eksempeldata fra dataene for hver butikk og opprette et linjediagram med flere serier som dermed representerer de underliggende dataene. Pass på å velge en meningsfull representasjon av disse dataene for å illustrere hvordan salget varierer over tid. Denne praksisen er vanlig når du visualiserer data med høy tetthet. Detaljene for datautvalg med høy tetthet er beskrevet i denne artikkelen.

Screenshot of line charts, showing the high-density sampling data.

Merk

Samplingsalgoritmen med høy tetthet som er beskrevet i denne artikkelen, er tilgjengelig både i Power BI Desktop og Power Bi-tjeneste.

Slik fungerer sampling med høy tetthet

Tidligere valgte Power BI en samling av eksempeldatapunkter i hele utvalget av underliggende data på en deterministisk måte. Med data med høy tetthet for et visualobjekt som strekker seg over ett kalenderår, kan det for eksempel vises 350 eksempeldatapunkter i visualobjektet, som hver ble valgt for å sikre at hele dataområdet var representert i visualobjektet. Hvis du vil forstå hvordan dette skjer, kan du tenke deg å tegne en aksjekurs over en periode på ett år og velge 365 datapunkter for å opprette et visualobjekt for linjediagram. Det er ett datapunkt for hver dag.

I den situasjonen er det mange verdier for en aksjekurs innenfor hver dag. Selvfølgelig er det en daglig høy og lav, men de kan skje når som helst i løpet av dagen når aksjemarkedet er åpent. Hvis det underliggende dataeksempelet ble tatt klokken 10:30 og 12:00 hver dag, får du et representativt øyeblikksbilde av de underliggende dataene, for eksempel prisen kl. 22:30 og 12:00. Øyeblikksbildet kan imidlertid ikke fange opp den faktiske høye og lave aksjekursen for det representative datapunktet den dagen. I den situasjonen og andre er samplingen representativ for de underliggende dataene, men den fanger ikke alltid opp viktige punkter, noe som i dette tilfellet vil være daglige aksjekurshøyder og nedturer.

Per definisjon er data med høy tetthet samplet for å opprette visualiseringer rimelig raskt som reagerer på interaktivitet. For mange datapunkter på et visualobjekt kan slå det ned og kan forringe synligheten av trender. Hvordan dataene er samplet er det som driver opprettelsen av samplingsalgoritmen for å gi den beste visualiseringsopplevelsen. I Power BI Desktop gir algoritmen den beste kombinasjonen av respons, representasjon og klar bevaring av viktige punkter i hver enkelt sektor.

Slik fungerer algoritmen for ny linjeprøvetaking

Algoritmen for linjeutvalg med høy tetthet er tilgjengelig for linjediagram og visualobjekter for arealdiagrammer med en kontinuerlig x-akse.

For et visualobjekt med høy tetthet deler Power BI dataene intelligent inn i deler med høy oppløsning, og deretter velger du viktige punkter for å representere hver del. Denne prosessen med å dele høyoppløselige data justeres for å sikre at det resulterende diagrammet er visuelt uutslettelig fra å gjengi alle de underliggende datapunktene, men er raskere og mer interaktivt.

Minimums- og maksimumsverdier for visualobjekter med høy tetthet

For alle visualiseringer gjelder følgende begrensninger:

  • 3500 er maksimalt antall datapunkter som vises på de fleste visualobjekter, uavhengig av antall underliggende datapunkter eller serier, se unntak i listen nedenfor. Hvis du for eksempel har 10 serier med 350 datapunkter hver, har visualobjektet nådd grensen for maksimalt antall datapunkter. Hvis du har én serie, kan den ha opptil 3500 datapunkter hvis algoritmen anser det som det beste utvalget for de underliggende dataene.

  • Det er maksimalt 60 serier for alle visualobjekter. Hvis du har mer enn 60 serier, kan du dele opp dataene og opprette flere visualobjekter med 60 eller færre serier hver. Det er god praksis å bruke en slicer til å vise bare segmenter av dataene, men bare for bestemte serier . Hvis du for eksempel viser alle underkategoriene i forklaringen, kan du bruke en slicer til å filtrere etter den generelle kategorien på samme rapportside.

Maksimalt antall datagrenser er høyere for følgende visualobjekttyper, som er unntak fra grensen på 3500 datapunkt:

  • Maksimalt 150 000 datapunkter for R-visualobjekter.
  • 30 000 datapunkter for Azure Map-visualobjekter.
  • 10 000 datapunkter for enkelte punktdiagramkonfigurasjoner (punktdiagrammer er standard til 3500).
  • 3500 for alle andre visualobjekter ved hjelp av sampling med høy tetthet. Noen andre visualobjekter kan visualisere mer data, men de vil ikke bruke sampling.

Disse parameterne sikrer at visualobjekter i Power BI Desktop gjengis raskt, reagerer raskt på samhandling med brukere og ikke resulterer i utilbørlig beregningskostnad på datamaskinen som gjengir visualobjektet.

Evaluer representative datapunkter for visualobjekter med høy tetthet

Når antallet underliggende datapunkter overskrider maksimalt antall datapunkter som kan representeres i visualobjektet, begynner en prosess som kalles binning . Binning deler de underliggende dataene i grupper som kalles hyller , og begrenser deretter disse hyllene.

Algoritmen oppretter så mange hyller som mulig for å opprette størst mulig detaljnivå for visualobjektet. I hver hylle finner algoritmen minimums- og maksimumsdataverdien for å sikre at viktige og betydelige verdier, for eksempel ytterpunkter, fanges opp og vises i visualobjektet. Basert på resultatene av binning og påfølgende evaluering av dataene av Power BI, er minimumsoppløsningen for x-aksen for visualobjektet fastslått for å sikre maksimal granularitet for visualobjektet.

Som nevnt tidligere er minste detaljnivå for hver serie 350 poeng, og maksimum er 3500 for de fleste visualobjekter. Unntakene er oppført i forrige avsnitt.

Hver hylle representeres av to datapunkter, som blir hyllens representative datapunkter i visualobjektet. Datapunktene er den høye og lave verdien for denne hyllen. Ved å velge høy og lav sikrer binning-prosessen at en viktig høy verdi eller betydelig lav verdi fanges opp og gjengis i visualobjektet.

Hvis det høres ut som mye analyse for å sikre at sporadiske ytterpunkter fanges opp og vises riktig i visualobjektet, er du riktig. Det er den eksakte årsaken til algoritmen og binningprosessen.

Verktøytips og sampling med høy tetthet

Det er viktig å være oppmerksom på at denne binning-prosessen, som resulterer i at minimums- og maksimumsverdien i en gitt hylle blir registrert og vist, kan påvirke hvordan verktøytips viser data når du holder pekeren over datapunktene. For å forklare hvordan og hvorfor dette skjer, la oss gå tilbake til vårt eksempel om aksjekurser.

La oss si at du oppretter et visualobjekt basert på aksjekurs, og du sammenligner to forskjellige aksjer, som begge bruker sampling med høy tetthet. De underliggende dataene for hver serie har mange datapunkter. Kanskje du for eksempel registrerer aksjekursen hvert sekund av dagen. Samplingsalgoritmen med høy tetthet utfører binning for hver serie uavhengig av den andre.

Nå la oss si at den første aksjen hopper opp i pris kl 12:02, så raskt kommer tilbake ned 10 sekunder senere. Det er et viktig datapunkt. Når binning forekommer for denne aksjen, er den høye på 12:02 et representativt datapunkt for denne hyllen.

Men for den andre aksjen, 12:02 var ikke en høy eller en lav i bin som inkluderte den tiden. Kanskje den høye og lave for hyllen som inkluderer 12:02 skjedde tre minutter senere. I slike tilfeller, når linjediagrammet opprettes og du holder pekeren over 12:02, ser du en verdi i verktøytipset for den første aksjen. Dette skyldes at den hoppet 12:02, og den verdien ble valgt som den høye datapunktet for den hyllen. Du vil imidlertid ikke se noen verdi i verktøytipset kl. 12:02 for den andre aksjen. Det er fordi den andre aksjen ikke hadde en høy eller lav for hyllen som inkluderte 12:02. Derfor er det ingen data å vise for den andre aksjen kl. 12:02, og dermed vises ingen verktøytipsdata.

Denne situasjonen skjer ofte med verktøytips. De høye og lave verdiene for en bestemt hylle samsvarer sannsynligvis ikke perfekt med de jevnt skalerte x-akseverdipunktene, og verktøytipset viser ikke verdien.

Slik aktiverer du sampling med høy tetthet

Algoritmen er aktivert som standard. Hvis du vil endre denne innstillingen, går du til formateringsruten i Generelt-kortet , og langs bunnen ser du glidebryteren for sampling med høy tetthet. Velg glidebryteren for å slå eller av.

Screenshot of a high-density line sampling, showing pointers to the Formatting pane, General, and High Density Sampling.

Hensyn og begrensninger

Algoritmen for sampling med høy tetthet er en viktig forbedring av Power BI, men det er noen hensyn du må vite når du arbeider med verdier og data med høy tetthet.

  • På grunn av økt detaljnivå og binning-prosessen, kan verktøytips bare vise en verdi hvis de representative dataene er justert med markøren. Hvis du vil ha mer informasjon, kan du se delen Verktøytips og sampling med høy tetthet i denne artikkelen.

  • Når størrelsen på en generell datakilde er for stor, eliminerer algoritmen serier (forklaringselementer) for å imøtekomme den maksimale begrensningen for dataimport.

    • I denne situasjonen bestiller algoritmen forklaringsserie alfabetisk, og starter listen over forklaringselementer i alfabetisk rekkefølge til maksimumsverdien for dataimporten er nådd, og importerer ikke flere serier.
  • Når et underliggende datasett har mer enn 60 serier, maksimalt antall serier, bestiller algoritmen serien alfabetisk og eliminerer serier utover den 60. alfabetisk bestilte serien.

  • Hvis verdiene i dataene ikke er av typen numerisk eller dato/klokkeslett, bruker ikke Power BI algoritmen og går tilbake til den forrige samplingsalgoritmen med ikke høy tetthet.

  • Vis elementer uten datainnstilling støttes ikke med algoritmen.

  • Algoritmen støttes ikke når du bruker en live-tilkobling til en modell som driftes i SQL Server Analysis Services versjon 2016 eller tidligere. Det støttes i modeller som driftes i Power BI eller Azure Analysis Services.