Power BI-bruksscenarioer: Avansert dataforberedelse

Merk

Denne artikkelen er en del av planleggingsserien for power BI-implementering av artikler. Denne serien fokuserer hovedsakelig på Power BI-arbeidsbelastningen i Microsoft Fabric. Hvis du vil ha en innføring i serien, kan du se Planlegging av Power BI-implementering.

Dataforberedelser (noen ganger kalt ETL, som er et akronym for aktiviteter for utpakking, transformering og belastning) innebærer ofte en stor innsats. Tiden, kompetansen og innsatsen som er involvert i innsamling, rengjøring, kombinasjon og berikelse av data, avhenger av kvaliteten og strukturen til kildedataene.

Å investere tid og krefter i sentralisert dataforberedelse bidrar til å:

  • Forbedre gjenbruk og få maksimal verdi fra dataforberedelsesarbeidet.
  • Forbedre muligheten til å gi konsekvente data til flere team.
  • Reduser innsatsnivået som kreves av andre innholdsopprettere.
  • Oppnå skala og ytelse.

Det avanserte dataforberedelsesbruksscenarioet utvides i det selvbetjente dataforberedelsesscenarioet . Avansert dataforberedelse handler om å øke gjenbruk av dataflyt av flere brukere på tvers av ulike team og for ulike brukstilfeller.

Separate arbeidsområder, organisert etter dataflytformål, er nyttige når dataflytutdata leveres til flere semantiske modellopprettere (tidligere kjent som et datasett), spesielt når de er på forskjellige team i organisasjonen. Separate arbeidsområder er også nyttige for å administrere sikkerhetsroller når personene som oppretter og administrerer dataflyter, er forskjellige fra personene som bruker dem.

Merk

Det avanserte scenarioet for dataforberedelse er det andre av scenarioene for klargjøring av data. Dette scenarioet bygger på hva som kan gjøres med sentraliserte dataflyter som beskrevet i det selvbetjente dataforberedelsesscenarioet .

Det avanserte scenarioet for dataforberedelse er ett av de selvbetjente BI-scenariene. Et sentralisert gruppemedlem kan imidlertid bruke teknikkene på samme måte som det som er beskrevet i det administrerte selvbetjente BI-scenarioet . Hvis du vil ha en fullstendig liste over selvbetjente scenarioer, kan du se artikkelen om bruksscenarioer i Power BI.

For kortfattethet dekkes ikke noen aspekter som er beskrevet i emnet innholdssamarbeid og leveringsscenarioer i denne artikkelen. Hvis du vil ha fullstendig dekning, kan du lese disse artiklene først.

Scenariodiagram

Tips

Vi anbefaler at du ser gjennom selvbetjent bruksscenario for klargjøring av data hvis du ikke er kjent med det. Det avanserte selvbetjente scenarioet for klargjøring av data bygger på dette scenarioet.

Fokuset for dette avanserte scenarioet for klargjøring av data er på:

  • Bruken av separate dataflyter basert på formål: oppsamling, transformasjon eller endelig. Vi anbefaler at du bruker komposterbare byggeblokker for å få større gjenbruk, i ulike kombinasjoner, for å støtte bestemte brukerkrav. Komposterbare byggeblokker er beskrevet senere i denne artikkelen.
  • Bruken av separate arbeidsområder som støtter dataflytopprettere eller dataflytforbrukere. Datamodellerere, som bruker dataflyter, kan være på forskjellige team og/eller ha ulike brukstilfeller.
  • Bruk av koblede tabeller (også kalt koblede enheter), beregnede tabeller (også kalt beregnede enheter) og den forbedrede databehandlingsmotoren.

Merk

Noen ganger brukes begrepene semantisk modell og datamodell om hverandre. Vanligvis, fra et Power Bi-tjeneste perspektiv, kalles det semantisk modell. Fra et utviklingsperspektiv kalles det en datamodell (eller modell for kort). I denne artikkelen har begge begrepene samme betydning. På samme måte har en semantisk modelloppretter og en datamodellerer samme betydning.

Diagrammet nedenfor viser en oversikt på høyt nivå over de vanligste brukerhandlingene og Power BI-komponentene som støtter det avanserte scenarioet for klargjøring av data.

Diagrammet viser avansert dataforberedelse, som handler om å forbedre rekkevidden og gjenbrukbarheten til dataflyter. Elementer i diagrammet er beskrevet i tabellen nedenfor.

Tips

Vi oppfordrer deg til å laste ned scenariodiagrammet hvis du vil bygge det inn i presentasjonen, dokumentasjonen eller blogginnlegget, eller skrive det ut som en veggplakat. Fordi det er et SVG-bilde (Scalable Vector Graphics), kan du skalere det opp eller ned uten tap av kvalitet.

Scenariodiagrammet viser følgende brukerhandlinger, verktøy og funksjoner:

Vare Beskrivelse
Element 1. Oppretteren av dataflyten utvikler en samling tabeller i en dataflyt. For en dataflyt som er ment for gjenbruk, er det vanlig (men ikke nødvendig) at oppretteren tilhører et sentralisert team som støtter brukere på tvers av organisasjonsgrenser (for eksempel IT, enterprise BI eller Center of Excellence).
Element 2. Dataflyten kobler til data fra én eller flere datakilder.
Element 3. Noen datakilder kan kreve en lokal datagateway eller VNet-gateway for dataoppdatering, for eksempel de som befinner seg i et privat organisasjonsnettverk. Disse gatewayene brukes både til å redigere dataflyten i Power Query Online og oppdatere dataflyten.
Element 4. Alle de involverte arbeidsområdene har sin lisensmodus satt til Fabric-kapasitet, Premium-kapasitet, Premium per bruker eller Embedded. Disse lisensmodusene tillater bruk av koblede tabeller og beregnede tabeller på tvers av arbeidsområder, som kreves i dette scenarioet.
Element 5. Dataflytopprettere utvikler dataflyter ved hjelp av Power Query Online, som er en nettbasert versjon av Power Query.
Element 6. En oppsamlingsdataflyt opprettes i et arbeidsområde som er dedikert til sentralisert administrasjon av dataflyter. En oppsamlingsdataflyt kopierer rådataene som de er fra kilden. Få, om noen, transformasjoner brukes.
Element 7. En transformasjonsdataflyt (også kjent som en renset dataflyt) opprettes i samme arbeidsområde. Den henter data ved hjelp av koblede tabeller til oppsamlingsdataflyten . Beregnede tabeller inkluderer transformasjonstrinn som klargjør, renser og omformer dataene.
Element 8. Dataflytopprettere har tilgang til å administrere innhold i arbeidsområdet som er dedikert til sentralisert administrasjon av dataflyter.
Element 9. Det finnes ett eller flere andre arbeidsområder som er ment å gi tilgang til den endelige dataflyten, som leverer produksjonsklare data til datamodeller.
Element 10. Den endelige dataflyten opprettes i et arbeidsområde som er tilgjengelig for datamodellerere. Den henter data ved hjelp av koblede tabeller til transformasjonsdataflyten. Beregnede tabeller representerer de klargjorte utdataene som er synlige for datamodellerere som får rollen som visningsprogram for arbeidsområdet.
Element 11. Semantiske modellopprettere (som bruker dataflytutdataene) har visningstilgang til arbeidsområdet som inneholder de endelige dataflytutdataene. Dataflytopprettere har også tilgang til å administrere og publisere innhold i arbeidsområdet (ikke avbildet i scenariodiagrammet).
Element 12. Semantiske modellopprettere bruker den endelige dataflyten som datakildenår de utvikler en datamodell i Power BI Desktop. Når du er klar, publiserer den semantiske modelloppretteren Power BI Desktop-filen (PBIX) som inneholder datamodellen til Power Bi-tjeneste (ikke avbildet i scenariodiagrammet).
Element 13. Administrere innstillinger for stoffadministratorer i administrasjonsportalen.
Element 14. I administrasjonsportalen kan Power BI-administratorer konfigurere Azure-tilkoblinger til å lagre dataflytdata i Azure Data Lake Storage Gen2 -kontoen (ADLS Gen2 ). Innstillinger inkludere å tilordne en lagringskonto på leiernivå og aktivere lagringstillatelser på arbeidsområdenivå.
Element 15. Som standard lagrer dataflyter data ved hjelp av intern lagring som administreres av Power Bi-tjeneste. Datautdata fra dataflyten kan eventuelt lagres i organisasjonens ADLS Gen2-konto.
Element 16. Fabric-administratorer fører tilsyn med og overvåker aktiviteten i Fabric-portalen.

Viktige punkter

Nedenfor finner du noen viktige punkter for å fremheve det avanserte scenarioet for klargjøring av data.

Dataflyt

En dataflyt består av en samling tabeller (også kalt enheter). Hver tabell er definert av en spørring, som inneholder trinnene for klargjøring av data som kreves for å laste tabellen med data. Alt arbeid for å opprette en dataflyt gjøres i Power Query Online. Du kan opprette en dataflyt i flere produkter, inkludert Power Apps, Dynamics 365 Customer Insights og Power BI.

Merk

Du kan ikke opprette dataflyter i et personlig arbeidsområde i Power Bi-tjeneste.

Typer dataflyter

Bruk av komponerbare byggeblokker er et utformingsprinsipp som lar deg administrere, distribuere og sikre systemkomponenter, og deretter bruke dem i ulike kombinasjoner. Å opprette modulære, selvstendige dataflyter som er spesifikke for et formål, er en anbefalt fremgangsmåte. De bidrar til å oppnå gjenbruk av data og virksomhetsskala. Modulære dataflyter er også enklere å administrere og teste.

Tre typer dataflyter vises i scenariodiagrammet: oppsamling av dataflyt, transformasjonsdataflyt og endelig dataflyt.

Sette opp dataflyt

En oppsamlingsdataflyt (noen ganger kalt en datauthentingsdataflyt) kopierer rådata som de er fra kilden. Hvis rådata trekkes ut med minimal transformasjon, betyr det at dataflyter for nedstrøms transformasjon (beskrevet neste) kan bruke oppsamlingsdataflyten som kilde. Denne modulaliteten er nyttig når:

  • Tilgang til en datakilde er begrenset til tidsbegrensede vinduer og/eller til noen få brukere.
  • Tidsmessig konsekvens er ønsket for å sikre at alle nedstrøms dataflyter (og relaterte semantiske modeller) leverer data som ble hentet fra datakilden samtidig.
  • Det er nødvendig å redusere antall spørringer som sendes til datakilden, på grunn av kildesystembegrensninger eller muligheten til å støtte analytiske spørringer.
  • En kopi av kildedataene er nyttig for avstemmingsprosesser og bekreftelser av datakvalitet.

Transformasjonsdataflyt

En transformasjonsdataflyt (noen ganger kalt en renset dataflyt) henter dataene fra koblede tabeller som kobler til den oppsamlingsdataflyten. Det er en anbefalt fremgangsmåte å skille ut transformasjoner fra datauthentingsprosessen.

En transformasjonsdataflyt inkluderer alle transformasjonstrinnene som kreves for å klargjøre og omstrukturere dataene. Det er imidlertid fortsatt fokus på gjenbruk på dette laget for å sikre at dataflyten er egnet for flere brukstilfeller og formål.

Endelig dataflyt

En endelig dataflyt representerer de klargjorte utdataene. Noen ekstra transformasjoner kan forekomme basert på brukstilfellet og formålet. For analyse er en stjerneskjematabell (dimensjon eller fakta) den foretrukne utformingen av den endelige dataflyten.

Beregnede tabeller er synlige for datamodellerere som får rollen som visningsprogram for arbeidsområdet. Denne tabelltypen er beskrevet i typene emne for dataflyttabeller nedenfor.

Merk

Datainnsjøer har ofte soner, som bronse, sølv og gull. De tre typene dataflyter representerer et lignende utformingsmønster. Hvis du vil ta best mulig beslutninger om dataarkitektur, bør du tenke på hvem som skal vedlikeholde dataene, forventet bruk av dataene og kompetansenivået som kreves av personer som har tilgang til dataene.

Arbeidsområder for dataflyter

Hvis du skulle opprette alle dataflyter i ett enkelt arbeidsområde, vil det i betydelig grad begrense omfanget av gjenbruk. Bruk av ett enkelt arbeidsområde begrenser også sikkerhetsalternativene som er tilgjengelige når du støtter flere typer brukere på tvers av team og/eller for ulike brukstilfeller. Vi anbefaler at du bruker flere arbeidsområder. De gir bedre fleksibilitet når du trenger å støtte selvbetjente opprettere fra ulike områder i organisasjonen.

De to arbeidsområdene som vises i scenariodiagrammet inkluderer:

  • Arbeidsområde 1: Den lagrer sentralt administrerte dataflyter (noen ganger kalt et serverdelarbeidsområde). Den inneholder både oppsamlings- og transformasjonsdataflytene fordi de administreres av de samme personene. Dataflytopprettere er ofte fra et sentralisert team, for eksempel IT, BI eller Center of Excellence. De bør tilordnes administrator-, medlems- eller bidragsyterrollen for arbeidsområdet.
  • Arbeidsområde 2: Den lagrer og leverer de endelige dataflytutdataene til forbrukere av dataene (noen ganger kalt et brukerarbeidsområde). Semantiske modellopprettere er ofte selvbetjente analytikere, kraftbrukere eller borgerdataingeniører. De bør tilordnes rollen som visningsprogram for arbeidsområdet fordi de bare trenger å bruke utdataene fra den endelige dataflyten. Hvis du vil støtte semantiske modellopprettere fra ulike områder i organisasjonen, kan du opprette mange arbeidsområder som dette, basert på brukstilfeller og sikkerhetsbehov.

Tips

Vi anbefaler at du går gjennom måter å støtte semantiske modellopprettere på, som beskrevet i det selvbetjente bruksscenarioet for klargjøring av data. Det er viktig å forstå at semantiske modellopprettere fortsatt kan bruke de fullstendige funksjonene i Power Query i Power BI Desktop. De kan velge å legge til spørringstrinn for ytterligere å transformere dataflytdataene eller slå sammen dataflytutdataene med andre kilder.

Typer dataflyttabeller

Tre typer dataflyttabeller (også kalt enheter) er avbildet i scenariodiagrammet.

  • Standardtabell: Spør etter en ekstern datakilde, for eksempel en database. I scenariodiagrammet vises standardtabeller i oppsamlingsdataflyten.
  • Koblet tabell: Refererer til en tabell fra en annen dataflyt. En koblet tabell dupliserer ikke dataene. I stedet tillater den gjenbruk av en standardtabell flere ganger for flere formål. Koblede tabeller er ikke synlige for brukere av arbeidsområdet siden de arver tillatelser fra den opprinnelige dataflyten. I scenariodiagrammet vises koblede tabeller to ganger:
    • I transformasjonsdataflyten for tilgang til dataene i oppsamlingsdataflyten.
    • I den endelige dataflyten for tilgang til dataene i transformasjonsdataflyten.
  • Beregnet tabell: Utfører flere beregninger ved å bruke en annen dataflyt som kilde. Beregnede tabeller tillater tilpassing av utdataene etter behov for individuelle brukstilfeller. I scenariodiagrammet vises beregnede tabeller to ganger:
    • I transformasjonsdataflyten for å utføre vanlige transformasjoner.
    • I den endelige dataflyten for å levere utdata til semantiske modellopprettere. Siden beregnede tabeller beholder dataene på nytt (etter dataflytoppdateringen), kan datamodellerere få tilgang til de beregnede tabellene i den endelige dataflyten. I dette tilfellet bør datamodellerere gis tilgang med rollen som visningsprogram for arbeidsområdet.

Merk

Det finnes mange utformingsteknikker, mønstre og anbefalte fremgangsmåter som kan ta dataflyter fra selvbetjent til bedriftsklar. Dataflyter i et arbeidsområde som har lisensmodusen satt til Premium per bruker eller Premium-kapasitet, kan også dra nytte av avanserte funksjoner. Koblede tabeller og beregnede tabeller (også kalt enheter) er to avanserte funksjoner som er avgjørende for å øke gjenbruken av dataflyter.

Forbedret databehandlingsmotor

Den forbedrede databehandlingsmotoren er en avansert funksjon som er tilgjengelig med Power BI Premium.

Viktig

Til tider refererer denne artikkelen til Power BI Premium eller dets kapasitetsabonnementer (P SKU-er). Vær oppmerksom på at Microsoft for øyeblikket konsoliderer kjøpsalternativer og trekker tilbake Power BI Premium per kapasitet sKU-er. Nye og eksisterende kunder bør vurdere å kjøpe Fabric-kapasitetsabonnementer (F SKU-er) i stedet.

Hvis du vil ha mer informasjon, kan du se Viktige oppdateringer som kommer til Power BI Premium-lisensiering og vanlige spørsmål om Power BI Premium.

Den forbedrede databehandlingsmotoren forbedrer ytelsen til koblede tabeller (innenfor samme arbeidsområde) som refererer til (koble til) dataflyten. Slik får du maksimal nytte av den forbedrede databehandlingsmotoren:

  • Del ut oppsamlings- og transformasjonsdataflytene.
  • Bruk det samme arbeidsområdet til å lagre dataflyter for oppsamling og transformasjon.
  • Bruk komplekse operasjoner som kan spørre om delegering tidlig i spørringstrinnene. Prioritering av sammenleggbare operasjoner kan bidra til å oppnå best mulig oppdateringsytelse.
  • Bruk trinnvis oppdatering for å redusere varighet for oppdateringer og ressursforbruk.
  • Utfør testing tidlig og ofte i utviklingsfasen.

Oppdatering av dataflyt og semantisk modell

En dataflyt er en datakilde for semantiske modeller. I de fleste tilfeller er flere tidsplaner for dataoppdatering involvert: én for hver dataflyt og én for hver semantiske modell. Alternativt er det mulig å bruke DirectQuery fra den semantiske modellen til dataflyten, som krever Power BI Premium og den forbedrede databehandlingsmotoren (ikke avbildet i scenariodiagrammet).

Azure Data Lake Storage Gen2

En ADLS Gen2-konto er en bestemt type Azure-lagringskonto som har hierarkisk navneområde aktivert. ADLS Gen2 har ytelses-, administrasjons- og sikkerhetsfordeler for driftsanalysearbeidsbelastninger. Som standard bruker Power BI-dataflyter intern lagring, som er en innebygd data lake-konto som administreres av Power Bi-tjeneste. Organisasjoner kan eventuelt ta med sin egen datainnsjø ved å koble til en ADLS Gen2-konto i organisasjonen.

Her er noen fordeler ved å bruke din egen datainnsjø:

  • Brukere (eller prosesser) kan få direkte tilgang til dataflytdataene som er lagret i datasjøen. Det er nyttig når gjenbruk av dataflyt skjer utover Power BI. Azure Data Factory kan for eksempel få tilgang til dataflytdataene.
  • Andre verktøy eller systemer kan administrere dataene i datasjøen. I dette tilfellet kan Power BI bruke dataene i stedet for å administrere dem (ikke avbildet i scenariodiagrammet).

Når du bruker koblede tabeller eller beregnede tabeller, må du kontrollere at hvert arbeidsområde er tilordnet samme ADLS Gen2-lagringskonto.

Merk

Dataflytdata i ADLS Gen2 lagres i en Power BI-spesifikk beholder. Denne beholderen er avbildet i diagrammet for selvbetjent dataforberedelse av bruksscenario.

Innstillinger for administrasjonsportal

Det finnes to viktige innstillinger å administrere i administrasjonsportalen:

Konfigurasjon av gateway

Vanligvis kreves en lokal datagateway for å koble til datakilder som befinner seg i et privat organisasjonsnettverk eller et virtuelt nettverk.

En datagateway kreves når:

  • Redigere en dataflyt i Power Query Online som kobler til private organisasjonsdata.
  • Oppdaterer en dataflyt som kobler til private organisasjonsdata.

Tips

Dataflyter krever en sentralisert datagateway i standardmodus. En gateway i personlig modus støttes ikke når du arbeider med dataflyter.

Systemtilsyn

Aktivitetsloggen registrerer brukeraktiviteter som forekommer i Power Bi-tjeneste. Power BI-administratorer kan bruke aktivitetsloggdataene som samles inn til å utføre overvåking for å hjelpe dem med å forstå bruksmønstre og innføring. Aktivitetsloggen er også verdifull for å støtte styringsarbeid, sikkerhetsrevisjoner og samsvarskrav. I det avanserte dataforberedelsesscenarioet er aktivitetsloggdataene nyttige for å spore administrasjon og bruk av dataflyter.

Hvis du vil ha andre nyttige scenarier for å hjelpe deg med implementeringsbeslutninger i Power BI, kan du se artikkelen om bruksscenarioer i Power BI.