Osvedčené postupy pri navrhovaní a vývoji zložitých tokov údajov

Ak sa vyvíjaný tok údajov je väčší a zložitejší, tu je niekoľko vecí, ktoré môžete urobiť, aby ste zlepšili svoj pôvodný návrh.

Môžete ho rozdeliť na viaceré toky údajov.

Nerobte všetko v jednom toku údajov. Nielen že jeden, zložitý tok údajov z sťažuje proces transformácie údajov dlhšie, ale aj sťažuje pochopiť a znova použiť tok údajov. Rozdelenie toku údajov do viacerých tokov údajov je možné vykonať oddelením entít v rôznych tokov údajov alebo dokonca jednej entite do viacerých tokov údajov. Koncept vypočítanej entity alebo prepojenej entity môžete použiť na vytvorenie časti transformácie v jednom toku údajov a jej opätovné použitie v iných tokov údajov.

Rozdelenie tokov údajov transformácie údajov z tokov údajov vsunutie/extrakcia

Použitie niektorých tokov údajov len na extrahovanie údajov (t. j. inging tokov údajov)a iné len na transformáciu údajov je užitočné nielen na vytváranie viacrozlišnej architektúry, ale aj na zníženie zložitosti tokov údajov. Niektoré kroky jednoducho extrahuje údaje zo zdroja údajov, napríklad získanie údajov, navigácie a zmeny typov údajov. Oddelením prechodných tokov údajov a tokov údajov transformácie sa vaše toky údajov jednoduchšie vyvíjajú.

Architektúra viacúrovňového toku údajov.

Obrázok znázorňujúci údaje extrahované zo zdroja údajov do vsunutých tokov údajov, kde sú enities uložené buď v úložisku Dataverse, alebo v úložisku Azure Data Lake Storage, sa údaje premiestnia do tokov údajov transformácie, kde sa údaje transformujú a skonvertujú na štruktúru skladu údajov, a potom sa údaje premiestnia do množiny údajov.

Používanie vlastných funkcií

Vlastné funkcie sú užitočné v prípadoch, keď je potrebné vykonať určitý počet krokov v prípade viacerých dotazov z rôznych zdrojov. Vlastné funkcie je možné vyvíjať prostredníctvom grafického rozhrania v Power Query Editore alebo pomocou M skriptu. Funkcie možno opätovne použiť v toku údajov v čo možno najviac entít.

Vlastná funkcia pomáha mať iba jednu verziu zdrojového kódu, takže nemusíte kód duplikovať. V dôsledku toho bude mať Power Query logiku transformácie a celý tok údajov oveľa jednoduchší. Ďalšie informácie nájdete v nasledujúcom blogového príspevku: Jednoduché vlastné funkcie v Power BI Desktop.

Vlastné funkcie.

Umiestniť dotazy do priečinkov

Použitie priečinkov pre dotazy pomáha zoskupiť súvisiace dotazy. Pri vývoji toku údajov strávite trochu času usporiadaním dotazov do priečinkov, ktoré majú zmysel. Pomocou tohto prístupu môžete v budúcnosti ľahšie nájsť dotazy a udržiavanie kódu bude oveľa jednoduchšie.

Používanie vypočítaných entít

Vypočítané entity nielen zhodujú vaše toky údajov, ale aj poskytujú lepší výkon. Keď použijete vypočítanú entitu, ostatné entity, na ktoré sa odkazuje, z nej získali údaje z entity už spracované a uložené. Transformácia bude omnoho jednoduchšiu a rýchlejšia.

Využitie rozšíreného výpočtového nástroja

V prípade tokov údajov vyvinutých v portáli na správu služby Power BI sa uistite, že používate vylepšený nástroj na výpočet tým, že pred vykonaním iných typov transformácií najprv vykonajte spojenia a transformácie filtrov vo vypočítanej entite.

Prerušiť mnoho krokov do viacerých dotazov

Je ťažké sledovať veľký počet krokov v jednej entite. Namiesto toho by ste mali veľký počet krokov rozdeliť na viacero entít. Funkciu Povoliť načítanie môžete použiť pre iné dotazy a zakázať ich, ak sú medzi dotazmi, a v toku údajov načítajte iba finálnu entitu. Ak máte viacero dotazov s menšími krokmi v každom z nich, je jednoduchšie použiť diagram závislosti a sledovať jednotlivé dotazy na ďalšie skúmanie a lepšie sa pre bližšie preskúmanie stoviek krokov v jednom dotaze.

Pridanie vlastností pre dotazy a kroky

Dokumentácia je kľúčom k jednoduchému udržiavať kód. V Power Query môžete do entít a tiež do krokov pridať vlastnosti. Text, ktorý pridáte do vlastností, sa zobrazí ako popis pri ukážete myšou na dotaz alebo krok. Táto dokumentácia vám pomôže zachovať model v budúcnosti. Keď si otvoríte prehľad o tabuľke alebo kroku, môžete lepšie porozumieť tomu, čo sa tu deje, a nie prehodnotiť a zapamätať si, čo ste v tomto kroku urobili.

Uistite sa, že kapacita je v rovnakej oblasti

Toky údajov v súčasnosti nepodporujejú viacero krajín alebo oblastí. Kapacita Premium sa musí vytvoriť v tej istej oblasti ako je váš nájomník služby Power BI.

Lokálne zdroje oddelené od zdrojov cloudu

Odporúčame vytvoriť samostatný tok údajov pre každý typ zdroja, napríklad pre lokálny, cloudový, cloudový SQL Server, Spark a Dynamics 365. Rozdelenie tokov údajov podľa typu zdroja uľahčuje rýchle riešenie problémov a pri obnovovaní tokov údajov obchádza vnútorné limity.

Oddelenie tokov údajov na základe plánovaného obnovenia entít

Ak máte tabuľku predajnej transakcie, ktorá sa aktualizuje v zdrojovom systéme každú hodinu a máte tabuľku mapovania produktov, ktorá sa každý týždeň aktualizuje, môžete tieto dva toky údajov rozdeliť na dva toky údajov s rôznymi plánmi obnovenia údajov.

Vyhýbajte sa plánovaniu obnovenia prepojených entít v tom istom pracovnom priestore

Ak sa vám pravidelne vymkne z tokov údajov, ktoré obsahujú prepojené entity, môže to byť spôsobené príslušným závislým tokom údajov v tom istom pracovnom priestore, ktorý je zablokovaný počas obnovenia toku údajov. Takéto uzamknutie poskytuje prenosové presnosť a zaisťuje, že sa oba toky údajov úspešne obnovujú, môže vám to však blokovať úpravy.

Ak nastavíte samostatný plán pre prepojený tok údajov, toky údajov je možné zbytočne obnoviť a zablokovať vám úpravu toku údajov. Tomuto sa treba vyhnúť dvomi odporúčaniami:

  • Na tok údajov, ktorý sa nachádza v tom istom pracovnom priestore ako zdrojový tok údajov, naplánovať obnovenie.
  • Ak chcete nakonfigurovať plán obnovenia samostatne a chcete sa vyhnúť zablokovaniu, premiestnite tok údajov do samostatného pracovného priestoru.