Postopna osvežitev in Power Query viri podatkov Data Lake Storage

Postopno osveževanje za vire podatkov, ki temelji na Power Query (predogled) ali Azure Data Lake Storage zagotavlja te prednosti:

  • Hitrejše osveževanje – osvežijo se samo spremenjeni podatki. Na primer, morda se osveži samo zadnjih pet dni zgodovinskega nabora podatkov.
  • Večja zanesljivost – z manjšimi osvežitvami vam ni treba vzdrževati povezav z nestanovitnimi izvornimi sistemi tako dolgo, kar zmanjšuje tveganje za težave s povezavo.
  • Manjša poraba virov – če osvežite le podnabor vseh podatkov, boste učinkoviteje uporabljali računalniške vire in zmanjšali okoljski odtis.

Konfiguracija postopnega osveževanja za vire podatkov na podlagi Power Query (predogled)

[Ta članek je del predizdajne dokumentacije in se lahko spremeni.]

Konfigurirajte poljubno Power Query vir podatkov in Customer Insights - Data za postopno osveževanje podatkov. Vir podatkov mora imeti stolpec primarnega ključa, ki enolično identificira zapise, in stolpec datetime, ki označuje, kdaj so bili podatki nazadnje posodobljeni.

Pomembno

  • To je funkcija predogleda.
  • Poskusne funkcije niso za komercialno uporabo, njihovo delovanje je lahko omejeno. Te funkcije so na voljo še pred uradno izdajo, da lahko stranke predčasno dostopajo do njih in posredujejo povratne informacije.
  1. Ustvarite novo vir podatkov na podlagi Power Query.

  2. Izberite vir podatkov, ki podpira postopno osveževanje, na primer zbirko podatkov Azure SQL.

  3. Izberite tabele, ki jih želite zaužiti.

  4. Dokončajte korake preoblikovanja in izberite Naprej.

  5. V pogovornem oknu Nastavitev postopnega osveževanja izberite Nastavi, da odprete nastavitve postopnega osveževanja. Če izberete Preskoči, vir podatkov osveži celotno nabor podatkov.

    Nasvet

    Postopno osveževanje lahko uporabite tudi pozneje z urejanjem obstoječega vira podatkov.

  6. V nastavitvah postopnega osveževanja konfigurirajte postopno osveževanje za vse tabele, ki ste jih izbrali pri ustvarjanju vir podatkov.

    Konfigurirajte nastavitve postopnega osveževanja.

  7. Izberite tabelo in navedite te podrobnosti:

    • Določite primarni ključ: izberite primarni ključ tabele.
    • Določite polje »zadnja posodobitev«: v tem polju so prikazani samo atributi vrste datuma ali ure. Izberite atribut, ki označuje, kdaj so bili zapisi nazadnje posodobljeni. Ta atribut identificira zapise, ki spadajo v postopno osveževanje časovni okvir.
    • Preverite, ali so na voljo posodobitve vse: določite, kako dolgo naj bo postopno osveževanje časovni okvir.
  8. Izberite Shrani , da dokončate ustvarjanje vir podatkov. Začetno osveževanje podatkov je popolno osveževanje. Po tem se postopno osveževanje podatkov izvaja, kot je konfigurirano v prejšnjem koraku.

Konfiguracija postopnega osveževanja za Azure Data Lake Storage vire podatkov

Microsoft priporoča, da oblika zapisa Delta Lake doseže najboljšo učinkovitost delovanja in rezultate pri delu z velikimi nabori podatkov. Customer Insights - Data zagotavlja povezovalnik, ki je optimiziran za podatke , oblikovanev Delta Laku. Notranji procesi, kot je poenotenje, so optimizirani tako, da postopoma obdelajo samo spremenjene podatke, kar ima za posledico krajše čase obdelave.

Če želite uporabiti postopno sprejemanje in osveževanje za tabelo Data Lake, konfigurirajte to tabelo pri dodajanju ali urejanju Azure Data Lake vir podatkov. Mapa s podatki tabele mora vsebovati te mape:

  • FullData: Mapa s podatkovnimi datotekami z začetnimi zapisi
  • IncrementalData: Mapa z mapami hierarhije datuma/časa v obliki zapisa llll/mm/dd/hh , ki vsebuje postopne posodobitve. Pričakuje se, da bodo mape za leto, mesec, dan in uro sestavljene iz štirih oziroma dveh števk. hh predstavlja uro UTC posodobitev in vsebuje mapi Upserts in Dedelees . Upserts vsebuje podatkovne datoteke s posodobitvami obstoječih zapisov ali novih zapisov. Izbriše vsebuje podatkovne datoteke z zapisi, ki jih je treba odstraniti.

Vrstni red obdelave dodatnih podatkov

Sistem obdela datoteke v mapi IncrementalData po koncu določene ure UTC. Če sistem na primer začne obdelovati postopno osveževanje 21. januarja 2023 ob 8:15, se obdelajo vse datoteke, ki so v mapi 2023/01/21/07 (predstavljajo podatkovne datoteke, shranjene od 7. do 8. ure). Vse datoteke v mapi 2023/01/21/08 (ki predstavljajo trenutno uro, ko se datoteke še ustvarjajo) se ne obdelujejo do naslednjega zagona.

Če obstajata dva zapisa za primarni ključ, upsert in delete, Customer Insights - Data uporabi zapis z najnovejšim datumom spremembe. Če je na primer časovni žig brisanja 2023-01-21T08:00:00 in je časovni žig upsert 2023-01-21T08:30:00, uporabi zapis upsert. Če je do izbrisa prišlo po upsertu, sistem predvideva, da je zapis izbrisan.

Konfiguracija postopnega osveževanja za vire podatkov Azure Data Lake

  1. Ko dodajate ali urejate vir podatkov, se pomaknite do podokna Atributi za tabelo.

  2. Preglejte atribute. Prepričajte se, da je atribut ustvarjenega ali zadnjega posodobljenega datuma nastavljen z obliko zapisadateTime Data in semantično vrsto Calendar.Date. Po potrebi uredite atribut in izberite Končano.

  3. V podoknu Izbira tabel uredite tabelo. Potrditveno polje Inkrementalno zaužitje je izbrano.

    Konfigurirajte tabele v vir podatkov za postopno osveževanje.

    1. Poiščite korensko mapo z datotekami .csv ali .parquet za popolne podatke, postopne posodobitve podatkov in postopno brisanje podatkov.
    2. Vnesite pripono za popolne podatke in obe prirastni datoteki (.csv ali .parquet).
    3. Za .csv datoteke izberite ločilo stolpcev in ali želite, da je prva vrstica datoteke glava stolpca.
    4. Izberite možnost Shrani.
  4. Za možnost Zadnja posodobitev izberite atribut časovnega žiga datuma.

  5. Če primarni ključ ni izbran, izberite primarni ključ . Primarni ključ je atribut, ki je edinstven za tabelo. Atribut je veljaven primarni ključ samo v primeru, če ne vsebuje podvojenih vrednosti, manjkajočih vrednosti ali ničelnih vrednosti. Atributi podatkovnega tipa niz, celo število in GUID so podprti kot primarni ključi.

  6. Izberite Zapri, da shranite in zaprete podokno.

  7. Nadaljujte z dodajanjem ali urejanjem vir podatkov.

Izvajanje enkratne popolne osvežitve za vire podatkov Azure Data Lake

Ko konfigurirate postopno osveževanje za vire podatkov Azure Data Lake, je včasih treba podatke obdelati s popolno osvežitvijo. Celotna podatkovna mapa, nastavljena za postopno osveževanje, mora vsebovati mesto popolnih podatkov.

  1. Ko urejate vir podatkov, se pomaknite do podokna Izberi tabele in uredite tabelo, ki jo želite osvežiti.

  2. V podoknu Urejanje tabele se pomaknite do potrditvenega polja Zaženi enkratno popolno osveževanje in ga izberite.

    Konfigurirajte tabelo v vir podatkov za enkratno osvežitev.

  3. Za možnost Proces posamičnih datotek iz določite datum in čas za ohranitev posamičnih datotek. Popolni podatki in prirastni podatki se začnejo obdelovati po določenem datumu in uri. Če želite na primer delno osvežiti/zapolniti podatke do konca novembra, hkrati pa ohraniti prirastne podatke od začetka decembra do danes (30. december), vnesite 1. december. Če želite zamenjati vse podatke in prezreti podatke v prirastni mapi, določite prihodnji datum.

  4. Izberite Zapri, da shranite in zaprete podokno.

  5. Izberite Shrani , da uveljavite spremembe in se vrnete na stran Viri podatkov. Vir podatkov je v stanju osveževanja in izvaja popolno osvežitev .