Reîmprospătare incrementală pentru Power Query sursele de date și Data Lake Storage

Reîmprospătare incrementală pentru sursele de date bazate pe Power Query (previzualizare) sau Azure Data Lake Storage oferă următoarele avantaje:

  • Reîmprospătări mai rapide - Numai datele care s-au modificat sunt reîmprospătate. De exemplu, este posibil să reîmprospătați doar ultimele cinci zile ale unui set de date istoric.
  • Fiabilitate crescută - Cu reîmprospătări mai mici, nu trebuie să mențineți conexiunile la sistemele sursă volatile atât de mult timp, reducând riscul problemelor de conexiune.
  • Consum redus de resurse - Reîmprospătarea doar a unui subset din totalul datelor duce la o utilizare mai eficientă a resurselor de calcul și reduce amprenta asupra mediului.

Configurați reîmprospătarea incrementală pentru sursele de date bazate pe Power Query (previzualizare)

[Acest articol este documentație de prelansare și poate suferi modificări.]

Configurați orice Power Query sursă de date pentru Customer Insights - Data a reîmprospăta treptat datele. Sursă de date trebuie să aibă o coloană cheie primară care identifică în mod unic înregistrările și o coloană datetime care indică când au fost actualizate ultima dată datele.

Important

  • Aceasta este o caracteristică de previzualizare.
  • Caracteristicile în regim de previzualizare nu sunt destinate utilizării în producție și pot avea funcționalități restricționate. Aceste caracteristici sunt disponibile înainte de lansarea oficială, astfel încât clienții să poată obține acces din timp și să poată oferi feedback.
  1. Creați un nou sursă de date bazat pe Power Query.

  2. Selectați un sursă de date care acceptă reîmprospătarea incrementală, cum ar fi baza de date SQL Azure.

  3. Selectați tabelele de ingerat.

  4. Finalizați pașii de transformare și selectați Următorul.

  5. În caseta de dialog Configurare reîmprospătare incrementală, selectați Configurare pentru a deschide setările dereîmprospătareincrementală. Dacă selectați Omitere, sursă de date reîmprospătează întregul set de date.

    Sfat

    Puteți aplica, de asemenea, reîmprospătarea incrementală mai târziu prin editarea unei surse de date existente.

  6. În setările de reîmprospătare incrementală, configurați reîmprospătarea incrementală pentru toate tabelele pe care le-ați selectat la crearea sursă de date.

    Configurați setările incrementale de reîmprospătare.

  7. Selectați un tabel și furnizați următoarele detalii:

    • Definirea cheii primare: Selectați o cheie primară pentru tabel.
    • Definiți câmpul "ultima actualizare": Acest câmp afișează numai atributele tipului, datei sau orei. Selectați un atribut care indică momentul în care înregistrările au fost actualizate ultima dată. Acest atribut identifică înregistrările care se încadrează în intervalul de timp incremental de reîmprospătare.
    • Căutați actualizări fiecare: specificați cât timp doriți să fie intervalul de timp incremental de reîmprospătare.
  8. Selectați Salvare pentru a finaliza crearea sursă de date. Reîmprospătarea inițială a datelor este o reîmprospătare completă. Ulterior, reîmprospătarea de date incrementală se întâmplă așa cum este configurat în pasul anterior.

Configurarea reîmprospătării incrementale pentru Azure Data Lake Storage sursele de date

Microsoft recomandă formatul Delta Lake pentru a obține cele mai bune performanțe și rezultate pentru lucrul cu seturi mari de date. Customer Insights - Data oferă un conector optimizat pentru datele formatate Delta Lake. Procesele interne, cum ar fi unificarea, sunt optimizate pentru a procesa incremental numai datele modificate, rezultând timpi de procesare mai scurți.

Pentru a utiliza ingestia incrementală și reîmprospătarea pentru un tabel Data Lake, configurați acel tabel atunci când adăugați sau editați Azure Data Lake sursă de date. Folderul de date de tabel trebuie să conțină următoarele foldere:

  • FullData: folder cu fișiere de date care conțin înregistrări inițiale
  • IncrementalData: folder cu foldere de ierarhie dată/oră în format aaaa/ll/zz/hh care conțin actualizările incrementale. Dosarele an, lună, zi și oră sunt de așteptat să fie de patru și, respectiv, două cifre. hh reprezintă ora UTC a actualizărilor și conține folderele Upserts și Deletes . Upserts conține fișiere de date cu actualizări ale înregistrărilor existente sau înregistrări noi. Ștergeri conține fișiere de date cu înregistrări de eliminat.

Ordinea prelucrării datelor incrementale

Sistemul procesează fișierele din folderul IncrementalData după terminarea orei UTC specificate. De exemplu, dacă sistemul începe procesarea reîmprospătării incrementale pe 21 ianuarie 2023 la ora 8:15, toate fișierele care se află în folderul 2023/01/21/07 (reprezentând fișiere de date stocate de la 7 AM la 8 AM) sunt procesate. Orice fișiere din folderul 2023/01/21/08 (reprezentând ora curentă în care fișierele sunt încă generate) nu sunt procesate până la următoarea rulare.

Dacă există două înregistrări pentru o cheie primară, un upsert și delete, Customer Insights - Data utilizează înregistrarea cu cea mai recentă dată modificată. De exemplu, dacă marcajul temporal de ștergere este 2023-01-21T08:00:00 și marcajul temporal upsert este 2023-01-21T08:30:00, utilizează înregistrarea upsert. Dacă ștergerea a avut loc după upsert, sistemul presupune că înregistrarea este ștearsă.

Configurarea reîmprospătării incrementale pentru sursele de date Azure Data Lake

  1. Când adăugați sau editați un sursă de date, navigați la panoul Atribute pentru tabel.

  2. Examinați atributele. Asigurați-vă că un atribut de dată creat sau actualizat ultima dată este configurat cu un format dateTime Data și un tip semantic Calendar.Date . Editați atributul dacă este necesar și selectați Terminat.

  3. Din panoul Selectare tabele, editați tabelul . Este bifată caseta de selectare Ingestie incrementală.

    Configurați tabelele într-un sursă de date pentru reîmprospătare incrementală.

    1. Răsfoiți la folderul rădăcină care conține fișierele .csv sau .parquet pentru date complete, confirmări incrementale de date și ștergeri incrementale de date.
    2. Introduceți extensia pentru datele complete și ambele fișiere incrementale (.csv sau .parquet).
    3. Pentru .csv fișiere, selectați delimitatorul de coloană și, dacă doriți, primul rând al fișierului ca antet de coloană.
    4. Selectați Salvați.
  4. Pentru Ultima actualizare, selectați atributul marcaj temporal dată.

  5. Dacă tasta primară nu este selectată, selectați cheia primară. Cheia primară este un atribut unic pentru tabel. Pentru ca un atribut să fie o cheie primară validă, nu ar trebui să includă valori duplicate, valori lipsă sau valori nule. Atributele tipului de date șir, întreg și GUID sunt acceptate ca chei primare.

  6. Selectați Închidere pentru a salva și a închide panoul.

  7. Continuați cu adăugarea sau editarea sursă de date.

Rulați o reîmprospătare completă unică pentru sursele de date Azure Data Lake

După ce configurați o reîmprospătare incrementală pentru sursele de date Azure Data Lake, există momente în care datele trebuie procesate cu o reîmprospătare completă. Dosarul de date complet configurat pentru reîmprospătarea incrementală trebuie să conțină locația datelor complete.

  1. Când editați sursă de date, navigați la panoul Selectare tabele și editați tabelul pe care doriți să îl reîmprospătați.

  2. În panoul Editare tabel , defilați la caseta de selectare Executare reîmprospătare completă unică și selectați-o.

    Configurați tabelul într-un sursă de date pentru o reîmprospătare unică.

  3. Pentru Procesare fișiere incrementale din, specificați data și ora pentru păstrarea fișierelor incrementale. Datele complete plus datele incrementale încep procesarea după data și ora specificate. De exemplu, dacă doriți să efectuați o reîmprospătare/completare parțială a datelor până la sfârșitul lunii noiembrie, păstrând în același timp datele incrementale de la începutul lunii decembrie până astăzi (30 decembrie), introduceți 1 decembrie. Pentru a înlocui toate datele și a ignora datele din folderul incremental, specificați o dată viitoare.

  4. Selectați Închidere pentru a salva și a închide panoul.

  5. Selectați Salvare pentru a aplica modificările și a reveni la pagina Surse de date. Sursă de date este în starea Reîmprospătare, efectuând o reîmprospătare completă.