Dodatne mogućnosti konfiguracije u Azure Synapse Link
Napomena
Na snazi od studenog 2020.:
- Common Data Service preimenovan je u Microsoft Dataverse. Saznajte više
- Neka je terminologija u usluzi Microsoft Dataverse ažurirana. Na primjer, sada je entitet preimenovan u tablica, a polje u stupac. Saznajte više
Ovaj će se članak uskoro ažurirati kako bi sadržavao najnoviju terminologiju.
Azure Synapse Link nudi više načina pisanja i čitanja podataka kako bi odgovarali različitim analitičkim scenarijima.
Napomena
Azure Synapse Link for Dataverse je prije bio poznat kao Izvoz u podatkovno jezero. Usluga je preimenovana u svibanj 2021. i nastavit će izvoziti podatke u Azure Data Lake, kao i Azure Synapse Analytics.
Ovaj se članak odnosi na:
- Ažuriranja na mjestu u odnosu na pisanje samo za dodavanje.
- Korisnički određena particioniranje podataka.
Ažuriranja na mjestu u odnosu na zapise samo za dodavanje
Prilikom pisanja Dataverse podataka tablice u podatkovno jezero Azure, na createdOn temelju vrijednosti, koja je datum i vrijeme stvaranja zapisa, postoje dvije različite postavke koje možete odabrati. Oni su Ažuriranje na mjestu i Dodati samo.
Zadana postavka (za tablice gdje je dostupna funkcija createdOn) izvršava ažuriranje na licu mjestu ili upsert (ažuriranje ili umetanje) inkrementalnih podataka u odredište. Ako je promjena nova i odgovarajući redak ne postoji u data lake, u slučaju stvaranja, odredišne datoteke se skeniraju i promjene se umetću u odgovarajuću particiju datoteke u data lake. Ako je promjena ažuriranje i postoji redak u data lake, odgovarajuća se datoteka u data lake ažurira, ne umeće se, zajedno s inkrementalnim podacima. Drugim riječima, zadana postavka za sve promjene CUD-a u Dataverse tablicama, gdje createdOn je dostupna, jest ažuriranje na mjestu odredišta u podatkovnom jezeru Azure.
Možete promijeniti zadano ponašanje ažuriranja na licu mjestu pomoću izborne postavke pod nazivom Samo dodavanje. Umjesto ažuriranja Na mjestu, u načinu samo dodavanje, inkrementalni podaci iz Dataverse tablica dodaju se odgovarajućoj particiji datoteke u jezeru. Ovo je postavka po tablici i dostupna je kao potvrdni okvir pod stavkom Napredno > Prikaži napredne postavke konfiguracije. Za Dataverse tablice s uključenim dodatkom, sve promjene CUD-a postupno se dodaju odgovarajućim odredišnim datotekama u jezeru. Kad odaberete ovu opciju, strategija particije postavlja se na zadanu vrijednost Godina, a kada se podaci upišu u data lake, oni se dijele na godišnjoj osnovi. Samo dodavanje je također zadana postavka za Dataverse tablice koje nemaju createdOn vrijednost.
Tablica u nastavku opisuje kako se rukuje recima u data lake u odnosu na događaje CUD-a za svaku od mogućnosti pisanja podataka.
| Događaj | Ažuriranje na licu mjesta | Samo dodaj |
|---|---|---|
| Stvaranje | Redak se umeće u datoteku particije i temelji se na vrijednosti createdOn na retku. |
Redak se dodaje na kraj datoteke particije i temelji se na vrijednosti createdOn zapisa. |
| Ažuriranje | Ako redak postoji u datoteci particije, tada se zamjenjuje ili ažurira ažuriranim podacima. Ako ne postoji, umetnut je u datoteku. | Redak, zajedno s ažuriranom verzijom, dodaje se na kraj datoteke particije. |
| Izbriši | Ako redak postoji u datoteci particije, uklanja se iz datoteke. | Redak, zajedno s ažuriranom verzijom, dodaje se na kraj datoteke particije s vrijednošću isDeleted column = True. |
Napomena
Za Dataverse tablice u kojima je omogućeno samo dodavanje, brisanje retka u izvoru neće izbrisati ili ukloniti redak u jezeru. Umjesto toga, izbrisani redak dodaje se kao novi redak u data lake, a stupac isDeleted postavljen je na True.
Evo nekoliko dodatnih pojedinosti o tome kada koristiti bilo koju od opcija.
- Ažuriranje na licu mjesta: Ovo je zadana postavka i preporučuje se samo ako se želite izravno povezati s podacima u data lake i trebate trenutačno stanje (ne povijest ili inkrementalne promjene). Datoteka sadrži cijeli skup podataka i može se koristiti putem Power BI ili kopiranjem cijelog skupa podataka za ETL (Extract, Transfer, Load) cjevovode.
- Samo dodavanje: Odaberite ovu opciju ako se ne povezujete izravno s podacima u data lake i želite postupno kopirati podatke na drugi cilj pomoću kanala ETL. Ova opcija pruža povijest promjena kako bi se omogućili scenariji AI i ML.
Da biste prilagodili strategiju podatkovne particije i odabrali mogućnosti pisanja u podatkovno jezero Azure, možete uključiti postavke Prikaži napredne konfiguracije u odjeljku Dodatno u Azure Synapse Link for Dataverse.

Particioniranje podataka
Kada Dataverse podatke tablice u spremište podatkovnog jezera Azure pomoću Azure Synapse Link, tablice se particioniraju (umjesto jedne datoteke) u jezeru na temelju createdOn vrijednosti u svakom retku u izvoru. Zadana strategija particije je po mjesecima, a podaci se mjesečno particionirani u podatkovnom jezeru Azure.
Na temelju Dataverse količine tablice i distribucije podataka možete odabrati podjelu podataka prema godini. S ovom opcijom, kada se podaci tablice Dataverse zapisuju u podatkovno jezero Azure, on će se svake godine particionirati na temelju createdOn vrijednosti u svakom retku u izvoru. Za tablice bez createdOn stupca reci podataka particioniraju se u novu datoteku svakih pet milijuna zapisa. Ovo je postavka po tablici i dostupna je kao potvrdni okvir pod stavkom Napredno > Prikaži napredne postavke konfiguracije.
Dodatni detalji s primjerima postupanja s podacima u data lake s godišnjom ili mjesečnom strategijom podjele:
