Opcions avançades de configuració a Azure Synapse Link
Nota
Vigent a partir del novembre de 2020:
- S’ha canviat el nom del Common Data Service per Microsoft Dataverse. Més informació
- S’han actualitzat alguns termes del Microsoft Dataverse. Per exemple, ara entitat s’anomena taula, i el camp ha passat a anomenar-se columna. Més informació
Aquest article s’actualitzarà pròximament per reflectir la terminologia més recent.
Azure Synapse Link ofereix diverses maneres d'escriure i llegir les seves dades per adaptar-se a diversos escenaris analítics.
Nota
Azure Synapse Link for Dataverse abans es coneixia com a Export to Data Lake. El servei va ser reanomenat efectiu el maig de 2021 i continuarà exportant dades a l'Azure Data Lake, així com a Azure Synapse Analytics.
Aquest article tracta:
- Actualitzacions in situ vs. escrits només d'annex.
- Partició de dades especificada per l'usuari.
Actualitzacions al lloc i escriptures de només annexió
Mentre escriviu Dataverse dades de la taula al llac de dades de l'Azure, en funció del createdOn valor, que és la data i l'hora en què es va crear el registre, hi ha dues opcions de configuració diferents per triar. Són Actualització al lloc i Annexa només.
La configuració per defecte (per a taules en què createdOn està disponible) és fer una actualització al lloc o upsert (actualitzar o inserir) de les dades incrementals a la destinació. Si el canvi és nou i no hi ha una fila corresponent al llac, en el cas d'una creació, els fitxers de destinació s'analitzaran i els canvis s'inseriran a la partició de fitxer corresponent del llac. Si el canvi és una actualització i hi ha una fila al llac, el fitxer corresponent del llac s'actualitza, en lloc d'inserir-se, amb les dades incrementals. En altres paraules, la configuració predeterminada per a tots els canvis de CUD a Dataverse taules, on createdOn està disponible, és fer una actualització al lloc a la destinació, al llac de dades de l'Azure.
Podeu canviar el comportament per defecte d'una actualització in situ mitjançant una configuració opcional anomenada Annexa només. En lloc d'una actualització en el lloc, en el mode Només afegeix, les dades incrementals de Dataverse taules s'afegeixen a la partició de fitxer corresponent al llac. Es tracta d'un paràmetre per taula i està disponible com a casella de seleccioneu a Avançat > Mostra les opcions de configuració avançada. Per Dataverse taules amb l'annex només activades, tots els canvis de CUD s'afegeixen incrementalment als fitxers de destinació corresponents al llac. Quan trieu aquesta opció, l'estratègia de partició és per defecte Any i quan les dades s'escriuen al llac de dades es particionen anualment. L'annex només és la configuració predeterminada per a Dataverse taules que no tenen createdOn valor.
A la taula següent es descriu com es tracten les files al llac en cas d'incidència CUD per a cadascuna de les opcions d'escriptura de dades.
| Esdeveniment | Actualització in situ | Annexa només |
|---|---|---|
| Creació | La fila s'insereix al fitxer de particions i es basa en el valor createdOn de la fila. |
La fila s'afegeix al final del fitxer de particions i es basa en el valor createdOn del registre. |
| Actualització | Si la fila existeix al fitxer de particions, se substituirà o s'actualitzarà amb dades actualitzades. Si no existeix, s'inserirà al fitxer. | La fila, juntament amb la versió actualitzada, s'afegirà al final del fitxer de particions. |
| Delete | Si la fila existeix al fitxer de particions, s'eliminarà del fitxer. | La fila, juntament amb isDeleted column = True, s'afegirà al final del fitxer de particions. |
Nota
Per Dataverse taules on l'addició només està habilitada, si suprimiu una fila de l'origen, no se suprimirà ni suprimirà la fila del llac. En lloc d'això, la fila suprimida s'annexa com a fila nova al llac i la columna isDeleted es defineix com a Cert.
A continuació trobareu alguns detalls addicionals sobre quan s'utilitza cadascuna de les opcions.
- Actualització in situ: aquesta és la configuració per defecte i només es recomana si voleu connectar-vos directament a les dades del llac i necessiteu l'estat actual (no l'historial ni els canvis incrementals). El fitxer conté el conjunt de dades complet i es pot utilitzar a través de Power BI o copiant tot el conjunt de dades per a canonades ETL (Extract, Transfer, Load).
- Annexa només: seleccioneu aquesta opció si no us connecteu directament a les dades del llac i voleu copiar les dades incrementalment a una altra destinació mitjançant pipelines ETL. Aquesta opció proporciona un historial de canvis per habilitar escenaris d'AI i ML.
Podeu commutar la configuració avançada mostra a Avançat a Azure Synapse Link for Dataverse per personalitzar l'estratègia de particions de dades i seleccionar les opcions per escriure al llac de dades de l'Azure.

Partició de dades
Quan Dataverse les dades de la taula a l'emmagatzematge del llac de dades de l'Azure mitjançant Azure Synapse Link, les taules es divideixen (en lloc d'un sol fitxer) al llac en funció del createdOn valor de cada fila de l'origen. L'estratègia de particions per defecte és per mes i les dades es divideixen al llac de dades de l'Azure mensualment.
En funció del volum de la taula Dataverse i de la distribució de dades, podeu triar particionar les dades per any. Amb aquesta opció, quan Dataverse dades de la taula s'escriguin al llac de dades de l'Azure, es particionarà anualment en funció del valor de createdOn cada fila de l'origen. Per a les taules sense la createdOn columna, les files de dades es divideixen en un fitxer nou cada cinc milions de registres. Es tracta d'un paràmetre per taula i està disponible com a casella de seleccioneu a Avançat > Mostra les opcions de configuració avançada.
Altres detalls amb exemples de com es tracten les dades al llac amb l'estratègia de particions anual o mensual:
