Opcións de configuración avanzada en Azure Synapse Link
Azure Synapse Link ofrece múltiples xeitos de escribir e ler os seus datos para axustalos a varios escenarios analíticos.
Nota
Azure Synapse Link for Dataverse antigamente coñecíase como Exportar a lago de datos. O servizo cambiou o nome a partir de maio de 2021 e continuará exportando datos a Azure Data Lake así como a Azure Synapse Analytics.
Este artigo trata de:
- Actualizacións no lugar fronte ás escrituras só para anexar.
- Particionamento de datos especificado polo usuario.
Actualizacións no lugar fronte a escrituras de só anexo
Mentres escribe datos da táboa de Dataverse en Azure Data Lake, baseado no valor de createdOn, que é a data e hora en que se creou o rexistro, hai dúas opcións diferentes para escoller. Estas son, Actualización no lugar e Anexar só.
A configuración predeterminada (para táboas onde createdOn está dispoñible) consiste en facer unha actualización ou upsert (actualización ou inserción) dos datos incrementais no destino. Se o cambio é novo e non existe unha fila correspondente no lago, no caso dunha creación, os ficheiros de destino son escaneados e os cambios insírense na partición de ficheiros correspondente no lago. Se o cambio é unha actualización e existe unha fila no lago, o ficheiro correspondente do lago actualízase, no canto de inserilo, cos datos incrementais. Noutras palabras, a configuración predeterminada para todos os cambios de CUD en táboas de Dataverse, onde createdOn está dispoñible, é facer unha actualización no lugar no destino, en Azure Data Lake.
Pode cambiar o comportamento predeterminado dunha actualización no lugar empregando unha configuración opcional chamada Anexar só. Máis que unha Actualización no lugar, no modo Anexar só, anéxanse datos incrementais de táboas de Dataverse á partición de ficheiros correspondente no lago. Esta é unha configuración por táboa e está dispoñible como caixa de verificación en Avanzado > Amosar configuración avanzada. Para táboas de Dataverse con Anexar só activado, todos os cambios de CUD engádense de xeito incremental aos ficheiros de destino correspondentes no lago. Cando escolle esta opción, a estratexia de partición é por defecto Ano e cando os datos se escriben no lago de datos, divídense anualmente. Só anexar tamén é a configuración predeterminada para Dataverse táboas que non teñencreatedOn valor.
A táboa seguinte describe como se manexan as filas no lago contra os eventos CUD para cada unha das opcións de escritura de datos.
| Evento | Actualización en curso | Só anexar |
|---|---|---|
| Crear | A fila insírese no ficheiro de partición e baséase no valor createdOn da fila. |
A fila engádese ao final do ficheiro de partición e baséase no valor createdOn do rexistro. |
| Update | Se a fila existe no ficheiro de partición, entón substitúese ou actualízase con datos actualizados. Se non existe, insírese no ficheiro. | A fila, xunto coa versión actualizada, engádese ao final do ficheiro de partición. |
| Delete | Se a fila existe no ficheiro de partición, eliminarase do ficheiro. | A fila engádese ao final do ficheiro de partición con isDeleted column = True. |
Nota
Para táboas de Dataverse onde Anexar só está activado, a eliminación dunha fila da orixe non eliminará nin eliminará a fila no lago. Pola contra, a fila eliminada engádese como unha nova fila no lago e a columna isDeleted establécese en True.
Aquí tes algúns detalles máis sobre cando usar calquera das opcións.
- Actualización no lugar : Esta opción é a configuración predeterminada e só recoméndase se quere conectarse directamente aos datos do lago e necesita o estado actual (non o historial ou cambios incrementais). O ficheiro contén o conxunto de datos completo e pódese utilizar a través de Power BI ou copiando todo o conxunto de datos para canalizacións ETL (Extract, Transfer, Load).
- Anexar só: seleccione esta opción se non se conecta directamente aos datos do lago e quere copiar datos de forma incremental a outro destino mediante canalizacións ETL. Esta opción proporciona un historial de cambios para permitir escenarios de IA e ML.
Pode alternar a opción Mostrar axustes de configuración avanzada en Avanzado en Azure Synapse Link for Dataverse para personalizar a estratexia de partición de datos e seleccionar opcións para escribir no lago de datos de Azure.

Partición de datos
Cando escribes Dataverse datos da táboa ao almacenamento de Azure Data Lake usando Azure Synapse Link, as táboas están divididas (en lugar dun único ficheiro) no lago en función docreatedOn valor en cada fila da fonte. A estratexia de partición predeterminada é por mes e os datos son particionados en Azure Data Lake mensualmente.
Baseado no Dataverse volume da táboa e distribución de datos, pode optar por dividir os seus datos por ano. Con esta opción, cando Dataverse os datos da táboa escríbense no lago de datos de Azure, dividiranse anualmente en función docreatedOn valor en cada fila da fonte. Para mesas sen ocreatedOn columna, as filas de datos divídense nun ficheiro novo cada cinco millóns de rexistros. Esta é unha configuración por táboa e está dispoñible como caixa de verificación en Avanzado > Amosar configuración avanzada.
Máis detalles con exemplos de como se manexan os datos no lago cunha estratexia de partición anual ou mensual:

Consulte tamén
Azure Synapse Link for Dataverse
Nota
Pode indicarnos as súas preferencias para o idioma da documentación? Realice unha enquisa breve. (teña en conta que esa enquisa está en inglés)
Esta enquisa durará sete minutos aproximadamente. Non se recompilarán datos persoais (declaración de privacidade).
Comentarios
Enviar e ver os comentarios