Opções de Configuração Avançada no Azure Synapse Link
O Azure Synapse Link oferece várias maneiras de escrever e ler seus dados para se adequar a diversos cenários analíticos.
Observação
O Azure Synapse Link for Dataverse era conhecido anteriormente como Exportar para o data lake. O serviço foi renomeado em maio de 2021 e continuará a exportar dados para o Azure Data Lake, bem como para o Azure Synapse Analytics.
Este artigo aborda:
- Atualizações no local x gravações somente de acréscimo.
- Particionamento de dados especificado pelo usuário.
Atualizações no local x gravações somente de acréscimo
Ao gravar dados de tabela do Dataverse no Azure Data Lake, com base no valor createdOn, que é a data e a hora em que o registro foi criado, há duas opções de configurações diferentes. São elas: Atualização no local e Somente acrescentar.
A configuração padrão (para tabelas em que createdOn está disponível) é fazer uma atualização no local ou executar upsert (atualizar ou inserir) dos dados incrementais no destino. Se a alteração for nova e uma linha correspondente não existir no lake, no caso de uma criação, os arquivos de destino serão verificados e as alterações serão inseridas na partição de arquivo correspondente no lake. Se a alteração for uma atualização e existir uma linha no lake, o arquivo correspondente no lake será atualizado, e não inserido, com os dados incrementais. Em outras palavras, a configuração padrão para todas as alterações CUD em tabelas do Dataverse, em que createdOn está disponível, é fazer uma atualização no local no destino, no Azure Data Lake.
Você pode mudar o comportamento padrão de uma atualização local usando uma configuração opcional chamada Somente acrescentar. Em vez de uma Atualização no local, no modo Somente acrescentar, dados incrementais de tabelas do Dataverse são acrescentados à partição de arquivo correspondente no lake. Esta é uma configuração por tabela e está disponível como uma caixa de seleção em Avançado > Mostrar configurações avançadas. Para tabelas do Dataverse com Somente acrescentar ativado, todas as alterações CUD são acrescentadas aos arquivos de destino correspondentes no lake de forma incremental. Quando você escolhe esta opção, a estratégia de partição assume o padrão Ano e quando os dados são gravados no data lake, eles são particionados anualmente. Somente acrescentar também é a configuração padrão para tabelas do Dataverse que não têm o valor createdOn.
A tabela a seguir descreve como as linhas são tratadas no lake em relação a eventos CUD para cada opção de gravação de dados.
| Evento | Atualização no local | Somente acrescentar |
|---|---|---|
| Criar | A linha é inserida no arquivo de partição e se baseia no valor createdOn na linha. |
A linha é adicionada ao final do arquivo de partição e se baseia no valor createdOn do registro. |
| Atualizar | Se a linha existir no arquivo de partição, ela será substituída ou atualizada com dados atualizados. Se ela não existir, será inserida no arquivo. | A linha, junto com a versão atualizada, é adicionada ao final do arquivo de partição. |
| Excluir | Se a linha existir no arquivo de partição, ela será removida do arquivo. | A linha é adicionada ao final do arquivo de partição com isDeleted column = True. |
Observação
Para tabelas do Dataverse onde Somente acrescentar estiver habilitado, a exclusão de uma linha na origem não excluirá ou removerá a linha do lake. Em vez disso, a linha excluída é acrescentada como uma nova linha no lake e a coluna isDeleted é definida como Verdadeiro.
Veja a seguir mais alguns detalhes sobre quando usar qualquer uma das opções.
- Atualização no local: esta opção é a configuração padrão e recomendada apenas se você deseja se conectar diretamente aos dados no lake e precisa do estado atual (não histórico ou alterações incrementais). O arquivo contém o conjunto de dados completo e pode ser utilizado via Power BI ou copiando todo o conjunto de dados para os pipelines ETL (Extrair, Transferir, Carregar).
- Somente acrescentar: Selecione esta opção se você não estiver se conectando diretamente a dados no lake e desejar copiar dados de forma incremental para outro destino usando pipelines ETL. Esta opção fornece um histórico de alterações para habilitar cenários de IA e ML.
Você pode alternar Mostrar configurações avançadas em Avançado no Azure Synapse Link for Dataverse para personalizar sua estratégia de partição de dados e selecionar opções para gravar no Azure Data Lake.

Particionamento de dados
Quando você grava dados de tabela do Dataverse no Azure Data Lake Storage usando o Azure Synapse Link, as tabelas são particionadas (em vez de um único arquivo) no lake com base no valor createdOn em cada linha na fonte. A estratégia de partição padrão é por mês e os dados são particionados no Azure Data Lake mensalmente.
Com base na distribuição de dados e volumes de tabelas do Dataverse, você pode optar por particionar seus dados por ano. Com essa opção, quando os dados de tabelas do Dataverse forem gravados no Azure Data Lake, eles serão particionados anualmente com base no valor createdOn em cada linha na fonte. Para tabelas sem a coluna createdOn, as linhas de dados serão particionadas em um novo arquivo a cada cinco milhões de registros. Esta é uma configuração por tabela e está disponível como uma caixa de seleção em Avançado > Mostrar configurações avançadas.
Mais detalhes com exemplos de como os dados são tratados no lake com estratégia de partição anual ou mensal:

Confira também
Azure Synapse Link for Dataverse
Observação
Você pode nos falar mais sobre suas preferências de idioma para documentação? Faça uma pesquisa rápida. (Observe que esta pesquisa está em inglês)
A pesquisa levará cerca de sete minutos. Nenhum dado pessoal é coletado (política de privacidade).
Comentários
Enviar e exibir comentários de