Share via


Referência de propriedades do Delta Live Tables

Esse artigo fornece uma referência para a especificação de configuração JSON das Tabelas Dinâmicas Delta e as propriedades da tabela no Azure Databricks. Para obter mais detalhes sobre como usar essas várias propriedades e configurações, consulte os seguintes artigos:

Configurações de pipeline das Tabelas Dinâmicas Delta.

Campos
id

Digite: string

Um identificador globalmente exclusivo para esse pipeline. O identificador é atribuído pelo sistema e não pode ser alterado.
name

Digite: string

Um nome amigável para esse pipeline. O nome pode ser usado para identificar trabalhos de pipeline na interface do usuário.
storage

Digite: string

Um local no DBFS ou no armazenamento em nuvem em que os dados de saída e os metadados necessários para a execução do pipeline são armazenados. As tabelas e os metadados são armazenados em subdiretórios desse local.

Quando a configuração storage não for especificada, o sistema usará como padrão local em dbfs:/pipelines/.

A configuração storage não pode ser alterada depois que um pipeline é criado.
configuration

Digite: object

Uma lista opcional de configurações a serem adicionadas à configuração do Spark no cluster que executará o pipeline. Essas configurações são lidas pelo runtime das Tabelas Dinâmicas Delta e estão disponíveis para consultas de pipeline por meio da configuração do Spark.

Os elementos precisam ser formatados como pares key:value.
libraries

Digite: array of objects

Uma matriz de notebooks que contém o código do pipeline e os artefatos necessários.
clusters

Digite: array of objects

Uma matriz de especificações para os clusters executarem o pipeline.

Se isso não for especificado, os pipelines selecionarão automaticamente uma configuração de cluster padrão para o pipeline.
development

Digite: boolean

Um sinalizador que indica onde o pipeline deve ser executado
Modo development ou production.

O valor padrão é true
notifications

Digite: array of objects

Uma matriz opcional de especificações para notificações por email quando uma atualização de pipeline é concluída, falha com um erro repetível, falha com um erro não repetível ou um fluxo falha.
continuous

Digite: boolean

Um sinalizador que indica se o pipeline deve ser executado continuamente.

O valor padrão é false.
target

Digite: string

O nome de um banco de dados para manter os dados de saída do pipeline. Se você definir a configuração target, poderá ver e consultar os dados de saída do pipeline na interface do usuário do Azure Databricks.
channel

Digite: string

A versão do runtime do Delta Live Tables a ser usada. Os valores com suporte são:

* preview para testar seu pipeline com as próximas alterações na versão do runtime.
* current para usar a versão de runtime atual.

O campo channel é opcional. O valor padrão é
current. O Databricks recomenda usar a versão atual do runtime para cargas de trabalho de produção.
edition

Tipo string

A edição do produto Delta Live Tables para executar o pipeline. A configuração permite escolher a melhor edição do produto com base nos requisitos do pipeline:

* CORE para executar cargas de trabalho de ingestão de fluxo.
* PRO para executar cargas de trabalho de CDC (captura de dados de alterações) e de ingestão de fluxo.
* ADVANCED para executar cargas de trabalho de ingestão de fluxo, cargas de trabalho de CDC e cargas de trabalho que exigem expectativas do Delta Live Tables para impor restrições de qualidade de dados.

O campo edition é opcional. O valor padrão é
ADVANCED.
photon

Digite: boolean

Um sinalizador que indica se O que é o Photon? deve ser usado para executar o pipeline. O Photon é o mecanismo Spark de alto desempenho do Azure Databricks. Os pipelines habilitados para ele são cobrados a uma taxa diferente dos pipelines que não se destinam ao Photon.

O campo photon é opcional. O valor padrão é false.
pipelines.maxFlowRetryAttempts

Digite: int

O número máximo de tentativas para repetir um fluxo antes de falhar em uma atualização de pipeline quando ocorrer uma falha repetível.

O valor padrão é duas. Por padrão, quando ocorre uma falha repetível, o runtime do Delta Live Tables tenta executar o fluxo três vezes, incluindo a tentativa original.
pipelines.numUpdateRetryAttempts

Digite: int

O número máximo de tentativas para repetir uma atualização antes de falhar em uma atualização quando ocorrer uma falha repetível. A repetição é executada como uma atualização completa.

O padrão é cinco. Esse parâmetro se aplicam somente a atualizações disparadas no modo de produção. Não há repetição quando o pipeline é executado no modo de desenvolvimento.

Propriedades da tabela das Tabelas Dinâmicas Delta

Além das propriedades da tabela com suporte do Delta Lake, você pode definir as propriedades da tabela a seguir.

Propriedades da tabela
pipelines.autoOptimize.managed

Padrão: true

Habilita ou desabilita a otimização agendada automática desta tabela.
pipelines.autoOptimize.zOrderCols

Padrão: nenhum

Uma cadeia de caracteres opcional que contém uma lista separada por vírgula de nomes de colunas para ordenar essa tabela pela ordem z. Por exemplo, pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

Padrão: true

Controla se uma atualização completa é permitida nessa tabela.

propriedades da tabela CDC

observação:: essas propriedades para controlar o comportamento do gerenciamento da marca de exclusão foram preteridas e substituídas por configurações de pipeline. Todos os pipelines existentes ou novos devem usar as novas configurações de pipeline. Consulte Gerenciamento da marca de exclusão para consultas SCD tipo 1.

As propriedades de tabela a seguir são adicionadas para controlar o comportamento do gerenciamento de marca de exclusão para eventos DELETE ao usar CDC:

Propriedades da tabela
pipelines.cdc.tombstoneGCThresholdInSeconds

Padrão: 5 minutos

Defina esse valor para corresponder ao intervalo esperado mais alto entre os dados fora de ordem.
pipelines.cdc.tombstoneGCFrequencyInSeconds

Padrão: 60 segundos.

Controla com que frequência as marcas de exclusão são verificadas para limpeza.

Confira API APPLY CHANGES: Simplifique a captura de dados de alterações nas Tabelas Dinâmicas Delta.

Intervalo de gatilho de pipelines

Você pode especificar um intervalo de gatilho de pipeline para todo o pipeline das Tabelas Dinâmicas Delta ou como parte de uma declaração de conjunto de dados. Consulte Intervalo de gatilho de pipelines.

pipelines.trigger.interval
O padrão é baseado no tipo de fluxo:

* Cinco segundos para consultas de streaming.
* Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta.
* Dez minutos para consultas completas quando algumas fontes de dados podem não ser Delta.

O valor é um número mais a unidade de tempo. Estas são as unidades de tempo válidas:

* second, seconds
* minute, minutes
* hour, hours
* day, days

Você pode usar a unidade no singular ou no plural ao definir o valor, por exemplo:

* {"pipelines.trigger.interval" : "1 hour"}
* {"pipelines.trigger.interval" : "10 seconds"}
* {"pipelines.trigger.interval" : "30 second"}
* {"pipelines.trigger.interval" : "1 minute"}
* {"pipelines.trigger.interval" : "10 minutes"}
* {"pipelines.trigger.interval" : "10 minute"}

Atributos de cluster que não são configuráveis pelo usuário

Como o Delta Live Tables gerencia ciclos de vida de cluster, muitas configurações de cluster são definidas por Delta Live Tables e não podem ser configuradas manualmente pelos usuários, seja em uma configuração de pipeline ou em uma política de cluster usada por um pipeline. A tabela a seguir lista essas configurações e por que elas não podem ser definidas manualmente.

Campos
cluster_name

As Tabelas Dinâmicas Delta definem os nomes dos clusters usados para executar atualizações de pipeline. Esses nomes não podem ser substituídos.
data_security_mode
access_mode

Esses valores são definidos automaticamente pelo sistema.
spark_version

Os clusters das Tabelas Dinâmicas Delta são executados em uma versão personalizada do Databricks Runtime que é atualizada continuamente para incluir os recursos mais recentes. A versão do Spark é agrupada com a versão do Databricks Runtime e não pode ser substituída.
autotermination_minutes

Como as Tabelas Dinâmicas Delta gerenciam o encerramento automático do cluster e a lógica de reutilização, o tempo de encerramento automático do cluster não pode ser substituído.
runtime_engine

Embora você possa controlar esse campo habilitando o Photon para seu pipeline, não é possível definir esse valor diretamente.
effective_spark_version

Esse valor é definido automaticamente pelo sistema.
cluster_source

Esse campo é definido pelo sistema e é somente leitura.
docker_image

Como as Tabelas Dinâmicas Delta gerenciam o ciclo de vida do cluster, você não pode usar um contêiner personalizado com clusters de pipeline.
workload_type

Esse valor é definido pelo sistema e não pode ser substituído.