Eliminação de ficheiros dinâmica

A poda dinâmica de ficheiros (DFP), pode melhorar significativamente o desempenho de muitas consultas nas tabelas Delta. O DFP é especialmente eficiente para mesas não divididas, ou para junções em colunas não divididas. O impacto de desempenho do DFP é frequentemente correlacionado com o agrupamento de dados, por isso considere usar z-ordering para maximizar o benefício da DFP.

Para casos de fundo e utilização de DFP, consulte consultas mais rápidas de SQL no Lago Delta com Poda de Ficheiro Dinâmico.

Nota

Disponível em Databricks Runtime 6.1 e superior.

O DFP é controlado pelas seguintes opções de configuração Apache Spark:

  • spark.databricks.optimizer.dynamicPartitionPruning (predefinição: true A bandeira principal que direciona o optimizador para empurrar os filtros DFP para baixo. Quando programado para false , DFP não estará em vigor.
  • spark.databricks.optimizer.deltaTableSizeThreshold (predefinição: 10,000,000,000 bytes (10 GB) Representa o tamanho mínimo (em bytes) da tabela Delta no lado da sonda da junta necessária para ativar o DFP. Se o lado da sonda não for muito grande, provavelmente não vale a pena empurrar os filtros para baixo e podemos simplesmente digitalizar toda a mesa. Você pode encontrar o tamanho de uma mesa Delta executando o DESCRIBE DETAIL table_name comando e, em seguida, olhando para a sizeInBytes coluna.
  • spark.databricks.optimizer.deltaTableFilesThreshold (predefinição: 1000 Representa o número de ficheiros da tabela Delta no lado da sonda da junta necessária para ativar o DFP. Quando a tabela lateral da sonda contiver menos ficheiros do que o valor limiar, o DPP não será acionado. Se uma tabela tem apenas alguns ficheiros, provavelmente não vale a pena ativar o DFP. Você pode encontrar o tamanho de uma mesa Delta executando o DESCRIBE DETAIL table_name comando e, em seguida, olhando para a numFiles coluna.