Share via


Otimizar o uso dos cluster de pipelines Delta Live Tables com dimensionamento automático aprimorado

O Dimensionamento Automático Aprimorado do Databricks otimiza a utilização do cluster alocando automaticamente recursos de cluster com base no volume de carga de trabalho, com impacto mínimo na latência de processamento de dados de seus pipelines.

O Dimensionamento automático aprimorado melhora a funcionalidade de dimensionamento automático do cluster do Azure Databricks com os seguintes recursos:

  • O dimensionamento automático aprimorado implementa a otimização de cargas de trabalho de transmissão e contribui com aprimoramentos para melhorar o desempenho das cargas de trabalho em lotes. O dimensionamento automático aprimorado otimiza os custos adicionando ou removendo computadores à medida que a carga de trabalho muda.
  • O dimensionamento automático aprimorado desliga proativamente os nós subutilizados, garantindo que não haja tarefas com falha durante o desligamento. O recurso de dimensionamento automático de cluster existente reduzirá os nós somente se o nó estiver ocioso.

O Dimensionamento automático aprimorado é o modo de dimensionamento automático padrão quando você cria um pipeline na interface do usuário do Delta Live Tables. Você pode habilitar o Dimensionamento automático avançado para pipelines existentes editando as configurações do pipeline na interface do usuário. Você também pode habilitar o Dimensionamento automático avançado ao criar ou editar pipelines com a API do Delta Live Tables.

Habilitar o Dimensionamento automático avançado

Observação

Como os recursos de computação são otimizados automaticamente para pipelines sem servidor, as configurações do escalonamento automático aprimorado do Databricks não estão disponíveis quando você seleciona Sem servidor (Visualização Pública) para um pipeline.

Para saber mais sobre como habilitar pipelines DLT sem servidor, entre em contato com a equipe de conta do Azure Databricks.

Para usar o Dimensionamento automático avançado, siga um destes procedimentos:

  • Defina o Modo do cluster como Dimensionamento automático aprimorado ao criar um pipeline ou editar um pipeline na interface do usuário do Delta Live Tables.
  • Adicione a configuração autoscale à configuração do cluster de pipeline e defina o campo mode como ENHANCED. Consulte Definir as configurações de computação.

Siga as seguintes diretrizes ao configurar o Dimensionamento Automático Aprimorado para pipelines de produção:

  • Mantenha a configuração Min workers padrão.
  • Defina a configuração Max workers para um valor com base no orçamento e na prioridade do pipeline.

O exemplo a seguir configura um cluster de dimensionamento automático aprimorado com um mínimo de 5 trabalhadores e um máximo de 10 trabalhadores. max_workers deve ser maior ou igual a min_workers.

Observação

  • O dimensionamento automático aprimorado está disponível somente para clusters updates. O recurso de dimensionamento automático existente é usado para clusters maintenance.
  • A configuração autoscale tem dois modos:
{
  "clusters": [
    {
      "autoscale": {
        "min_workers": 5,
        "max_workers": 10,
        "mode": "ENHANCED"
      }
    }
  ]
}

O pipeline será reiniciado automaticamente depois que a configuração de dimensionamento automático for alterada se o pipeline estiver configurado para execução contínua. Após a reinicialização, espere um curto período de maior latência. Após esse breve período de maior latência, o tamanho do cluster deve ser atualizado com base em sua configuração autoscale e a latência do pipeline retornada para suas características de latência anteriores.

Monitoramento de pipelines habilitados para dimensionamento automático aprimorado

Você pode usar o log de eventos na interface do usuário do Delta Live Tables para monitorar métricas avançadas de dimensionamento automático. Eventos de dimensionamento automático aprimorados têm o tipo de evento autoscale. Estes são os eventos de exemplo:

Evento Mensagem
Solicitação de redimensionamento de cluster iniciada Scaling [up or down] to <y> executors from current cluster size of <x>
Solicitação de redimensionamento de cluster bem-sucedida Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED
Solicitação de redimensionamento de cluster parcialmente bem-sucedida Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED
Solicitação de redimensionamento de cluster com falha Achieved cluster size <x> for cluster <cluster-id> with status FAILED

Você também pode exibir eventos do dimensionamento automático aprimorado consultando diretamente o log de eventos: