Otimizar o uso dos cluster de pipelines Delta Live Tables com dimensionamento automático aprimorado
O Dimensionamento Automático Aprimorado do Databricks otimiza a utilização do cluster alocando automaticamente recursos de cluster com base no volume de carga de trabalho, com impacto mínimo na latência de processamento de dados de seus pipelines.
O Dimensionamento automático aprimorado melhora a funcionalidade de dimensionamento automático do cluster do Azure Databricks com os seguintes recursos:
- O dimensionamento automático aprimorado implementa a otimização de cargas de trabalho de transmissão e contribui com aprimoramentos para melhorar o desempenho das cargas de trabalho em lotes. O dimensionamento automático aprimorado otimiza os custos adicionando ou removendo computadores à medida que a carga de trabalho muda.
- O dimensionamento automático aprimorado desliga proativamente os nós subutilizados, garantindo que não haja tarefas com falha durante o desligamento. O recurso de dimensionamento automático de cluster existente reduzirá os nós somente se o nó estiver ocioso.
O Dimensionamento automático aprimorado é o modo de dimensionamento automático padrão quando você cria um pipeline na interface do usuário do Delta Live Tables. Você pode habilitar o Dimensionamento automático avançado para pipelines existentes editando as configurações do pipeline na interface do usuário. Você também pode habilitar o Dimensionamento automático avançado ao criar ou editar pipelines com a API do Delta Live Tables.
Habilitar o Dimensionamento automático avançado
Observação
Como os recursos de computação são otimizados automaticamente para pipelines sem servidor, as configurações do escalonamento automático aprimorado do Databricks não estão disponíveis quando você seleciona Sem servidor (Visualização Pública) para um pipeline.
Para saber mais sobre como habilitar pipelines DLT sem servidor, entre em contato com a equipe de conta do Azure Databricks.
Para usar o Dimensionamento automático avançado, siga um destes procedimentos:
- Defina o Modo do cluster como Dimensionamento automático aprimorado ao criar um pipeline ou editar um pipeline na interface do usuário do Delta Live Tables.
- Adicione a configuração
autoscale
à configuração do cluster de pipeline e defina o campomode
comoENHANCED
. Consulte Definir as configurações de computação.
Siga as seguintes diretrizes ao configurar o Dimensionamento Automático Aprimorado para pipelines de produção:
- Mantenha a configuração
Min workers
padrão. - Defina a configuração
Max workers
para um valor com base no orçamento e na prioridade do pipeline.
O exemplo a seguir configura um cluster de dimensionamento automático aprimorado com um mínimo de 5 trabalhadores e um máximo de 10 trabalhadores. max_workers
deve ser maior ou igual a min_workers
.
Observação
- O dimensionamento automático aprimorado está disponível somente para clusters
updates
. O recurso de dimensionamento automático existente é usado para clustersmaintenance
. - A configuração
autoscale
tem dois modos:LEGACY
: use dimensionamento automático do cluster.ENHANCED
: usar o Dimensionamento Automático Aprimorado.
{
"clusters": [
{
"autoscale": {
"min_workers": 5,
"max_workers": 10,
"mode": "ENHANCED"
}
}
]
}
O pipeline será reiniciado automaticamente depois que a configuração de dimensionamento automático for alterada se o pipeline estiver configurado para execução contínua. Após a reinicialização, espere um curto período de maior latência. Após esse breve período de maior latência, o tamanho do cluster deve ser atualizado com base em sua configuração autoscale
e a latência do pipeline retornada para suas características de latência anteriores.
Monitoramento de pipelines habilitados para dimensionamento automático aprimorado
Você pode usar o log de eventos na interface do usuário do Delta Live Tables para monitorar métricas avançadas de dimensionamento automático. Eventos de dimensionamento automático aprimorados têm o tipo de evento autoscale
. Estes são os eventos de exemplo:
Evento | Mensagem |
---|---|
Solicitação de redimensionamento de cluster iniciada | Scaling [up or down] to <y> executors from current cluster size of <x> |
Solicitação de redimensionamento de cluster bem-sucedida | Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED |
Solicitação de redimensionamento de cluster parcialmente bem-sucedida | Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED |
Solicitação de redimensionamento de cluster com falha | Achieved cluster size <x> for cluster <cluster-id> with status FAILED |
Você também pode exibir eventos do dimensionamento automático aprimorado consultando diretamente o log de eventos:
- Para consultar o log de eventos em busca de métricas de backlog, confira Monitoramento da lista de pendências de dados consultando o log de eventos.
- Para monitorar solicitações e respostas de redimensionamento de cluster durante operações avançadas de dimensionamento automático, confira Monitorar eventos de dimensionamento automático aprimorados do log de eventos.