Share via


Definir configurações para trabalhos do Azure Databricks

Este artigo fornece detalhes sobre como configurar os Trabalhos do Azure Databricks e tarefas de trabalho individuais na interface do usuário de Trabalhos. Para saber mais sobre como usar a CLI do Databricks para editar as configurações do trabalho, execute o comando databricks jobs update -hCLI . Para saber mais sobre como usar a API de Trabalhos, consulte a API de Trabalhos.

Algumas opções de configuração estão disponíveis no trabalho e outras opções estão disponíveis em tarefas individuais. Por exemplo, o máximo de execuções simultâneas pode ser definido apenas no trabalho, enquanto as políticas de repetição são definidas para cada tarefa.

Editar um trabalho

Para alterar a configuração de um trabalho:

  1. Clique em Ícone Fluxos de TrabalhoFluxos de trabalho na barra lateral.
  2. Na coluna Nome, clique no nome do trabalho.

O painel lateral exibe os detalhes do trabalho. Você pode alterar o gatilho para o trabalho, a configuração de computação, as notificações, o número máximo de execuções simultâneas, configurar limites de duração e adicionar ou alterar tags. Se o controle de acesso ao trabalho estiver habilitado, você também poderá editar as permissões do trabalho.

Adicionar parâmetros para todas as tarefas de trabalho

Você pode configurar parâmetros em um trabalho que são passados para qualquer uma das tarefas do trabalho que aceitam parâmetros chave-valor, incluindo arquivos de roda Python configurados para aceitar argumentos de palavra-chave. Os parâmetros definidos no nível do trabalho são adicionados aos parâmetros configurados no nível da tarefa. Os parâmetros de trabalho passados para tarefas são visíveis na configuração da tarefa, juntamente com quaisquer parâmetros configurados na tarefa.

Você também pode passar parâmetros de trabalho para tarefas que não estão configuradas com parâmetros de chave-valor, como JAR ou Spark Submit tarefas. Para passar parâmetros de trabalho para essas tarefas, formate argumentos como {{job.parameters.[name]}}, substituindo [name] pelo key que identifica o parâmetro.

Os parâmetros de trabalho têm precedência sobre os parâmetros de tarefa. Se um parâmetro job e um parâmetro task tiverem a mesma chave, o parâmetro job substituirá o parâmetro task.

Você pode substituir parâmetros de trabalho configurados ou adicionar novos parâmetros de trabalho ao executar um trabalho com parâmetros diferentes ou reparar uma execução de trabalho.

Você também pode compartilhar contexto sobre trabalhos e tarefas usando um conjunto de referências de valor dinâmico.

Para adicionar parâmetros de trabalho, clique em Editar parâmetros no painel lateral Detalhes do trabalho e especifique a chave e o valor padrão de cada parâmetro. Para exibir uma lista de referências de valores dinâmicos disponíveis, clique em Procurar valores dinâmicos.

Adicionar tags a um trabalho

Para adicionar rótulos ou atributos key:value ao seu trabalho, você pode adicionar tags ao editá-lo. Você pode usar tags para filtrar trabalhos na lista Trabalhos, por exemplo, você pode usar uma department tag para filtrar todos os trabalhos que pertencem a um departamento específico.

Nota

Como as tags de trabalho não são projetadas para armazenar informações confidenciais, como informações de identificação pessoal ou senhas, a Databricks recomenda o uso de tags apenas para valores não confidenciais.

As tags também se propagam para clusters de trabalho criados quando um trabalho é executado, permitindo que você use tags com o monitoramento de cluster existente.

Para adicionar ou editar tags, clique em + Marcar no painel lateral Detalhes do trabalho. Você pode adicionar a tag como uma chave e valor ou um rótulo. Para adicionar um rótulo, insira o rótulo no campo Chave e deixe o campo Valor vazio.

Configurar clusters compartilhados

Para ver as tarefas associadas a um cluster, clique na guia Tarefas e passe o mouse sobre o cluster no painel lateral. Para alterar a configuração do cluster para todas as tarefas associadas, clique em Configurar no cluster. Para configurar um novo cluster para todas as tarefas associadas, clique em Trocar sob o cluster.

Controlar o acesso a um trabalho

O controle de acesso ao trabalho permite que os proprietários e administradores do trabalho concedam permissões refinadas em seus trabalhos. Os proprietários de trabalhos podem escolher quais outros usuários ou grupos podem exibir os resultados do trabalho. Os proprietários também podem escolher quem pode gerenciar suas execuções de trabalho (permissões Executar agora e Cancelar execução).

Para obter informações sobre níveis de permissão de trabalho, consulte ACLs de trabalho.

Você deve ter a permissão CAN MANAGE ou IS OWNER no trabalho para gerenciar permissões nele.

  1. Na barra lateral, clique em Execução de Trabalho.

  2. Clique no nome de um trabalho.

  3. No painel Detalhes do trabalho, clique em Editar permissões.

  4. Em Configurações de Permissão, clique no menu suspenso Selecionar Usuário, Grupo ou Entidade de Serviço... e selecione um usuário, grupo ou entidade de serviço.

    Caixa de diálogo Configurações de permissões

  5. Clique em Adicionar.

  6. Clique em Guardar.

Gerenciar o proprietário do trabalho

Por padrão, o criador de um trabalho tem a permissão IS OWNER e é o usuário na configuração Executar como do trabalho. Execução do trabalho como a identidade do usuário na configuração Executar como . Para obter mais informações sobre a configuração Executar como , consulte Executar um trabalho como uma entidade de serviço.

Os administradores do espaço de trabalho podem alterar o proprietário do trabalho para si mesmos. Quando a propriedade é transferida, o proprietário anterior recebe a permissão CAN MANAGE

Nota

Quando a RestrictWorkspaceAdmins configuração em um espaço de trabalho é definida como ALLOW ALL, os administradores do espaço de trabalho podem alterar o proprietário de um trabalho para qualquer usuário ou entidade de serviço em seu espaço de trabalho. Para restringir os administradores de espaço de trabalho a alterar apenas o proprietário de um trabalho para si mesmos, consulte Restringir administradores de espaço de trabalho.

Configurar o máximo de execuções simultâneas

Clique em Editar execuções simultâneas em Configurações avançadas para definir o número máximo de execuções paralelas para este trabalho. O Azure Databricks ignora a execução se o trabalho já tiver atingido seu número máximo de execuções ativas ao tentar iniciar uma nova execução. Defina esse valor mais alto do que o padrão de 1 para executar várias execuções do mesmo trabalho simultaneamente. Isso é útil, por exemplo, se você acionar seu trabalho em um cronograma frequente e quiser permitir que execuções consecutivas se sobreponham umas às outras ou se quiser acionar várias execuções que diferem por seus parâmetros de entrada.

Habilitar o enfileiramento de execuções de trabalho

Para permitir que as execuções de um trabalho sejam colocadas em uma fila para serem executadas mais tarde quando não puderem ser executadas imediatamente devido aos limites de simultaneidade, clique no botão Alternar fila em Configurações avançadas. Consulte E se o meu trabalho não puder ser executado devido a limites de simultaneidade?.

Nota

O enfileiramento é habilitado por padrão para trabalhos que foram criados por meio da interface do usuário após 15 de abril de 2024.

Configurar um tempo de conclusão esperado ou um tempo limite para um trabalho

Você pode configurar limites de duração opcionais para um trabalho, incluindo um tempo de conclusão esperado para o trabalho e um tempo máximo de conclusão para o trabalho. Para configurar limites de duração, clique em Definir limites de duração.

Para configurar um tempo de conclusão esperado para o trabalho, insira a duração esperada no campo Aviso . Se o trabalho exceder esse limite, você poderá configurar notificações para o trabalho de execução lenta. Consulte Configurar notificações para trabalhos lentos ou atrasados.

Para configurar um tempo máximo de conclusão de um trabalho, insira a duração máxima no campo Tempo limite . Se o trabalho não for concluído nesse período, o Azure Databricks definirá seu status como "Tempo Limite" e o trabalho será interrompido.

Editar uma tarefa

Para definir opções de configuração de tarefas:

  1. Clique em Ícone Fluxos de TrabalhoFluxos de trabalho na barra lateral.
  2. Na coluna Nome, clique no nome do trabalho.
  3. Clique na guia Tarefas e selecione a tarefa a ser editada.

Definir dependências de tarefas

Você pode definir a ordem de execução das tarefas em um trabalho usando o menu suspenso Depende de . Você pode definir esse campo para uma ou mais tarefas no trabalho.

Editar dependências de tarefas

Nota

Depende de não é visível se o trabalho consiste em apenas uma tarefa.

A configuração de dependências de tarefas cria um Gráfico Acíclico Direcionado (DAG) de execução de tarefas, uma maneira comum de representar a ordem de execução em agendadores de tarefas. Por exemplo, considere o seguinte trabalho que consiste em quatro tarefas:

Diagrama de exemplo de dependências de tarefas

  • A tarefa 1 é a tarefa raiz e não depende de nenhuma outra tarefa.
  • A Tarefa 2 e a Tarefa 3 dependem da conclusão da Tarefa 1 primeiro.
  • Finalmente, a Tarefa 4 depende da conclusão bem-sucedida da Tarefa 2 e da Tarefa 3.

O Azure Databricks executa tarefas upstream antes de executar tarefas downstream, executando o maior número possível delas em paralelo. O diagrama a seguir ilustra a ordem de processamento dessas tarefas:

Fluxo de exemplo de dependências de tarefas

Configurar um cluster para uma tarefa

Para configurar o cluster onde uma tarefa é executada, clique no menu suspenso Cluster . Você pode editar um cluster de trabalho compartilhado, mas não pode excluir um cluster compartilhado se outras tarefas ainda o usarem.

Para saber mais sobre como selecionar e configurar clusters para executar tarefas, consulte Usar a computação do Azure Databricks com seus trabalhos.

Configurar bibliotecas dependentes

As bibliotecas dependentes serão instaladas no cluster antes da execução da tarefa. Tem de definir todas as dependências de tarefas para garantir que são instaladas antes do início da execução. Siga as recomendações em Gerenciar dependências de biblioteca para especificar dependências.

Configurar um tempo de conclusão esperado ou um tempo limite para uma tarefa

Você pode configurar limites de duração opcionais para uma tarefa, incluindo um tempo de conclusão esperado para a tarefa e um tempo máximo de conclusão para a tarefa. Para configurar limites de duração, clique em Limite de duração.

Para configurar o tempo esperado de conclusão da tarefa, insira a duração no campo Aviso . Se a tarefa exceder esse limite, um evento será acionado. Você pode usar esse evento para notificar quando uma tarefa está sendo executada lentamente. Consulte Configurar notificações para trabalhos lentos ou atrasados.

Para configurar um tempo máximo de conclusão de uma tarefa, insira a duração máxima no campo Tempo limite . Se a tarefa não for concluída nesse período, o Azure Databricks definirá seu status como "Tempo Limite".

Configurar uma política de repetição para uma tarefa

Para configurar uma política que determine quando e quantas vezes as execuções de tarefas com falha são repetidas, clique em + Adicionar ao lado de Tentativas. O intervalo de repetição é calculado em milissegundos entre o início da execução com falha e a execução de repetição subsequente.

Nota

Se você configurar o tempo limite e as tentativas, o tempo limite se aplicará a cada nova tentativa.