Conduzir procedimentos comuns de solução de problemas

Concluído

Depois de concluir esta unidade, deverá ser capaz de descrever os procedimentos para verificações de estado operacional comuns e alguns problemas comuns que poderá encontrar.

Quais motivos podem fazer com que o trabalho que enviei para o Azure Cyclecloud fique preso no estado pendente (PD)?

Um trabalho no estado PD (pendente) indica que, embora um trabalho tenha sido enviado, o Cyclecloud ainda não encontrou nenhum nó disponível para executar o trabalho. Isso pode ser devido a uma série de razões, como recursos insuficientes, especificações de trabalho incorretas ou falhas de nó.

Ao configurar um script de trabalho, você deve garantir que os recursos solicitados estejam dentro dos limites do cluster. Isso ocorre porque o agendador mata o trabalho quando o tempo alocado termina, mesmo que o trabalho exija mais tempo ou fique preso na fila para sempre se o trabalho exigir mais memória do que o que está disponível no sistema.

Que etapas posso tomar para determinar se os nós foram solicitados para meu trabalho do Azure Cyclecloud?

Você pode usar o comando Slurm squeue para verificar o status dos trabalhos.

Qual é a localização dos logs de slurm para nós/agendadores? (Slurm)

No Azure CycleCloud, o local dos logs do Slurm para nós e agendadores depende da configuração do seu cluster do Slurm. Por padrão, os logs são armazenados nos seguintes locais:

Os logs do controlador Slurm normalmente são armazenados no /var/log/slurm/slurmctld.log nó do controlador. O caminho exato pode variar dependendo da sua configuração. Você pode encontrar o caminho do arquivo de log verificando o SlurmctldLogFile parâmetro no arquivo de configuração SLURM (geralmente /etc/slurm/slurm.conf).

Logs de nó de computação Slurm:

Os logs do nó de computação Slurm normalmente são armazenados em /var/log/slurm/slurmd.log cada nó de computação. O caminho exato pode variar dependendo da sua configuração. Você pode encontrar o caminho do arquivo de log verificando o SlurmdLogFile parâmetro no arquivo de configuração do Slurm (geralmente /etc/slurm/slurm.conf).

Para acessar os arquivos de log, você pode fazer login no controlador ou nos nós de computação via SSH e navegar até os caminhos de arquivo de log apropriados. Se você precisar alterar os caminhos do arquivo de log, poderá fazê-lo modificando os SlurmctldLogFile parâmetros e SlurmdLogFile no arquivo de configuração do Slurm.

Como faço para enviar vagas? (Slurm)

Para enviar trabalhos para o Azure CycleCloud ao usar o Slurm como o agendador de tarefas, siga estas etapas:

  1. Faça logon na sua instância do Azure CycleCloud.
  2. Identifique o cluster para o qual você deseja enviar o trabalho. Você pode exibir a lista de seus clusters no painel principal.
  3. Conecte-se ao nó principal (controlador) do cluster Slurm usando SSH.
  4. Uma vez conectado ao nó principal, crie um script de trabalho Slurm. O script de trabalho é um shell script simples que contém diretivas Slurm e os comandos que você deseja executar em seu trabalho.
  5. Envie o trabalho usando o sbatch comando.
  6. Monitore o status do seu trabalho usando comandos do Slurm como squeue, sinfoou sacct.
  7. Quando o trabalho estiver concluído, você poderá visualizar a saída no arquivo de saída especificado (neste exemplo, my_job_output.txt).