Effectuer des procédures de résolution des problèmes courantes

Effectué

Une fois cette unité terminée, vous devez être en mesure de décrire les procédures relatives aux vérifications d’état opérationnel courantes et certains problèmes courants que vous pouvez rencontrer.

Quelles sont les raisons possibles pour lesquelles le travail que j’ai envoyé à Azure CycleCloud est bloqué dans l’état En attente (PD) ?

Quand un travail est dans l’état PD (En attente), cela indique que même si un travail a été envoyé, CycleCloud n’a pas encore trouvé de nœuds disponibles pour exécuter le travail. Cela peut s’expliquer par un certain nombre de raisons, comme des ressources insuffisantes, des spécifications de travail incorrectes ou des défaillances de nœud.

Lors de la configuration d’un script de travail, vous devez garantir que les ressources demandées se trouvent dans les limites du cluster. Cela est dû au fait que le planificateur supprime le travail une fois le temps alloué écoulé, même si le travail demande plus de temps, ou que le travail reste bloqué dans la file d’attente s’il demande plus de mémoire que ce qui est disponible sur le système.

Quelles étapes puis-je effectuer pour déterminer si des nœuds ont été demandés pour mon travail Azure CycleCloud ?

Vous pouvez utiliser la commande Slurm squeue pour vérifier l’état des travaux.

Quel est l’emplacement des journaux Slurm pour les nœuds/planificateurs ? (Slurm)

Dans Azure CycleCloud, l’emplacement des journaux Slurm pour les nœuds et les planificateurs dépend de la configuration de votre cluster Slurm. Par défaut, les journaux sont stockés dans les emplacements suivants :

Les journaux de contrôleur Slurm sont généralement stockés dans /var/log/slurm/slurmctld.log sur le nœud de contrôleur. Le chemin exact varie en fonction de votre configuration. Pour trouver le chemin du fichier journal, vérifiez le paramètre SlurmctldLogFile dans le fichier de configuration Slurm (généralement, /etc/slurm/slurm.conf).

Journaux de nœud de calcul Slurm :

Les journaux de nœud de calcul Slurm sont généralement stockés dans /var/log/slurm/slurmd.log sur chaque nœud de calcul. Le chemin exact varie en fonction de votre configuration. Pour trouver le chemin du fichier journal, vérifiez le paramètre SlurmdLogFile dans le fichier de configuration Slurm (généralement, /etc/slurm/slurm.conf).

Pour accéder aux fichiers journaux, vous pouvez vous connecter aux nœuds de contrôleur ou de calcul via SSH et accéder aux chemins de fichier journal appropriés. Si vous devez changer les chemins de fichier journal, vous pouvez, pour cela, modifier les paramètres SlurmctldLogFile et SlurmdLogFile dans le fichier de configuration Slurm.

Quelle est la procédure à suivre pour envoyer des travaux ? (Slurm)

Pour envoyer des travaux à Azure CycleCloud lorsque vous utilisez Slurm comme planificateur de travaux, effectuez les étapes suivantes :

  1. Connectez-vous à votre instance Azure CycleCloud.
  2. Identifiez le cluster auquel vous souhaitez envoyer le travail. Vous pouvez voir la liste de vos clusters dans le tableau de bord principal.
  3. Connectez-vous au nœud principal (nœud de contrôleur) de votre cluster Slurm à l’aide de SSH.
  4. Une fois connecté au nœud principal, créez un script de travail Slurm. Le script de travail est un script d’interpréteur de commandes simple qui contient des directives Slurm et les commandes que vous souhaitez exécuter dans votre travail.
  5. Envoyez le travail à l’aide de la commande sbatch.
  6. Supervisez l’état de votre travail à l’aide de commandes Slurm comme squeue, sinfo ou sacct.
  7. Une fois le travail terminé, vous pouvez afficher la sortie dans le fichier de sortie spécifié (dans cet exemple, my_job_output.txt).