执行常见故障排除过程

已完成

完成本单元后,你应该能够介绍常见操作状态检查过程以及可能会遇到的一些常见问题。

哪些原因可能导致提交到 Azure Cyclecloud 的作业处于挂起 (PD) 状态?

作业处于 PD(挂起)状态表示尽管已提交作业,但 Cyclecloud 尚未找到任何可用于运行该作业的节点。 这可能是由于多种原因造成的,例如资源不足、作业规范不正确或节点故障。

配置作业脚本时,必须确保请求的资源在群集限制范围内。 这是因为,即使作业需要更多时间,计划程序也会在分配的时间结束后立即终止作业,或者如果作业需要的内存超过系统上的可用内存,作业将永远卡在队列中。

可以采取哪些步骤来确定是否已为 Azure Cyclecloud 作业请求节点?

可以使用 Slurm squeue 命令来检查作业的状态。

节点/计划程序的 slurm 日志处于什么位置? (Slurm)

在 Azure CycleCloud 中,节点和计划程序的 Slurm 日志的位置取决于 Slurm 群集的配置。 默认情况下,日志存储在以下位置:

Slurm 控制器日志通常存储在控制器节点上的 /var/log/slurm/slurmctld.log 中。 具体路径因配置而异。 可以通过检查 SLURM 配置文件中的 SlurmctldLogFile 参数来查找日志文件路径(通常为 /etc/slurm/slurm.conf)。

Slurm 计算节点日志:

Slurm 计算节点日志通常存储在每个计算节点上的 /var/log/slurm/slurmd.log 中。 具体路径因配置而异。 可以通过检查 Slurm 配置文件中的 SlurmdLogFile 参数来查找日志文件路径(通常为 /etc/slurm/slurm.conf)。

若要访问日志文件,可以通过 SSH 登录到控制器或计算节点,并导航到相应的日志文件路径。 如果需要更改日志文件路径,可以通过修改 Slurm 配置文件中的 SlurmctldLogFileSlurmdLogFile 参数来执行此操作。

如何提交作业? (Slurm)

若要在使用 Slurm 作为作业计划程序时将作业提交到 Azure CycleCloud,请执行以下步骤:

  1. 登录到 Azure CycleCloud 实例。
  2. 确定要将作业提交到的群集。 可以在主仪表板上查看群集列表。
  3. 使用 SSH 连接到 Slurm 群集的头节点(控制器)。
  4. 连接到头节点后,请创建 Slurm 作业脚本。 作业脚本是一种简单的 shell 脚本,其中包含 Slurm 指令和要在作业中执行的命令。
  5. 使用 sbatch 命令提交作业。
  6. 使用 Slurm 命令(如 squeuesinfosacct)监视作业的状态。
  7. 作业完成后,可以在指定的输出文件(在本示例中为 my_job_output.txt)中查看输出。