练习 - 从内置模板创建 HPC 群集

已完成

你可以直接从 Azure CycleCloud Web 应用程序的图形界面创建新群集。 CycleCloud 提供许多特定于计划程序的预定义模板,可简化相应计划程序的群集预配过程。

你已经预配了托管 CycleCloud Web 应用程序的 Azure 虚拟机,现在可以评估是否可以使用它来将基于 Slurm 的 HPC 群集部署到 Azure。 首先需要确保 Azure 订阅满足群集的资源要求。 还要考虑管理团队是否希望将群集的成本保持在项目的预算内。 因此,你计划设置 CycleCloud 预算警报,并在完成评估后取消预配实验室环境。

在此练习中,将逐步使用 Azure CycleCloud 将基于 Slurm 的 HPC 群集部署到 Azure。 该练习由以下任务组成:

  • 任务 1:准备部署 HPC 群集
  • 任务 2:使用 Azure CycleCloud 创建 HPC 群集
  • 任务 3:使用 Azure CycleCloud 配置和启动 HPC 群集
  • 任务 4:清理实验室环境

任务 1:准备部署 HPC 群集

在部署 HPC 群集之前,你应首先确保有足够的网络和计算资源来满足其使用情况。

注意

若要完成本练习,无需满足配额要求来达到计算节点的预配,因为不会在创建的群集上运行任何作业。 但是,如果是这种情况,你可能会注意到本练习中的屏幕截图与 CycleCloud Web 界面不匹配,因为如果没有足够数量的可用核心,CycleCloud 不会预先创建占位符计算节点。

  1. 在计算机上,切换到显示 Azure 门户的 Web 浏览器窗口。

  2. 在 Azure 门户中,使用门户界面顶部的搜索框来搜索“cyclecloud-rg”资源组

  3. 在 Azure 门户的“cyclecloud-rg”页面上的资源列表中,选择“cyclecloud-rg-vnet”条目,它表示在本模块的上一练习中预配的虚拟网络

  4. 在“cyclecloud-rg-vnet”页面的左侧垂直菜单中,选择“子网”

  5. 在“cyclecloud-rg-vnet | 子网”窗格上,选择“+ 子网”

  6. 在“添加子网”窗格的“名称”文本框中,输入“contoso-slurm-lab-cluster-subnet”,接受默认子网范围,然后选择“保存”

    注意

    建议将托管 CycleCloud Azure VM 的子网与托管群集计算资源的子网分开。 对于较大的群集,应分配足够大小的 IP 地址范围。

  7. 在 Azure 门户中,使用搜索框来搜索“订阅”

  8. 在“订阅”页面上,选择要在此模块的练习中使用的 Azure 订阅

  9. 在显示 Azure 订阅的页面的左侧垂直菜单中,在“设置”部分选择“使用情况 + 配额”

  10. 在“使用情况 + 配额”窗格上,配置以下筛选设置(将其他设置保留为默认值)

    设置 Value
    选择服务 选择“标准 Dv3 系列 vCPU”、“标准 FSv2 系列 vCPU”和“区域 vCPU 总数”条目。
    选择提供程序 选择“Microsoft.Compute”条目。
    选择一个位置 在此练习中,选择要在其中部署群集的 Azure 区域的名称。
  11. 查看输出并确定每个组中可用 vCPU 的数量。

    显示 Azure 门户中“使用情况 + 配额”窗格的屏幕截图。

任务 2:使用 Azure CycleCloud 创建 HPC 群集

你已经在 Azure VM 中安装了 CycleCloud Web 应用程序,你的 Azure 订阅中有足够的 vCPU 核心,并且拥有一个能够满足群集节点自动缩放的指定网络子网, 现在可以继续部署基于 Slurm 的群集。

  1. 在计算机上,在显示 Azure CycleCloud Web 应用程序“订阅”页面的 Web 浏览器窗口中,选择左上角的“返回到群集”链接。

  2. 在“创建新群集”页面上,查看可用选项,在“计划程序”部分,选择“Slurm”。

    显示 Azure CycleCloud Web 应用程序的“创建新群集”页面的屏幕截图。

  3. 在“新建 Slurm 群集”页面的“关于”选项卡上,在“群集名称”文本框中输入“contoso-slurm-lab-cluster”。

    显示 Azure CycleCloud Web 应用程序的“新建 Slurm 群集”页面的“关于”选项卡的屏幕截图。

  4. 在“新建 Slurm 群集”页面的“所需设置”选项卡上,在“群集名称”文本框中配置以下设置(将其他设置保留为默认值):

    设置
    区域 在本练习中,选择要在其中部署群集的 Azure 区域的名称。
    计划程序 VM 类型 选择“选择”,然后在“选择计算机类型”弹出窗口的“SKU 搜索”文本框中,输入“D4_v3”。 在结果列表中,选中“D4_v3”条目旁边的复选框,然后选择“应用”。

    显示 Azure CycleCloud Web 应用程序的“新建 Slurm 群集”页面的“选择计算机类型”弹出窗口选项卡的屏幕截图。

    设置
    最大 HPC 核心数 输入 100
    最大 HTC 核心数 输入 100
    每个规模集的最大 VM 数 输入 40
    子网 ID 选择“cyclecloud-rg: cyclecloud-rg-vnet-contoso-slurm-lab-cluster-subnet”

    显示 Azure CycleCloud Web 应用程序的“新建 Slurm 群集”页面的“所需设置”选项卡的屏幕截图。

    注意

    “每个规模集的最大 VM 数”设置用于限制可在群集上运行的消息传递接口作业的最大大小,因为规模集当前是 InfiniBand 构造边界

  5. 在“新建 Slurm 群集”页面的“网络连接存储”选项卡上,验证“NFS 类型”是否设置为“内置”。 接受“大小(GB)”默认值设置为“100”,然后选择“下一步”

    显示 Azure CycleCloud Web 应用程序的“新建 Slurm 群集”页面的“网络连接存储”选项卡的屏幕截图。

  6. 在“新建 Slurm 群集”页面的“高级设置”选项卡上,查看可用选项且无需做出任何更改,然后选择“下一步”。

    显示 Azure CycleCloud Web 应用程序的“新建 Slurm 群集”页面的“高级设置”选项卡的屏幕截图。

  7. 在“新建 Slurm 群集”页面的“Cloud-init”选项卡上,查看可用选项且无需做出任何更改,然后选择“保存”。

任务 3:使用 Azure CycleCloud 配置和启动 HPC 群集

若要准备运行群集,需要设置警报,以便在群集使用成本达到分配给 Azure 资源成本的预算时提醒你。 你还通过使用 CycleCloud Web 应用程序的图形界面启动群集来验证部署。

  1. 在计算机上,在显示 Azure CycleCloud Web 应用程序图形界面的 Web 浏览器中,查看新部署的群集的属性。

    显示 Azure CycleCloud Web 应用程序中处于“关闭”状态的 contoso-slurm-lab-cluster 的页面的屏幕截图。

  2. 在“contoso-slurm-lab-cluster”页面上,选择“创建新警报”链接。

  3. 在“contoso-slurm-lab-cluster 的群集使用情况警报”弹出窗口中,指定以下设置,然后选择“保存”:

    设置 Value
    预算 100.00 美元
    计费方式 Month
    发送通知 Enabled
    收件人 cc-admin@contoso.com

    显示 Azure CycleCloud Web 应用程序中的“contoso-slurm-lab-cluster 的群集使用情况警报”弹出窗口的屏幕截图。

  4. 返回到“contoso-slurm-lab-cluster”页面,选择“开始”链接,当系统提示确认时,选择“确定”。

  5. 监视启动过程。

    注意

    此过程包括预配充当群集头节点角色的 Azure VM,以及安装和配置 Slurm 计划程序。 这可能需要大约五分钟。

    显示 Azure CycleCloud Web 应用程序中处于“已启动”状态的 contoso-slurm-lab-cluster 的“节点”选项卡页面的屏幕截图。

任务 4:清理实验室环境

你已完成使用 Azure CycleCloud 应用程序测试群集部署这一过程。 为了避免与使用 Azure 资源相关的不必要成本,请终止群集并移除在本课程的所有练习中预配的全部资源。

  1. 在计算机上,在显示 Azure CycleCloud Web 应用程序图形界面的 Web 浏览器中,在“contoso-slurm-lab-cluster”页面上,选择“终止”链接,当系统提示确认时,选择“确定”。

  2. 监视终止过程。

    注意

    此过程包含取消预配充当群集头节点角色的 Azure VM。 这可能需要大约五分钟。

    注意

    你应删除在本练习中部署的资源,如此任务所述。 如果不删除资源,你的订阅可能会产生额外的费用。

    注意

    若要删除在此实验室中预配的所有其他资源,请删除“cyclecloud-rg”资源组

  3. 在计算机上,切换到显示 Azure 门户的浏览器窗口。

  4. 在 Azure 门户中,导航到“cyclecloud-rg”边栏选项卡。 选择工具栏中的“删除资源组”条目,然后在“键入资源组名称”文本框中输入“cyclecloud-rg”,然后选择“删除”。

  5. 重复上一步,删除名称以“contoso-slurm-lab-cluster-”开头的资源组(包含群集使用的磁盘资源)

恭喜! 你已成功完成本模块的第二个练习。 你已确保满足新群集部署所需的计算和网络资源的可用性。 然后,你使用 Azure CycleCloud 部署了群集,配置了其预算警报,并启动它来验证其功能。 最后,你终止了群集并删除了在此模块中预配的所有资源,以避免产生任何不必要的费用。