您现在访问的是微软AZURE全球版技术文档网站,若需要访问由世纪互联运营的MICROSOFT AZURE中国区技术文档网站,请访问 https://docs.azure.cn.

云中部署的 HPC 群集

管道
Blob 存储
Batch
监视

解决方案理念

如果想了解详细信息(例如潜在用例、替代服务、实现注意事项或定价指南)来扩展本文,请通过反馈GitHub告知我们!

高性能计算 (HPC) 应用程序可以扩展到数千个计算核心、扩展本地大计算或作为100% 云本机解决方案运行。 此 HPC 解决方案建立在 Azure 托管服务的基础上: Azure Batch,并由Azure Pipelines作业启动。 这些服务在高可用性环境中运行,经过修补和支持改进,让你可专注于解决方案而不是其运行环境。

体系结构

体系结构关系图 下载此体系结构的SVG

解决方案涉及以下步骤:

  1. Azure Pipelines 启动一个管道,该管道编译团队的代码项目并将其存储为可执行文件,Azure 存储
  2. 管道作业通过将一些处理数据加载到存储帐户中来继续进行。
  3. 最后,Azure Pipelines 请求 Azure Batch 服务启动其处理作业,从而完成管道。
  4. Azure Batch 服务将从存储复制程序可执行文件和输入数据,并将其分配给计算节点池
  5. Batch 服务在节点完成其工作时,为池执行作业和任务管理,重试或重新分配任务。
  6. 计算节点工作时,Azure Monitor 从池中收集性能数据 (CPU、内存、磁盘 i/o) 和日志文件。 团队可以研究此遥测数据,以便在将来生成更好的作业。
  7. 计算节点完成任务后,它们会将其程序数据输出回 Azure 存储以供团队查看。

组件

  • Azure Pipelines生成和测试代码项目,并在 Azure Batch 服务上启动 HPC 作业。
  • Azure 存储包含作业中使用的 HPC 数据和可执行文件。
  • Azure Batch 计划大量节点上的作业和任务,并管理所有计算资源。
  • Azure 虚拟机 以辅助角色运行,执行计算任务。
  • 虚拟网络 在计算资源与其他云服务之间提供 IP 连接,这种情况高于并超出了任何本机范围或 RDMA 通信。
  • Azure Monitor 从云资源收集性能指标和日志,以便报告、发出警报和自动响应。

注意事项

Batch 计算池不需要包含商用硬件。 Azure Batch 使用具有 GPU 处理器和高级网络的专用虚拟机。 提供了具有 NVIDIA Tesla Gpu 和高吞吐量无线网络gpu 优化虚拟机

Batch 计算池可以 自动缩放,这会随着工作量的变化增加和减少池中的节点数。 自动缩放可以将作业的计算成本降低到仅执行任务的资源,而不是为未使用的池成员付费。

定价

若要了解运行此方案的成本,请使用 azure 定价计算器,它预配置所有 Azure 服务。

Azure Batch 是一种免费服务,客户只需支付基础虚拟机、存储和网络成本。 在此解决方案中,Azure Pipelines 和 Azure Monitor 服务有额外的费用。 不过,对于 Azure Batch,可以选择购买图形渲染软件 (例如,Autodesk Maya 和无混乱的组 V 光) 每分钟费率。 请参阅 Azure Batch 定价 获取详细信息。

后续步骤