使用运行状况服务来监视群集

适用于:Azure Stack HCI 版本 21H2 和 20H2;Windows Server 2022、Windows Server 2019、Windows Server 2016

在 Windows Server 2016 中首次发布的运行状况服务改进了运行“存储空间直通”的群集的日常监视和操作体验。

先决条件

默认情况下,存储空间直通启用运行状况服务。 设置或启动它时无需执行任何其他操作。 若要详细了解存储空间直通,请参阅存储空间直通概述

群集性能历史记录

从存储空间直通群集获取实时性能和容量信息。 请参阅获取群集性能历史记录

运行状况服务报故障

显示任何当前故障以轻松验证部署的运行状况。 请参阅查看运行状况服务故障

运行状况服务操作

跟踪自动执行的运行状况服务操作的进度。 请参阅跟踪运行状况服务操作

自动化

下一部分介绍磁盘生命周期中运行状况服务自动化的工作流。

磁盘生命周期

运行状况服务自动执行物理磁盘生命周期的大多数阶段。 假设部署的初始状态处于最佳运行状况 - 也就是说,所有物理磁盘正常运行。

停用

物理磁盘不再可用且引发相应故障时,将自动停用。 有以下几种情况:

  • 介质故障:物理磁盘彻底失败或损坏,并且必须进行替换。
  • 通信中断:物理磁盘连接断开的持续时间超过 15 分钟。
  • 无响应:物理磁盘在一小时内出现三次或更多次时间超过 5.0 秒的延迟。

注意

如果许多物理磁盘一次性断开连接或整个节点或存储机箱断开连接,运行状况服务将停用这些磁盘,因为它们不太可能是根本问题。

如果已停用的磁盘曾用作许多其他物理磁盘的缓存,则将自动重新分配到另一个缓存磁盘(如果存在)。 无需特定的用户操作。

还原复原能力

一旦停用物理磁盘,运行状况服务会立即开始将其数据复制到其余物理磁盘来还原完全复原能力。 完成后,数据是完全安全的并重新具有容错能力。

注意

此立即还原操作要求剩余的物理磁盘之间具有足够的可用容量。

闪烁的指示灯

如果可能,运行状况服务将开始在停用的物理磁盘或其插槽上闪烁指示灯。 这将无限期继续下去,直到更换已停用的磁盘。

注意

在某些情况下,磁盘甚至可能出现阻止指示灯正常运行的故障 - 例如,完全断电。

物理替换

应尽可能替换已停用的物理磁盘。 大多数情况下,这包括热交换,即不需要关闭节点或存储机箱。 查看故障了解有用的位置和部件信息。

验证

插入替换磁盘后,将根据“支持的组件文档”对其进行验证(见下一节)。

Pooling

如果允许,替代磁盘将被自动替换到其前身池中以进行使用。 此时,系统会恢复到处于最佳运行状况的初始状态,故障消失。

支持的组件文档

运行状况服务提供了一种强制机制,可让“存储空间直通”只使用管理员或解决方案供应商提供的“支持的组件文档”中的组件。 这可用来防止你或其他人误用不受支持的硬件,可能会帮助保证或支持合同的合规性。 此功能当前仅限用于物理磁盘设备,包括 SSD、HDD 和 NVMe 驱动器。 “支持的组件文档”可能会设有模型、制造商(可选)和固件版本(可选)方面的限制。

使用情况

“支持的组件文档”使用源于 XML 的语法。 建议使用自己常用的文本编辑器(如免费的 Visual Studio Code 或记事本)来创建可保存和重复使用的 XML 文档。

部分

该文档有两个独立的部分:DisksCache

如果提供了 Disks 部分,则仅允许列出的驱动器(如 Disk)加入池。 任何未列出的驱动器都不能加入池,这可以有效避免在生产中使用这些驱动器。 如果此部分留空,将允许任何驱动器加入池。

如果提供了 Cache 部分,将仅在缓存中使用列出的驱动器(如 CacheDisk)。 如果此部分留空,存储空间直通会尝试根据媒体类型和总线类型进行猜测。 此处列出的驱动器应也在 Disks 中列出。

重要

“支持的组件文档”不适用于已在池中使用的驱动器。

示例

<Components>

  <Disks>
    <Disk>
      <Manufacturer>Contoso</Manufacturer>
      <Model>XYZ9000</Model>
      <AllowedFirmware>
        <Version>2.0</Version>
        <Version>2.1</Version>
        <Version>2.2</Version>
      </AllowedFirmware>
      <TargetFirmware>
        <Version>2.1</Version>
        <BinaryPath>C:\ClusterStorage\path\to\image.bin</BinaryPath>
      </TargetFirmware>
    </Disk>
    <Disk>
      <Manufacturer>Fabrikam</Manufacturer>
      <Model>QRSTUV</Model>
    </Disk>
  </Disks>

  <Cache>
    <CacheDisk>
      <Manufacturer>Fabrikam</Manufacturer>
      <Model>QRSTUV</Model>
    </CacheDisk>
  </Cache>

</Components>

若要列出多个驱动器,只需添加额外的 <Disk><CacheDisk> 标签。

若要在部署存储空间直通时注入此 XML,请使用 -XML 参数:

$MyXML = Get-Content <Filepath> | Out-String
Enable-ClusterS2D -XML $MyXML

若要在部署存储空间直通后设置或修改“支持的组件文档”:

$MyXML = Get-Content <Filepath> | Out-String
Get-StorageSubSystem Cluster* | Set-StorageHealthSetting -Name "System.Storage.SupportedComponents.Document" -Value $MyXML

注意

型号、制造商和固件版本属性应完全匹配使用 Get-physicaldisk cmdlet 获取的值。 这可能不同于“常识”期望,具体取决于供应商的实施。 例如,制造商不是“Contoso”,而可能是“CONTOSO-LTD”,或者在型号为“Contoso-XZY9000”时它可能保留为空。

你可以使用以下 PowerShell cmdlet 进行验证:

Get-PhysicalDisk | Select Model, Manufacturer, FirmwareVersion

运行状况服务设置

修改运行状况服务设置以调整故障或操作的攻击性、打开或关闭某些行为等。 请参阅修改运行状况服务设置

其他参考