Мониторинг кластеров с помощью службы работоспособности

Область применения: Azure Stack HCI версий 23H2 и 22H2; Windows Server 2022, Windows Server 2019, Windows Server 2016

Служба работоспособности, впервые выпущенная в Windows Server 2016, улучшает повседневные возможности мониторинга и эксплуатации кластеров, работающих Локальные дисковые пространства.

Предварительные требования

Служба работоспособности включена по умолчанию для локальных дисковых пространств. Не требуется никаких дополнительных действий для ее настройки и запуска. Дополнительные сведения о Локальные дисковые пространства см. в обзоре Локальные дисковые пространства.

Журнал производительности кластера

Получите сведения о производительности и емкости в реальном времени из кластера Локальные дисковые пространства. См . раздел Получение журнала производительности кластера.

Ошибки службы работоспособности

Отображение текущих ошибок, чтобы легко проверить работоспособность развертывания. См. раздел Просмотр ошибок службы работоспособности.

Действия службы работоспособности

Отслеживайте ход выполнения действий службы работоспособности, которые выполняются автономно. См . раздел Отслеживание действий службы работоспособности.

Автоматизация

В следующем разделе описываются рабочие процессы жизненного цикла диска, которые автоматизирует служба работоспособности.

Жизненный цикл диска

Служба работоспособности автоматизирует практически все этапы жизненного цикла физического диска. Предположим, что изначально развертывание находится в идеальном состоянии, то есть все физические диски работают должным образом.

Прекращение использования

Физические диски автоматически снимаются с учета, если их невозможно использовать. При этом создается соответствующее сообщение об ошибке. Причины этого могут быть разные:

  • Сбой носителя: несомненный сбой или поломка физического диска, требуется замена диска.
  • Потеря связи: физический диск теряет подключение более чем на 15 минут подряд.
  • Отсутствие ответа: ответ от физического диска задерживался более чем на 5 секунд как минимум 3 раза за час.

Примечание

Если утрачено соединение одновременно с несколькими физическими дисками, со всем узлом или дисковой полкой, служба работоспособности не снимает диски с учета, так как, скорее всего, они не являются главной проблемой.

Если снятый с учета диск выполнял функции кэша для нескольких других физических дисков, то для них автоматически назначается новый диск кэша (если он доступен). Никаких действий со стороны пользователя не требуется.

Восстановление устойчивости

После снятия с учета физического диска служба работоспособности немедленно начинает копировать данные на оставшиеся физические диски, чтобы восстановить полную устойчивость. После завершения этой операции данные снова полностью защищены и отказоустойчивы.

Примечание

Для такого немедленного восстановления требуется наличие достаточной емкости на оставшихся физических дисках.

Мигающий световой индикатор

Если возможно, служба работоспособности активирует мигание светового индикатора на снятом с учета физическом диске или на его слоте. Мигание продолжается неограниченно долго, вплоть до замены снятого с учета диска.

Примечание

При некоторых сбоях, например при полной потере питания, становится невозможным даже мигание индикатора.

Физическая замена

Снятый с учета физический диск следует заменить как можно быстрее. Чаще всего она состоит из горячей замены, т. е. выключение узла или корпуса хранилища не требуется. В описании ошибки представлена полезная информация о проблемной детали и ее расположении.

Проверка

При вставке заменяющего диска он будет проверен на соответствие документу о поддерживаемых компонентах (см. следующий раздел).

Pooling

Если новый диск признается допустимым, он автоматически занимает место своего предшественника в пуле и берет на себя его функции. На этом этапе система возвращается в исходное состояние идеальной работоспособности и ошибка исчезает.

Документ о поддерживаемых компонентах

Служба работоспособности предоставляет механизм принудительного применения для ограничения компонентов, используемых Локальные дисковые пространства, теми, которые содержатся в документе о поддерживаемых компонентах, предоставленном администратором или поставщиком решения. Благодаря этому можно предотвратить случайное использование неподдерживаемого оборудования, что помогает соблюсти условия гарантии или договора. В настоящее время эта функция ограничена физическими дисками, включая SSD, ЖЕСТКИЕ диски и диски NVMe. Документ о поддерживаемых компонентах может ограничивать модель, изготовитель (необязательно) и версию встроенного ПО (необязательно).

Использование

В документе о поддерживаемых компонентах используется синтаксис на основе XML. Мы рекомендуем использовать избранный текстовый редактор, например бесплатный Visual Studio Code или Блокнот, чтобы создать XML-документ, который можно сохранить и использовать повторно.

Разделы

Документ состоит из двух независимых разделов: Disks и Cache.

Disks Если указан раздел , присоединять пулы разрешено только перечисленным дискам (как Disk). Все неподписанные диски не могут присоединяться к пулам, что фактически исключает их использование в рабочей среде. Если этот раздел оставить пустым, всем дискам будет разрешено присоединяться к пулам.

Cache Если указан раздел, для кэширования используются только перечисленные диски (как CacheDisk). Если этот раздел оставить пустым, Локальные дисковые пространства пытается угадать на основе типа носителя и типа шины. Диски, перечисленные здесь, также должны быть перечислены в Disks.

Важно!

Документ о поддерживаемых компонентах не применяется задним числом к дискам, уже размещенным в пуле и используемым.

Пример

<Components>

  <Disks>
    <Disk>
      <Manufacturer>Contoso</Manufacturer>
      <Model>XYZ9000</Model>
      <AllowedFirmware>
        <Version>2.0</Version>
        <Version>2.1</Version>
        <Version>2.2</Version>
      </AllowedFirmware>
      <TargetFirmware>
        <Version>2.1</Version>
        <BinaryPath>C:\ClusterStorage\path\to\image.bin</BinaryPath>
      </TargetFirmware>
    </Disk>
    <Disk>
      <Manufacturer>Fabrikam</Manufacturer>
      <Model>QRSTUV</Model>
    </Disk>
  </Disks>

  <Cache>
    <CacheDisk>
      <Manufacturer>Fabrikam</Manufacturer>
      <Model>QRSTUV</Model>
    </CacheDisk>
  </Cache>

</Components>

Чтобы вывести список нескольких дисков, просто добавьте дополнительные <Disk> теги или <CacheDisk> .

Чтобы внедрить этот XML-код при развертывании Локальные дисковые пространства, используйте -XML параметр :

$MyXML = Get-Content <Filepath> | Out-String
Enable-ClusterS2D -XML $MyXML

Чтобы задать или изменить документ поддерживаемых компонентов после развертывания Локальные дисковые пространства:

$MyXML = Get-Content <Filepath> | Out-String
Get-StorageSubSystem Cluster* | Set-StorageHealthSetting -Name "System.Storage.SupportedComponents.Document" -Value $MyXML

Примечание

Модель, изготовитель и версия встроенного ПО должны полностью совпадать с теми значениями, которые возвращает командлет Get-PhysicalDisk. В некоторых случаях эти значения отличаются от того, что подсказывает здравый смысл. Например, производитель может быть обозначен как "CONTOSO-LTD" вместо "Contoso", или это поле остается пустым, зато для модели указывается значение "Contoso-XZY9000".

Эти данные можно проверить с помощью командлета PowerShell:

Get-PhysicalDisk | Select Model, Manufacturer, FirmwareVersion

Параметры службы работоспособности

Изменение параметров службы работоспособности для настройки агрессивности ошибок или действий, включения или отключения определенных поведений и многого другого. См . раздел Изменение параметров службы работоспособности.

Дополнительные ссылки