Поделиться через


Мониторинг одного кластера Azure Stack HCI с помощью Insights

Область применения: Azure Stack HCI версий 22H2 и 21H2

В этой статье объясняется, как использовать Аналитику для мониторинга одного кластера Azure Stack HCI. Сведения о нескольких кластерах Azure Stack HCI см. в статье Мониторинг нескольких кластеров Azure Stack HCI с помощью Аналитики.

Аналитика — это функция Azure Monitor, которая позволяет быстро приступить к мониторингу кластера Azure Stack HCI. Вы можете просматривать ключевые метрики, сведения о работоспособности и использовании кластера, серверов, виртуальных машин и хранилища.

Важно!

Если вы зарегистрировали кластер Azure Stack HCI и настроили аналитику до ноября 2023 года, некоторые функции, использующие агент Azure Monitor (AMA), такие как Arc для серверов, VM Insights, Defender для облака или Sentinel, могут неправильно собирать журналы и данные о событиях. Инструкции по устранению неполадок см. в разделе Устранение неполадок кластеров, зарегистрированных до ноября 2023 г.

Преимущества

Аналитика для Azure Stack HCI предлагает следующие преимущества:

  • Управляется Azure. Служба Insights управляется Azure и доступна через портал Azure, гарантируя, что она всегда актуальна. Нет необходимости в настройке базы данных или специального программного обеспечения.

  • масштабируемость; Аналитика может одновременно загружать более 400 наборов сведений о кластере в нескольких подписках. Нет никаких ограничений на кластер, домен или физическое расположение.

  • Возможность настройки. Аналитический интерфейс основан на шаблонах книг Azure Monitor. Это позволяет изменять представления и запросы, изменять или устанавливать пороговые значения, которые соответствуют определенным ограничениям, а затем сохранять эти настройки в книге. Затем можно закрепить диаграммы в книгах на панелях мониторинга Azure.

Настройка Аналитики для Azure Stack HCI

Предварительные требования и параметры для использования Insights зависят от используемой версии Azure Stack HCI. Выберите одну из следующих вкладок, чтобы узнать, как использовать Аналитику в конкретной версии Azure Stack HCI.

Функция Аналитики в Azure Stack HCI версии 22H2 и более поздних версий использует AMA, которая обеспечивает значительные преимущества по сравнению с устаревшим Microsoft Monitoring Agent (MMA), используемым в Azure Stack HCI версии 21H2 и более ранних версий. К этим преимуществам относятся повышенная скорость, повышенная безопасность и превосходная производительность. Вы можете подключить новые узлы к AMA или перенести существующие узлы из агента прежних версий в AMA.

Мы рекомендуем обновить систему Azure Stack HCI до версии 22H2 или более поздней, чтобы воспользоваться преимуществами аналитических сведений с AMA.

Начиная с накопительного обновления за май 2023 г. для Azure Stack HCI версии 22H2 вы можете отслеживать локальные системы Azure Stack HCI с помощью Insights для Azure Stack HCI.

Предварительные требования

Ниже приведены предварительные требования для использования Insights для Azure Stack HCI.

  • Кластер Azure Stack HCI должен быть зарегистрирован в Azure и с поддержкой Arc. Если вы зарегистрировали кластер 15 июня 2021 года или позже, это происходит по умолчанию. В противном случае необходимо включить интеграцию Azure Arc.

  • В кластере должно быть установлено azure Stack HCI версии 22H2 и накопительное обновление за май 2023 г. или более поздней версии.

  • Необходимо включить управляемое удостоверение для ресурса Azure. Дополнительные сведения см. в разделе Включение расширенного управления.

Включение аналитики

Включение Аналитики помогает отслеживать все кластеры Azure Stack HCI, которые в настоящее время связаны с рабочей областью Log Analytics, предоставляя полезные метрики работоспособности. Аналитика устанавливает агент Azure Monitor и помогает настроить правила сбора данных (DCR) для мониторинга кластера Azure Stack HCI.

Чтобы включить эту возможность в портал Azure, выполните следующие действия.

  1. В портал Azure перейдите на страницу ресурса кластера Azure Stack HCI и выберите кластер. На вкладке Возможности выберите Аналитика.

    Снимок экрана: плитка

  2. На странице Аналитика выберите Начало работы.

    Снимок экрана: кнопка

    Примечание

    Кнопка Начало работы доступна только для Azure Stack HCI версии 22H2 с установленным накопительным обновлением за май 2023 г. или более поздней и только после включения управляемого удостоверения. В противном случае эта кнопка будет отключена.

  3. На странице Конфигурация Аналитики выберите существующий DCR в раскрывающемся списке Правило сбора данных . DCR указывает журналы событий и счетчики производительности, которые необходимо собрать, и сохраняет их в рабочей области Log Analytics. Аналитика создает DCR по умолчанию, если он еще не существует. Включены только DCR, включенные для Аналитики.

    Снимок экрана: окно конфигурации Аналитики.

  4. (Необязательно) Вы также можете создать DCR, выбрав Создать на странице Конфигурации Аналитика .

    Важно!

    Настоятельно рекомендуем не создавать собственные DCR. DCR, созданный Аналитикой, включает в себя специальный поток данных, необходимый для его работы. Вы можете изменить этот DCR для сбора дополнительных данных, таких как события Windows и системного журнала. DCR, созданные с помощью установки AMA, будут иметь префикс AzureStackHCI- , присоединенный к имени DCR.

    1. На странице Новое правило сбора данных укажите подписку, имя DCR и имя конечной точки сбора данных (DCE). DcEs используются для доступа к службе конфигурации для получения связанных DCR для агента Azure Monitor. Дополнительные сведения о DCE см. в статье Конечные точки сбора данных в Azure Monitor.

      Примечание

      Если вы используете приватные каналы в агенте, необходимо добавить dces. Дополнительные сведения о параметрах сети AMA см. в статье Определение параметров сети агента Azure Monitor.

      Снимок экрана: окно правила сбора данных.

    2. Нажмите кнопку Просмотреть и создать.

      Если DCR еще не создан для неотслеживаемого кластера, он создается с включенными счетчиками производительности и включенным каналом журнала событий Windows.

  5. Просмотрите последний экран со сводкой имени DCR, количества журналов событий, счетчиков производительности и имени рабочей области Log Analytics, в которой хранятся данные. Выберите Настроить.

    Снимок экрана: раскрывающийся список правил сбора данных.

    После выбора настройки вы будете перенаправлены на страницу Расширения, где можно просмотреть состояние установки агента. При настройке Аналитики AMA автоматически устанавливается на всех узлах кластера.

  6. Перейдите на страницу ресурса кластера Azure Stack HCI и выберите кластер. Аналитика теперь отображается как Настроено на вкладке Возможности :

    Снимок экрана: плитка Аналитика настроена.

Правила сбора данных

При включении Аналитики на компьютере с агентом Azure Monitor необходимо указать DCR для использования. Дополнительные сведения о DCR см. в статье Правила сбора данных в Azure Monitor.

Параметр Описание
Счетчики производительности Указывает, какие счетчики производительности данных должны собираться из операционной системы. Этот параметр является обязательным для всех компьютеров. Эти счетчики производительности используются для заполнения визуализаций в книге Insights. В настоящее время книга Insights использует пять счетчиков производительности : Memory()\Available Bytes, Network Interface()\Bytes Total/sec, Processor(_Total)\% Processor Time, RDMA Activity()\RDMA Inbound Bytes/secи RDMA Activity()\RDMA Outbound Bytes/sec
Канал журнала событий Указывает, какие журналы событий Windows следует собирать из операционной системы. Этот параметр является обязательным для всех компьютеров. Журналы событий Windows используются для заполнения визуализаций в книге Insights. В настоящее время данные собираются через два канала журнала событий Windows: - microsoft-windows-health/operational и microsoft-windows-sddc-management/operational
Рабочая область Log Analytics Рабочая область для хранения данных. В списке указаны только рабочие области с Аналитикой.

Канал событий

Канал Microsoft-windows-sddc-management/operational событий и Microsoft-windows-health/operational Windows добавляются в рабочую область Log Analytics в разделе Журналы событий Windows.

Снимок экрана: окно добавления источника данных.

Собирая эти журналы, Аналитика отображает состояние работоспособности отдельных серверов, дисков, томов и виртуальных машин. По умолчанию добавляются пять счетчиков производительности.

Счетчики производительности

По умолчанию добавляются пять счетчиков производительности:

Снимок экрана: добавленные счетчики производительности.

В следующей таблице описаны отслеживаемые счетчики производительности.

Счетчики производительности Описание
Memory(*)\Available Bytes Доступные байты — это объем физической памяти в байтах, немедленно доступный для выделения процессу или для использования системой.
Сетевой интерфейс(*)\Всего байт/с Скорость отправки и получения байтов через каждый сетевой адаптер, включая символы обрамления. Всего байт/с — это сумма полученных байт/с и отправленных байтов в секунду.
Процессор(_Total)% процессорного времени Процент затраченного времени, когда все потоки процесса использовали процессор для выполнения инструкций.
RDMA Activity(*)\RDMA Inbound Bytes/sec Скорость передачи данных по протоколу RDMA сетевым адаптером в секунду.
RDMA Activity(*)\RDMA Outbound Bytes/sec Скорость передачи данных через RDMA сетевым адаптером в секунду.

После включения Insights сбор данных может занять до 15 минут. После завершения процесса вы сможете увидеть полнофункционалную визуализацию работоспособности кластера в меню Аналитика на панели слева:

Снимок экрана: визуализации аналитических сведений.

Отключение аналитики

Чтобы отключить Аналитику, выполните следующие действия.

  1. Выберите Аналитика на вкладке Возможности .

  2. Выберите Отключить аналитику.

    Снимок экрана: окно

При отключении функции Аналитики связь между правилом сбора данных и кластером удаляется, а журналы службы работоспособности и управления SDDC больше не собираются; однако существующие данные не удаляются. Если вы хотите удалить эти данные, перейдите в рабочую область DCR и Log Analytics и удалите данные вручную.

Обновление аналитики

На плитке Аналитика отображается сообщение Требуется обновление в следующих случаях:

  • Изменено правило сбора данных.
  • Событие работоспособности из журнала событий Windows удаляется.
  • Любой из пяти счетчиков производительности из рабочей области Log Analytics удаляется.

Чтобы снова включить Аналитику, выполните следующие действия.

  1. Выберите плитку Аналитика в разделе Возможности.

  2. Выберите Обновить , чтобы снова просмотреть визуализации.

    Снимок экрана: окно

Миграция из Microsoft Monitoring Agent

  1. Чтобы перейти с Microsoft Monitoring Agent (MMA) на агент мониторинга Azure (AMA), прокрутите вниз до пункта Аналитика.

    Снимок экрана: окно установки AMA.

  2. Выберите Установить AMA; Откроется окно конфигурации Аналитика .

    Снимок экрана: окно правил сбора данных.

  3. Выберите или создайте правило сбора данных, как описано ранее в разделе Включение аналитики .

Агент Azure Monitor и расширение Microsoft Monitoring Agent можно установить на одном компьютере во время миграции. Запуск обоих агентов может привести к дублированию данных и увеличению затрат. Если на компьютере установлены оба агента, в портал Azure появится предупреждение о том, что вы собираете дублирующиеся данные, как показано на следующем снимке экрана.

Предупреждение

Сбор повторяющихся данных с одного компьютера с помощью агента Azure Monitor и расширения Microsoft Monitoring Agent может привести к дополнительным затратам на прием из-за отправки повторяющихся данных в рабочую область Log Analytics.

Снимок экрана: предупреждение о дублировании данных.

Необходимо самостоятельно удалить расширение Microsoft Monitoring Agent со всех компьютеров, которые его используют. Перед выполнением этого шага убедитесь, что компьютер не зависит от других решений, требующих Microsoft Monitoring Agent. Убедившись, что MicrosoftMonitoringAgent по-прежнему не подключен к рабочей области Log Analytics, вы можете удалить MicrosoftMonitoringAgent вручную, перенаправив на страницу Расширения .

Снимок экрана: список расширений.

Диагностика

В этом разделе приведены рекомендации по устранению проблем с использованием Insights для Azure Stack HCI.

Устранение неполадок кластеров, зарегистрированных до ноября 2023 г.

Проблема. В кластерах, зарегистрированных до ноября 2023 г., функции, использующие AMA в Azure Stack HCI, такие как Arc для серверов, VM Insights, Аналитика контейнеров, Defender для облака и Sentinel, могут не собирать журналы и данные о событиях должным образом.

Вызвать. До ноября 2023 г. регистрация кластера настроили AMA для использования удостоверения кластера, а службам, которые используют AMA в Azure Stack HCI, требовалось удостоверение узла кластера для правильного сбора журналов. Это несоответствие привело к неправильному сбору журналов из этих служб.

Решение. Чтобы устранить эту проблему, мы внесли изменения в регистрацию кластера HCI для AMA, чтобы вместо этого использовалось удостоверение сервера. Чтобы реализовать это изменение, выполните следующие действия в кластерах, зарегистрированных до ноября 2023 г.:

  1. Восстановление регистрации кластера. См . раздел Восстановление регистрации кластера.
  2. Восстановление AMA. См. раздел Восстановление AMA.
  3. Перенастройка Аналитики для Azure Stack HCI. См. статью Перенастройка аналитики для Azure Stack HCI.

В портал Azure страница Аналитика для Azure Stack HCI автоматически обнаруживает изменения в конфигурации AMA и отображает баннер в верхней части страницы, чтобы предпринять необходимые действия для продолжения использования служб, использующих AMA.

Снимок экрана: баннер для перенастройки Insights.

Восстановление регистрации кластера

Чтобы восстановить регистрацию кластера, выполните следующие действия.

  1. На узлах кластера установите последнюю версию Az.StackHCI модуля PowerShell. Замените latestversion номером последней Az.StackHCI версии.

    Install-Module -Name Az.StackHCI -RequiredVersion {latestversion} -Scope CurrentUser -Repository PSGallery -Force 
    
  2. Выполните команду repair registration, чтобы удалить ключ реестра:

    Register-AzStackHCI -TenantId {TenantID} -SubscriptionId {subscriptionID} -ComputerName {NodeName} -RepairRegistration 
    
Восстановление AMA для Azure Stack HCI

Выберите один из следующих вариантов восстановления AMA:

  • Вариант 1. Удаление AMA

    Если AMA уже обновлен, удалите его. Чтобы удалить AMA, выполните следующие действия.

    1. В портал Azure перейдите на страницу Расширения для кластера Azure Stack HCI.

    2. Установите флажок AzureMonitorWindowsAgent и выберите Удалить.

      Снимок экрана: AzureMonitorWindowsAgent для удаления AMA.

  • Вариант 2. Обновление AMA

    Чтобы обновить AMA, выполните следующие действия.

    1. В портал Azure перейдите на страницу Расширения для кластера Azure Stack HCI.

    2. Установите флажок AzureMonitorWindowsAgent и выберите Включить автоматическое обновление, если это еще не сделано.

      Снимок экрана: AzureMonitorWindowsAgent для включения автоматического обновления.

  • Вариант 3. Перезапуск AMA

    Выполните следующие действия на всех узлах кластера, чтобы перезапустить AMA.

    1. Выполните следующую команду, чтобы отключить AMA:

      cd C:\Packages\Plugins\Microsoft.Azure.Monitor.AzureMonitorWindowsAgent\<agent version number>
      AzureMonitorAgentExtension.exe disable
      
    2. После завершения выполнения исполняемого файла и остановки всех процессов AMA выполните следующую команду, чтобы перезапустить агент:

      AzureMonitorAgentExtension.exe enable
      
  • Вариант 4. Перезагрузка узлов кластера

Перенастройка аналитики для Azure Stack HCI

Выполните следующие действия, чтобы перенастроить Аналитику для Azure Stack HCI:

  1. В портал Azure на странице Аналитика кластера Azure Stack HCI отображается баннер в верхней части экрана, как показано на следующем снимке экрана, который поможет вам снова настроить Аналитику и связать DCR с узлами кластера. Просмотрите баннер и выберите Настроить аналитику.

    Снимок экрана: кнопка

  2. Перенастройка DCR. Следуйте инструкциям по настройке Аналитики, как описано в этой статье. См . статью Настройка Аналитики для Azure Stack HCI.

    Снимок экрана: страница

Устранение неполадок пустой страницы книг без заполнений данных

Проблема. Вы увидите пустую страницу книг без заполненных данных, как показано на следующем снимке экрана:

Снимок экрана: пустая страница книг.

Возможные причины. Эта проблема может быть вызвана несколькими возможными причинами, включая недавнюю настройку Insights, неполные действия по устранению неполадок для кластеров, зарегистрированных до ноября 2023 г., или связанную настройку DCR неправильно.

Решение. Чтобы устранить эту проблему, последовательно выполните следующие действия.

  1. Если вы недавно настроили Аналитику, подождите до одного часа, пока AMA соберет данные.
  2. Если после ожидания данные по-прежнему отсутствуют, убедитесь, что выполнены все действия, описанные в разделе Устранение неполадок с кластерами, зарегистрированными до ноября 2023 г.
  3. Проверьте конфигурацию связанного DCR. Убедитесь, что каналы событий и счетчики производительности добавлены в качестве источников данных в связанный DCR, как описано в разделе Правила сбора данных .
  4. Если проблема сохраняется после выполнения описанных выше действий и вы по-прежнему не видите никаких данных, обратитесь за помощью в службу поддержки клиентов.

Более подробные инструкции по устранению неполадок см. в статье Руководство по устранению неполадок агента Azure Monitor.

Визуализации Аналитики

После включения Insights в следующих таблицах содержатся сведения обо всех ресурсах.

Здравоохранение

Предоставляет ошибки работоспособности в кластере.

Metric Описание Единица измерения Пример
Сбой Краткое описание ошибок работоспособности. При щелчке по ссылке откроется боковая панель с дополнительными сведениями. Нет единицы измерения PoolCapacityThresholdExceededed
Сбойный тип ресурса Тип ресурса, который столкнулся с ошибкой. Нет единицы измерения StoragePool
Идентификатор неисправного ресурса Уникальный идентификатор ресурса, который столкнулся с ошибкой работоспособности. Уникальный идентификатор {1245340c-780b-4afc-af3c-f9bdc4b12f8a}: SP:{c57f23d1-d784-4a42-8b59-4edd8e70e830}
Статус Серьезность ошибки может быть предупреждающим или критическим. Нет единицы измерения Предупреждение
Начальное время сбоя Метка времени последнего обновления сервера. Datetime 09.04.2022, 12:15:42

Сервер

Metric Описание Единица измерения Пример
Серверы Имена серверов в кластере. Нет единицы измерения VM-1
Последнее обновление Дата и время последнего обновления сервера. Datetime 09.04.2022, 12:15:42
Состояние Работоспособность ресурсов сервера в кластере. Это может быть работоспособное, предупреждающее, критическое и другое. Работоспособно
Загрузка ЦП Процент времени, в течение которого процесс использовал ЦП. Процент 56 %
Использование памяти Использование памяти серверным процессом равно счетчику Process\Private Bytes плюс размер сопоставленных данных в памяти. Процент 16 %
Логические процессоры. Количество логических процессоров. Счетчик 2
ЦП Число ЦП. Счетчик 2
Время доступности Время, в течение которого компьютер, особенно компьютер, находится в эксплуатации. Временной диапазон 2.609 ч.
Сайт Имя сайта, к которому принадлежит сервер. Имя сайта SiteA
Доменное имя Локальный домен, к которому принадлежит сервер. Без единицы Contoso.local

Виртуальные машины

Предоставляет состояние всех виртуальных машин в кластере. Виртуальная машина может находиться в одном из следующих состояний: Выполняется, Остановлено, Сбой или Другое (Неизвестно, Запуск, Моментальный снимок, Сохранение, Остановка, Приостановка, Возобновление, Приостановлено, Приостановлено).

Metric Описание Единица измерения Пример
Серверы Имя сервера. Без единицы Пример виртуальной машины 1
Последнее обновление Это дает дату и время последнего обновления сервера. Datetime 09.04.2022, 12:24:02
Общее число виртуальных машин Количество виртуальных машин в узле сервера. Count 0 из 0 выполняется
Запущен Количество виртуальных машин, работающих в узле сервера. Счетчик 2
Остановлена Количество виртуальных машин, остановленных на серверном узле. Счетчик 3
Сбой Количество виртуальных машин, завершилось сбоем на серверном узле. Счетчик 2
Другое Если виртуальная машина находится в одном из следующих состояний ("Неизвестно", "Запуск", "Моментальный снимок", "Сохранение", "Остановка", "Приостановка", "Приостановлено", "Приостановлено"), она считается "Другим". Счетчик 2

Память

В следующей таблице приведены сведения о работоспособности томов и дисков в кластере.

Metric Описание Единица измерения Пример
Тома Имя тома Без единицы ClusterPerformanceHistory
Последнее обновление Дата и время последнего обновления хранилища. Datetime 14.04.2022 г., 14:58:55
Состояние Состояние тома. Работоспособно, предупреждение, критическое и другое. Работоспособно
Общая емкость Общая емкость устройства в байтах за отчетный период. Байты 2,5 ГБ
Доступная емкость Доступная емкость в байтах в отчетный период. Байты 20B
Iops Количество операций ввода-вывода в секунду. посекундно. 45 в секунду
Пропускная способность Количество байтов в секунду, обрабатываемых Шлюзом приложений Байты в секунду 5B/с
Задержка Время, необходимое для выполнения запроса ввода-вывода. Второе 0,0016 с
Устойчивость Емкость для восстановления после сбоев. Обеспечивает максимальную доступность данных. Без единицы Трехсторонное зеркало
Дедупликация Процесс уменьшения физического числа байтов данных, которые должны храниться на диске. Доступно или нет Да/нет
Файловая система Тип файловой системы. Нет единицы измерения ReFS

Цены на Azure Monitor

При включении визуализации мониторинга журналы собираются из:

  • Управление работоспособностью (Microsoft-windows-health/operational).
  • Управление SDDC (Microsoft-Windows-SDDC-Management/Operational; Идентификатор события: 3000, 3001, 3002, 3003, 3004).

Счета выставляются на основе объема принятых данных и параметров хранения данных в рабочей области Log Analytics.

В Azure Monitor есть цены с оплатой по мере использования, и первые 5 ГБ на учетную запись выставления счетов в месяц бесплатны. Так как цены могут отличаться из-за нескольких факторов, таких как регион Azure, который вы используете, ознакомьтесь с калькулятором цен Azure Monitor для получения самых актуальных вычислений цен.

Дальнейшие действия