Рекомендуемые правила генерации оповещений для кластеров Kubernetes

Статья
04/07/2024

Оповещения в Azure Monitor упреждающе определяют проблемы, связанные с работоспособностью и производительностью ресурсов Azure. В этой статье описывается, как включить и изменить набор рекомендуемых правил генерации оповещений метрик, предопределенных для кластеров Kubernetes.

Типы правил генерации оповещений

Существует два типа правил генерации оповещений метрик, используемых с кластерами Kubernetes.

Тип правила генерации оповещений	Description
Правила генерации оповещений метрик Prometheus (предварительная версия)	Используйте данные метрик, собранные из кластера Kubernetes в управляемой службе Azure Monitor для Prometheus. Эти правила требуют включения Prometheus в кластере и хранятся в группе правил Prometheus.
Правила генерации оповещений метрик платформы	Используйте метрики, которые автоматически собираются из кластера AKS и хранятся в виде правил генерации оповещений Azure Monitor.

Включите рекомендуемые правила генерации оповещений

Используйте один из следующих методов, чтобы включить рекомендуемые правила генерации оповещений для кластера. Вы можете включить правила оповещений метрик Prometheus и платформы для одного кластера.

Портал Azure
Диспетчер ресурсов Azure Resource Manager

С помощью портал Azure группа правил Prometheus будет создана в том же регионе, что и кластер.

В меню "Оповещения" для кластера выберите пункт "Настройка рекомендаций".
Доступные правила генерации оповещений Prometheus и платформы отображаются с помощью правил Prometheus, организованных по модулям pod, кластеру и уровню узлов. Переключите группу правил Prometheus, чтобы включить этот набор правил. Разверните группу, чтобы просмотреть отдельные правила. Вы можете оставить значения по умолчанию или отключить отдельные правила и изменить их имя и серьезность.
Переключите правило метрик платформы, чтобы включить это правило. Вы можете развернуть правило, чтобы изменить его сведения, такие как имя, серьезность и пороговое значение.
Выберите один или несколько методов уведомлений для создания новой группы действий или выберите существующую группу действий с сведениями о уведомлении для этого набора правил генерации оповещений.
Нажмите кнопку "Сохранить", чтобы сохранить группу правил.

С помощью шаблона ARM можно указать регион для группы правил Prometheus, но его следует создать в том же регионе, что и кластер.

Скачайте необходимые файлы для шаблона, с которым вы работаете, и разверните их с помощью параметров в таблицах ниже. Примеры различных методов см. в разделе "Развертывание примеров шаблонов".

ARM

Файл шаблона: https://aka.ms/azureprometheus-recommendedmetricalerts

Параметры:

Параметр	Описание
clusterResourceId	Идентификатор ресурса кластера.
actionGroupResourceId	Идентификатор ресурса группы действий, которая определяет ответы на оповещения.
azureMonitorWorkspaceResourceId	Идентификатор ресурса рабочей области Azure Monitor, получая метрики Prometheus кластера.
расположение	Регион для хранения группы правил генерации оповещений.

Bicep

Дополнительные сведения см. в readME .

Файл шаблона: https://aka.ms/azureprometheus-recommendedmetricalertsbicep

Параметры:

Параметр	Описание
aksResourceId	Идентификатор ресурса кластера.
actionGroupResourceId	Идентификатор ресурса группы действий, которая определяет ответы на оповещения.
monitorWorkspaceName	Имя рабочей области Azure Monitor, получая метрики Prometheus кластера.
расположение	Регион для хранения группы правил генерации оповещений.

Изменение рекомендуемых правил генерации оповещений

После создания группы правил нельзя использовать ту же страницу на портале для изменения правил. Для метрик Prometheus необходимо изменить группу правил, чтобы изменить в ней все правила, включая включение всех правил, которые еще не включены. Для метрик платформы можно изменить каждое правило генерации оповещений.

Портал Azure
Диспетчер ресурсов Azure Resource Manager

В меню "Оповещения" для кластера выберите пункт "Настройка рекомендаций". Все созданные правила или группы правил будут помечены как уже созданные.
Разверните группу правил или правил. Щелкните группу правил View для Prometheus и просмотрите правило генерации оповещений для метрик платформы.
Для групп правил Prometheus:
1. Выберите правила для просмотра правил генерации оповещений в группе.
2. Щелкните значок "Изменить" рядом с правилом, которое требуется изменить. Используйте инструкции из статьи "Создание правила генерации оповещений" для изменения правила.
3. После завершения редактирования правил в группе нажмите кнопку "Сохранить ", чтобы сохранить группу правил.
Для метрик платформы:
1. Нажмите кнопку "Изменить", чтобы открыть сведения для правила генерации оповещений. Используйте инструкции из статьи "Создание правила генерации оповещений" для изменения правила.

Отключение группы правил генерации оповещений

Отключите группу правил, чтобы остановить получение оповещений из правил в ней.

Портал Azure
Шаблон ARM

Просмотрите группу правил оповещений Prometheus или правило метрики платформы, как описано в разделе "Изменение рекомендуемых правил генерации оповещений".
В меню "Обзор" выберите "Отключить".

Рекомендуемые сведения о правиле генерации оповещений

В следующих таблицах перечислены сведения о каждом рекомендуемом правиле генерации оповещений. Исходный код для каждого из них доступен в GitHub , а также руководства по устранению неполадок из сообщества Prometheus.

Правила генерации оповещений сообщества Prometheus

Оповещения на уровне кластера

Имя оповещения	Description	Порог по умолчанию	Временной интервал (минуты)
KubeCPUQuotaOvercommit	Квота ресурсов ЦП, выделенная пространствам имен, превышает доступные ресурсы ЦП на узлах кластера более чем на 50 % за последние 5 минут.	>1.5	5
KubeMemoryQuotaOvercommit	Квота ресурса памяти, выделенная пространствам имен, превышает доступные ресурсы памяти на узлах кластера более чем на 50 % за последние 5 минут.	>1.5	5
Число убитых контейнеров OOM превышает 0	Один или несколько контейнеров в модулях pod были убиты из-за отсутствия памяти (OOM) событий за последние 5 минут.	>0	5
KubeClientErrors	Скорость ошибок клиента (коды состояния HTTP начиная с 5xx) в запросах API Kubernetes превышает 1% от общей частоты запросов API за последние 15 минут.	>0.01	15
KubePersistentVolumeFillingUp	Постоянный том заполняется и, как ожидается, истекает доступное пространство, вычисляемое на доступном соотношении пространства, используемом пространстве и прогнозируемой линейной тенденции доступного пространства за последние 6 часов. Эти условия оцениваются за последние 60 минут.	Н/П	60
KubePersistentVolumeInodesFillingUp	За последние 15 минут доступны менее 3 % от инодер в постоянном томе.	<0.03	15
KubePersistentVolumeErrors	Один или несколько постоянных томов находятся на этапе сбоя или ожидания за последние 5 минут.	>0	5
KubeContainerWaiting	Один или несколько контейнеров в модулях pod Kubernetes находятся в состоянии ожидания за последние 60 минут.	>0	60
KubeDaemonSetNotScheduled	Один или несколько модулей pod не запланированы на любом узле за последние 15 минут.	>0	15
KubeDaemonSetMisScheduled	Один или несколько модулей pod пропущены в кластере за последние 15 минут.	>0	15
KubeQuotaAlmostFull	Использование квот ресурсов Kubernetes составляет от 90% до 100% от жестких ограничений за последние 15 минут.	>0.9 <1	15

Оповещения на уровне узла

Имя оповещения	Description	Порог по умолчанию	Временной интервал (минуты)
KubeNodeUnreachable	Узел недоступен за последние 15 минут.	1	15
KubeNodeReadinessFlapping	Состояние готовности узла изменилось более 2 раз за последние 15 минут.	2	15

Оповещения уровня pod

Имя оповещения	Description	Порог по умолчанию	Временной интервал (минуты)
Среднее использование PV превышает 80 %	Среднее использование постоянных томов (PV) в pod превышает 80 % за последние 15 минут.	>0.8	15
KubeDeploymentReplicasMismatch	Существует несоответствие между требуемым числом реплика и количеством доступных реплика за последние 10 минут.	Н/П	10
KubeStatefulSetReplicasMismatch	Количество готовых реплика в StatefulSet не соответствует общему количеству реплика в StatefulSet за последние 15 минут.	Н/П	15
KubeHpaReplicasMismatch	Горизонтальное автомасштабирование pod в кластере не соответствовало требуемому количеству реплика за последние 15 минут.	Н/П	15
KubeHpaMaxedOut	Горизонтальный модуль автомасштабирования Pod (HPA) в кластере выполняется в течение последних реплика 15 минут.	Н/П	15
KubePodCrashLooping	Один или несколько модулей pod находится в состоянии CrashLoopBackOff, где модуль pod непрерывно завершает работу после запуска и не сможет успешно восстановиться за последние 15 минут.	>=1	15
KubeJobStale	По крайней мере один экземпляр задания не завершился успешно за последние 6 часов.	>0	360
Контейнер Pod перезапущен за последние 1 час	Один или несколько контейнеров в кластере Kubernetes были перезапущены по крайней мере один раз в течение последнего часа.	>0	15
Готовое состояние модулей pod меньше 80 %	Процент модулей pod в состоянии готовности ниже 80 % для любого развертывания или управляющей программы в кластере Kubernetes за последние 5 минут.	<0.8	5
Число модулей pod в состоянии сбоя превышает 0.	Один или несколько модулей pod находится в состоянии сбоя за последние 5 минут.	>0	5
KubePodNotReadyByController	Один или несколько модулей pod не находятся в состоянии готовности (т. е. на этапе "Ожидание" или "Неизвестно") за последние 15 минут.	>0	15
KubeStatefulSetGenerationMismatch	Наблюдаемое поколение Kubernetes StatefulSet не соответствует его поколению метаданных за последние 15 минут.	Н/П	15
KubeJobFailed	Сбой одного или нескольких заданий Kubernetes за последние 15 минут.	>0	15
Среднее использование ЦП на контейнер превышает 95 %	Среднее использование ЦП на контейнер превышает 95 % за последние 5 минут.	>0.95	5
Среднее использование памяти на контейнер превышает 95 %	Среднее использование памяти на контейнер превышает 95 % за последние 5 минут.	>0.95	10
KubeletPodStartUpLatencyHigh	99-й процентиль задержки запуска pod превышает 60 секунд за последние 10 минут.	>60	10

Правила генерации оповещений метрик платформы

Имя оповещения	Description	Порог по умолчанию	Временной интервал (минуты)
Процент ЦП узла превышает 95 %	Процент ЦП узла превышает 95 % за последние 5 минут.	95	5
Процент рабочих наборов памяти узла превышает 100 %	Процент рабочих наборов памяти узла превышает 95 % за последние 5 минут.	100	5

Устаревшие оповещения метрик аналитики контейнеров (предварительная версия)

Правила метрик в Аналитике контейнеров будут прекращены 31 мая 2024 г. (это ранее было объявлено 14 марта 2026 г.). Эти правила не были доступны для создания с помощью портала с 15 августа 2023 года. Эти правила были в общедоступной предварительной версии, но будут прекращены без достижения общедоступной доступности, так как новые рекомендуемые оповещения метрик, описанные в этой статье, теперь доступны.

Если эти устаревшие правила генерации оповещений уже включены, их следует отключить и включить новый интерфейс.

Отключение правил генерации оповещений метрик

В меню Аналитика кластера выберите рекомендуемые оповещения (предварительная версия).
Измените состояние каждого правила генерации оповещений на "Отключено".

Следующие шаги

Ознакомьтесь с различными типами правил генерации оповещений в Azure Monitor.
Ознакомьтесь с группами правил генерации оповещений в управляемой службе Azure Monitor для Prometheus.