Reglas de alertas recomendadas para clústeres de Kubernetes

Las alertas en Azure Monitor identifican proactivamente los problemas relacionados con el estado y el rendimiento de los recursos de Azure. En este artículo se describe cómo habilitar y editar un conjunto de reglas de alertas de métricas recomendadas y predefinidas para los clústeres de Kubernetes.

Tipos de reglas de alertas

Hay dos tipos de reglas de alertas de métricas que se usan con clústeres de Kubernetes.

Tipo de regla de alerta Descripción
Reglas de alertas de métricas de Prometheus (versión preliminar) Usan datos de métricas recopilados del clúster de Kubernetes en un servicio administrado para Prometheus de Azure Monitor. Estas reglas requieren que Prometheus esté habilitado en el clúster y se almacenan en un grupo de reglas de Prometheus.
Reglas de alertas de métricas de la plataforma Usan métricas que se recopilan automáticamente del clúster de AKS y se almacenan como reglas de alertas de Azure Monitor.

Use uno de los métodos siguientes para habilitar las reglas de alertas recomendadas para el clúster. Puede habilitar las reglas de alertas de métricas de Prometheus y de la plataforma para el mismo clúster.

Al usar Azure Portal, el grupo de reglas de Prometheus se creará en la misma región que el clúster.

  1. En el menú Alertas del clúster, seleccione Configurar recomendaciones.

    Captura de pantalla del clúster de AKS que muestra el botón Configurar recomendaciones.

  2. Las reglas de alertas disponibles de la plataforma y de Prometheus se muestran con las reglas de Prometheus organizadas por nivel de pod, clúster y nodo. Active un grupo de reglas de Prometheus para habilitar ese conjunto de reglas. Expanda el grupo para ver las reglas individuales. Puede dejar los valores predeterminados o deshabilitar reglas individuales y editar su nombre y su gravedad.

    Captura de pantalla de la habilitación de reglas de alertas de Prometheus.

  3. Active una regla de métricas de la plataforma para habilitar esa regla. Puede expandir la regla para modificar sus detalles, como el nombre, la gravedad y el umbral.

    Captura de pantalla de la habilitación de una regla de alertas de métricas de la plataforma.

  4. Seleccione uno o varios métodos de notificación para crear un nuevo grupo de acciones o seleccione un grupo de acciones existente con los detalles de notificación de este conjunto de reglas de alertas.

  5. Haga clic en Guardar para guardar el grupo de reglas.

Una vez creado el grupo de reglas, no puede usar la misma página en el portal para editar las reglas. En el caso de las métricas de Prometheus, debe editar el grupo de reglas para modificar cualquiera de las reglas que contiene, incluido para habilitar reglas que aún no estaban habilitadas. En el caso de las métricas de la plataforma, puede editar cada regla de alertas.

  1. En el menú Alertas del clúster, seleccione Configurar recomendaciones. Las reglas o grupos de reglas que ya se han creado se etiquetarán como Ya creadas.

  2. Expanda la regla o el grupo de reglas. Haga clic en Ver grupo de reglas para Prometheus y Ver regla de alertas para las métricas de la plataforma.

    Captura de pantalla de la opción Ver grupo de reglas.

  3. Para los grupos de reglas de Prometheus:

    1. Seleccione Reglas para ver las reglas de alertas en el grupo.

    2. Haga clic en el icono Editar junto a la regla que quiera modificar. Siga las instrucciones que se indican en Configuración de las reglas en el grupo para modificar la regla.

      Captura de pantalla de la opción para editar reglas de alertas de Prometheus.

    3. Cuando termine de editar las reglas del grupo, haga clic en Guardar para guardar el grupo de reglas.

  4. Para las métricas de la plataforma:

    1. Haga clic en Editar para abrir los detalles de la regla de alertas. Siga las instrucciones que se indican en Configuración de las condiciones de la regla de alertas para modificar la regla.

      Captura de pantalla de la opción para editar reglas de métricas de la plataforma.

Deshabilitación de un grupo de reglas de alertas

Deshabilite el grupo de reglas para dejar de recibir alertas de las reglas que contiene.

  1. Acceda al grupo de reglas de alertas de Prometheus o a la regla de alertas de la plataforma tal como se describe en la sección Edición de las reglas de alertas recomendadas.

  2. En el menú Información general, seleccione Deshabilitar.

    Captura de pantalla de la opción para deshabilitar un grupo de reglas.

En las tablas siguientes se enumeran los detalles de cada regla de alertas recomendada. El código fuente de cada regla está disponible en GitHub junto con guías de solución de problemas de la comunidad de Prometheus.

Reglas de alertas de la comunidad de Prometheus

Alertas de nivel de clúster

Nombre de la alerta Descripción Umbral predeterminado Período de tiempo (minutos)
KubeCPUQuotaOvercommit La cuota de recursos de CPU asignada a los espacios de nombres ha superado los recursos de CPU disponibles en los nodos del clúster en más del 50 % durante los últimos 5 minutos. >1,5 5
KubeMemoryQuotaOvercommit La cuota de recursos de memoria asignada a los espacios de nombres ha superado los recursos de memoria disponibles en los nodos del clúster en más del 50 % durante los últimos 5 minutos. >1,5 5
El número de contenedores eliminados con memoria insuficiente es mayor que 0 Se han eliminado uno o varios contenedores dentro de los pods debido a eventos de memoria insuficiente durante los últimos 5 minutos. >0 5
KubeClientErrors La tasa de errores de cliente (códigos de estado HTTP a partir de 5xx) en las solicitudes de API de Kubernetes ha superado el 1 % de la tasa total de solicitudes de API durante los últimos 15 minutos. >0,01 15
KubePersistentVolumeFillingUp El volumen persistente se está llenando y se espera que se agote el espacio disponible teniendo en cuenta la proporción de espacio disponible, el espacio usado y la tendencia lineal prevista del espacio disponible en las últimas 6 horas. Estas condiciones se evalúan durante los últimos 60 minutos. N/D 60
KubePersistentVolumeInodesFillingUp Menos del 3 % de los inodes dentro de un volumen persistente han estado disponibles durante los últimos 15 minutos. <0,03 15
KubePersistentVolumeErrors Uno o varios volúmenes persistentes han estado en una fase con errores o en espera durante los últimos 5 minutos. >0 5
KubeContainerWaiting Uno o varios contenedores en pods de Kubernetes han estado en un estado de espera durante los últimos 60 minutos. >0 60
KubeDaemonSetNotScheduled Uno o varios pods no se han programado en ningún nodo en los últimos 15 minutos. >0 15
KubeDaemonSetMisScheduled Uno o varios pods se han programado incorrectamente en el clúster durante los últimos 15 minutos. >0 15
KubeQuotaAlmostFull El uso de cuotas de recursos de Kubernetes ha estado comprendido entre el 90 % y el 100 % de los límites estrictos durante los últimos 15 minutos. >0,9 <1 15

Alertas de nivel de nodo

Nombre de la alerta Descripción Umbral predeterminado Período de tiempo (minutos)
KubeNodeUnreachable Un nodo ha estado inaccesible durante los últimos 15 minutos. 1 15
KubeNodeReadinessFlapping El estado de preparación de un nodo ha cambiado más de dos veces en los últimos 15 minutos. 2 15

Alertas de nivel de pod

Nombre de la alerta Descripción Umbral predeterminado Período de tiempo (minutos)
El uso medio de PV es superior al 80 % La utilización media de volúmenes persistentes en pod ha superado el 80 % durante los últimos 15 minutos. >0,8 15
KubeDeploymentReplicasMismatch Ha habido una discrepancia entre el número deseado de réplicas y el número de réplicas disponibles durante los últimos 10 minutos. N/D 10
KubeStatefulSetReplicasMismatch El número de réplicas listas en StatefulSet no ha coincidido con el número total de réplicas en StatefulSet durante los últimos 15 minutos. N/D 15
KubeHpaReplicasMismatch Horizontal Pod Autoscaler en el clúster no ha coincidido con el número deseado de réplicas durante los últimos 15 minutos. N/D 15
KubeHpaMaxedOut Horizontal Pod Autoscaler (HPA) en el clúster se ha estado ejecutando en el número máximo de réplicas durante los últimos 15 minutos. N/D 15
KubePodCrashLooping Uno o varios pods han estado en una condición CrashLoopBackOff, donde se bloquean continuamente después del inicio y no se pueden recuperar correctamente, durante los últimos 15 minutos. >=1 15
KubeJobStale Al menos una instancia de trabajo no se ha completado correctamente durante las últimas 6 horas. >0 360
El contenedor de pods se reinició en la última hora Uno o varios contenedores dentro de pods en el clúster de Kubernetes se han reiniciado al menos una vez durante la última hora. >0 15
El estado Listo de los pods es inferior al 80 % El porcentaje de pods en un estado listo ha estado por debajo del 80 % para cualquier implementación o daemonset en el clúster de Kubernetes durante los últimos 5 minutos. <0,8 5
El número de pods con estado de error es mayor que 0. Uno o varios pods han tenido un estado de error durante los últimos 5 minutos. >0 5
KubePodNotReadyByController Uno o varios pods no han tenido un estado Listo (es decir, han estado en la fase "Pendiente" o "Desconocida") durante los últimos 15 minutos. >0 15
KubeStatefulSetGenerationMismatch La generación observada de un objeto StatefulSet de Kubernetes no ha coincidido con su generación de metadatos durante los últimos 15 minutos. N/D 15
KubeJobFailed Se ha producido un error en uno o varios trabajos de Kubernetes en los últimos 15 minutos. >0 15
El uso medio de la CPU por contenedor es superior al 95 % La utilización media de CPU por contenedor ha superado el 95 % durante los últimos 5 minutos. >0,95 5
El uso medio de la memoria por contenedor es superior al 95 % La utilización media de memoria por contenedor ha superado el 95 % durante los últimos 5 minutos. >0,95 10
KubeletPodStartUpLatencyHigh El percentil 99 de la latencia de inicio del pod ha superado los 60 segundos durante los últimos 10 minutos. >60 10

Reglas de alertas de métricas de la plataforma

Nombre de la alerta Descripción Umbral predeterminado Período de tiempo (minutos)
El porcentaje de CPU del nodo es superior al 95 % El porcentaje de CPU del nodo ha sido superior al 95 % durante los últimos 5 minutos. 95 5
El porcentaje de espacio de trabajo de memoria del nodo es superior al 100 % El porcentaje de espacio de trabajo de memoria del nodo ha sido superior al 100 % durante los últimos 5 minutos. 100 5

Alertas de métricas heredadas de Container Insights (versión preliminar)

Las reglas de métricas de Container Insights se retirarán el 31 de mayo de 2024 (esto se anunció anteriormente para el 14 de marzo de 2026). Estas reglas no han estado disponibles para su creación mediante el portal desde el 15 de agosto de 2023. Estas reglas estaban en versión preliminar pública, pero se retirarán sin alcanzar la disponibilidad general, ya que ahora están disponibles las nuevas alertas de métricas recomendadas descritas en este artículo.

Si ya ha habilitado estas reglas de alertas heredadas, debe deshabilitarlas y habilitar la nueva experiencia.

Deshabilitar reglas de alertas de métricas

  1. En el menú Insights del clúster, seleccione Alertas recomendadas (versión preliminar).
  2. Cambie el estado de cada regla de alertas a Deshabilitada.

Pasos siguientes