Supervisión en la nube y respuesta

Este artículo forma parte de una serie en la guía de supervisión en la nube.

La respuesta es el resultado de definir una o varias acciones basadas en decisiones controladas por datos a partir de la supervisión, que permiten a los consumidores del servicio:

  • Hágalo accionable: use configuraciones de supervisión bien ajustadas para crear señales accionables.
  • Supervise continuamente: aplique la supervisión en incidentes y actividades de solución de problemas para mejorar el diagnóstico de problemas.
  • Automatice: configure la investigación, diagnóstico, resolución, recuperación y corrección automáticas basándose en señales identificadas.

El principio de significancia se aplica aquí. Esto ayuda a ajustar y optimizar alertas, notificaciones y síntesis de informes para el flujo de proceso o la directiva de acción. La supervisión en la nube es mucho más que notificar a los humanos de que algo va mal. Se trata también de proveer señales a los sistemas y servicios para que reaccionen.

La supervisión juega un papel fundamental en una gran variedad de escenarios:

  • >Habilitar el comportamiento de servicio dinámico: controle dinámicamente sistemas y servicios para reaccionar según los datos de supervisión y elimine incidentes automáticamente.
  • Evaluación continua de señales: informa y provee telemetría constantemente para procesos dinámicos, cumplimiento, escalado automático y visualizaciones.
  • Acciones organizativas: ayuda a la organización de TI a tomar medidas y administrar cambios.

Alertas

La automatización sustituye procesos más caros de administración de servicios en el panorama moderno de la nube, eliminando más incidentes. Las alertas juegan un papel esencial en la concienciación pero debe ser accionable para evitar el ruido o fatiga de alertas.

La definición de alertas ayuda proactivamente a garantizar que los servicios y sistemas permanecen en buen estado, responden, y son fiables y seguros. Garantizar el rendimiento, mantener los Objetivos de nivel de servicio (SLO), la disponibilidad y la privacidad requiere una estrategia de alertas apropiada. El escalado de alertas no es crucial para la observabilidad y actualmente no debería considerarse como la primera línea de defensa. En su lugar, la automatización debe desempeñar un papel fundamental aquí.

Tradicionalmente, la supervisión significaba generar una alerta sobre la que alguien podía actuar, lo que implicaba un proceso completamente reactivo. Este enfoque debe revisarse siguiendo las prácticas modernas de administración de servicios u operaciones en la nube. Este enfoque sigue estrechamente la ruta tradicional de administración de incidentes de ITIL, que no coincide con los objetivos de la eficacia de la nube a través de agilidad, el costo mínimo y la optimización.

Un enfoque moderno podría tener una frecuencia de condiciones detectadas que sean mucho más informativas y automatizadas, por ejemplo:

Condición detectada Acción primitiva Acción moderna
  • Métrica de rendimiento: uso elevado de memoria.
  • Amenaza de seguridad: se detectó una actividad de red sospechosa.
  • Error de disponibilidad: hay errores en las solicitudes de Azure Blob Storage.
  • Alertar y notificar, webhook, notificación push, cuaderno de estrategias, escalado automático Consultar los registros para identificar el componente infractor y desencadenar la automatización para corregir el problema del componente infractor.

    A continuación, verá una lista de recursos pertinentes para funcionalidades de automatización y alerta en Azure:

    Supervisión de la nube moderna

    En comparación con las plataformas de supervisión y las herramientas relacionadas que estaban disponibles antiguamente, la informática en la nube ofrece:

    • Mucha más flexibilidad para diseñar opciones de respuesta.
    • Formas más sencillas de desarrollar y permitir respuestas automatizadas.
    • Los protocolos de nube o los métodos de API se integran más fácilmente en los sistemas de administración del trabajo, incluido DevOps.

    Tenga en cuenta los siguientes modos para la variedad de acciones automatizadas, ya sea para investigación, enriquecimiento, enrutamiento, asignación, corrección, recuperación o resolución:

    Método de orquestación Descripción
    Totalmente automatizada Las acciones se realizan automáticamente. La automatización completa demuestra ser confiable, eficaz, sigue resultando útil durante no poco tiempo y es segura. La automatización completa libera los recursos para que puedan centrarse más en sus iniciativas estratégicas.
    Semiautomatizada Se requiere aprobación para toda acción de corrección.
    Manual Un operador selecciona un ejemplo de automatización o un cuaderno de estrategias de una biblioteca mantenida.

    Las alertas dependen de los datos instrumentados en función de eventos de seguridad, métricas de rendimiento, información de disponibilidad y registros. Las acciones controladas por datos son el resultado de analizar perspectivas holísticas e integrales de cada recurso supervisado mediante la agregación y el procesamiento de diferentes tipos de datos recopilados, para determinar el impacto y la acción de respuesta que se debe llevar a cabo.

    Amplíe la lectura con estos recursos para obtener más información sobre la automatización basada en alertas de métricas y eventos de seguridad:

    Rentabilidad

    Al igual que con las otras disciplinas de observabilidad, el equipo debe comprender y conocer las consecuencias de los costos y cómo los tipos de respuestas definidas en apoyo de la administración moderna de incidentes ayudan a controlar los costos. Aunque el objetivo general es reducir el tiempo medio de recuperación (MTTR) mediante respuestas y resoluciones rápidas a problemas, debe evaluarse constantemente el costo y el impacto potencial en el flujo de ingresos de TI o de la empresa.

    Cada incidente notificado tiene un costo. Supongamos que la organización invierte en orquestación para automatizar una respuesta. En ese caso, debe evaluar la relación costo-beneficio y el impacto del costo aumentando el consumo del servicio en la nube para usar esos servicios o características que permiten la automatización.

    Automatización

    La automatización de la nube ofrece importantes ventajas para el seguimiento de estado y la seguridad. Velocidad, flexibilidad y precisión son tres arquetipos que la automatización de la nube aporta a las operaciones con capacidad de respuesta. A menudo se llama a esto "orquestación", y la nube de Microsoft ofrece varios servicios.

    Por ejemplo:

    1. Se detecta una amenaza controlada por identidad en uno o varios registros, lo que genera una alerta.
    2. La automatización se desencadena de inmediato para recopilar más información y correlacionar más registros, enriqueciendo la alerta.
    3. Un operador realiza una acción mediante la selección de la automatización adecuada en una biblioteca, por ejemplo, deshabilitar la cuenta de un usuario.

    El ejemplo o caso de uso pueden automatizarse completamente.

    Luego, el rol de automatización proporciona una especie de cuaderno de estrategias que reduce los costos y ahorra tiempo:

    • No se necesitó ningún incidente de seguridad para seguir un largo proceso de investigación, diagnóstico, resolución y recuperación.
    • El ciclo desde la detección hasta la corrección podría ser de segundos o minutos, en lugar de horas.

    A continuación, el equipo debe crear una lista o biblioteca de ejemplos de automatización que se puedan usar de forma flexible, ya sea a partir de material sin procesar en sitios web públicos, o mantenido internamente y almacenado en un repositorio de control de código fuente.

    A continuación, verá una lista de lecturas sugeridas para obtener una mayor automatización basada en eventos de identidad o seguridad:

    Estrategia de alertas correcta

    No se puede corregir lo que no se sabe que está dañado.

    Alertar sobre lo que importa es fundamental. Para ello, es necesario recopilar y medir las métricas y los registros correctos. También se necesita una herramienta de supervisión capaz de almacenar, agregar, visualizar, analizar e iniciar una respuesta automatizada cuando se cumplan las condiciones. Puede mejorar la observabilidad de los servicios y de las aplicaciones solo si se entiende totalmente su composición. A esa composición se le asigna una configuración de supervisión detallada que aplica la plataforma de supervisión. Esta incluye los estados de error predecibles (los síntomas, no la causa del error) que tienen sentido para la alerta.

    Alertas de información

    En determinadas circunstancias, algunas alertas pueden ser informativas. Podemos usar esto para aprender sobre el comportamiento de nuestros sistemas. Por ejemplo, puede que quiera recibir estas alertas informativas:

    • Una VM ha sido apagada: Una VM ha sido apagada automáticamente para minimizar el desperdicio y controlar los costos basándose en una programación o una detección de uso bajo.

      En este ejemplo, la orquestación se usó según una característica de programación nativa, y la detección de la condición de uso por parte de la plataforma de supervisión. En lugar de que la alerta notifique o escale como única acción, le informa de la acción realizada y del motivo.

    • Recursos inactivos: hay recursos de IaaS o PaaS inactivos durante demasiado tiempo o no aprovisionados según las recomendaciones de Azure Advisor.

      En este ejemplo, se puede usar la orquestación para administrar esas actividades relacionadas con la infraestructura en función de la lógica de negocios o el flujo de trabajo del proceso de ITSM. Hoy en día se necesitan respuestas y acciones mucho más rápidas. Con la nube, las alertas no son tanto para humanos como para producir respuestas automáticas o una orquestación en curso como parte de un flujo de valores automatizado.

    Consideraciones sobre la estrategia de alertas

    Tenga en cuenta que el aprendizaje es fundamental, y que cuando están bien diseñadas, las alertas informativas pueden darle mucha información sobre el estado y el ecosistema en la nube.

    Para determinar si un síntoma es un candidato adecuado de una alerta, tenga en cuenta los siguientes principios:

    • Accionable: ¿importa la incidencia? ¿Refleja un problema real en el estado de la aplicación? Por ejemplo, es posible que desee enviar una alerta cuando el uso de la CPU sea demasiado alto durante cierto tiempo para un recurso, o si una consulta SQL está causando consistentemente problemas de rendimiento, pero posiblemente no quiera enviar una alerta cuando la CPU aumente durante poco tiempo. Haga que las cosas sean accionables para reducir falsos positivos y evitar la fatiga de alertas.

    • Urgencia: ¿la incidencia requiere atención urgente? Si es así, se debe notificar inmediatamente al equipo responsable.

    • Impacto al cliente: ¿los usuarios del servicio o aplicación están viéndose afectados por la incidencia?

    • Impacto en sistemas dependientes: ¿hay alertas de dependencias interrelacionadas que puedan estar relacionadas para evitar notificar a diferentes equipos que acaben trabajando a la vez en un mismo problema?

    Con estas consideraciones iniciales, puede empezar a desarrollar su configuración de supervisión. Puede probar y validar las suposiciones en todos los entornos. Por ejemplo, evalúe continuamente estas consideraciones y preguntas tanto en entornos de no producción, como de producción. La continua mejora es clave para responder satisfactoriamente a las señales de supervisión.

    Al evaluar continuamente lo que funciona, considere hacerse estas preguntas para impulsar la conciencia de su eficacia en las respuestas de supervisión:

    • Volumen de alertas: ¿recibe una gran cantidad de alertas? ¿Hay muchas alertas no accionables que podrían haberse evitado?
    • Incidencias desapercibidas: ¿recibe informes o tickets de usuarios que experimentan problemas que la configuración de supervisión pasó por alto?
    • Falsos positivos: ¿recibe alertas o señales que fueron marcadas incorrectamente?
    • Alerta o evento: ¿realmente necesita enviar una alerta, o podrían algunas de las alertas ser simplemente eventos marcados en el sistema? Si las señales se mostraran al consultarlas en lugar de enviarse una alerta, ¿sería esto suficiente para evitar la fatiga de alertas y las notificaciones no accionables?

    Consulte la introducción a la supervisión de plataformas en esta serie de artículos para conocer mejor las capacidades de las soluciones de supervisión de Microsoft.

    Pasos siguientes