Monitorização e resposta na nuvem

Este artigo faz parte de uma série no guia de monitoramento de nuvem.

A resposta é o resultado da definição de uma ou mais ações com base em decisões baseadas em dados do monitoramento que permitem aos consumidores de serviços:

  • Torne-o acionável: use configurações de monitoramento bem ajustadas para criar sinais acionáveis.
  • Monitorar continuamente: aplique monitoramento durante todo o incidente e atividades de solução de problemas para ajudar ainda mais a diagnosticar problemas.
  • Automatizar: configure a investigação, o diagnóstico, a resolução, a recuperação e a remediação automáticos com base em sinais identificados.

O princípio da significância aplica-se aqui. Isso ajuda com o fluxo do processo ou a política de ação para ajustar e otimizar alertas, notificações e resumos de relatórios. O monitoramento de nuvem é muito mais do que notificar os seres humanos de que algo está errado. Trata-se também de fornecer sinais aos sistemas e serviços para que reajam.

A monitorização desempenha um papel fundamental numa vasta gama de cenários:

  • Permitindo o comportamento dinâmico do serviço: controle dinamicamente os sistemas e serviços para reagir com base nos dados de monitoramento e eliminar incidentes automaticamente.
  • Avalie continuamente os sinais: informe e forneça telemetria constantemente para processos dinâmicos, conformidade, dimensionamento automático e visualizações.
  • Ações organizacionais: Ajude a organização de TI a agir e gerenciar a mudança.

Alertas

A automação substitui processos de gerenciamento de serviços mais caros no cenário de nuvem moderno, eliminando mais incidentes. Os alertas desempenham um papel crucial na sensibilização, mas devem ser acionáveis para evitar fadiga ou ruído de alerta.

A definição de alertas ajuda a garantir proativamente que os serviços e sistemas permaneçam íntegros, responsivos, confiáveis e seguros. Garantir o desempenho, manter os Objetivos de Nível de Serviço (SLO), a disponibilidade e a privacidade precisa de uma estratégia de alerta adequada. A escalada de alertas não é crucial para a observabilidade, e hoje não deve ser considerada a primeira linha de defesa. Em vez disso, a automação deve desempenhar um papel crítico aqui.

Tradicionalmente, o monitoramento significava levantar um alerta sobre o qual alguém poderia agir, implicando um processo totalmente reativo. Essa abordagem deve ser revisada seguindo práticas modernas de gerenciamento de serviços ou operações em nuvem. Essa abordagem segue de perto o caminho tradicional de Gerenciamento de Incidentes ITIL, que não corresponde aos objetivos de eficiência da nuvem por meio de agilidade, custo mínimo e otimização.

Uma abordagem moderna pode ter uma frequência de condições detetadas que são muito mais informativas e automatizadas, por exemplo:

Condição detetada Ação primitiva Ação moderna
  • Métrica de desempenho - alta utilização de memória.
  • Ameaça à segurança - detetou atividade suspeita na rede.
  • Falha de disponibilidade - as solicitações de armazenamento de blob do Azure estão falhando.
  • Alertar e notificar, webhook, notificação push, playbook, dimensionamento automático Logs de consulta para identificar o componente ofensivo e acionar a automação para corrigir o problema com o componente ofensivo.

    Aqui está uma lista de recursos relevantes para recursos de alerta e automação no Azure:

    Monitoramento de nuvem moderno

    Em comparação com as plataformas de monitoramento e ferramentas relacionadas que estavam disponíveis no passado, a computação em nuvem oferece:

    • Muito mais flexibilidade para conceber opções de resposta.
    • Formas mais fáceis de desenvolver e permitir respostas automatizadas.
    • Protocolos de nuvem ou métodos de API se integram mais facilmente com sistemas de gerenciamento de trabalho, incluindo DevOps.

    Considere os seguintes modos para o intervalo de ações automatizadas, seja para investigação, enriquecimento, roteamento, atribuição, remediação, recuperação ou resolução:

    Método de orquestração Description
    Totalmente automatizado As ações são executadas automaticamente. A automação total deve ser comprovadamente confiável, eficiente e durável para onde sua utilidade não é de curta duração e é segura. A automação total libera seus recursos para que eles possam se concentrar mais em suas iniciativas estratégicas.
    Semi-automatizado A aprovação é necessária para qualquer ação de correção.
    Manual Um operador seleciona um exemplo de automação ou um playbook de uma biblioteca com curadoria.

    Os alertas dependem dos dados instrumentados com base em eventos de segurança, métricas de desempenho, informações de disponibilidade e logs. As ações orientadas por dados resultam da análise de perspetivas holísticas de ponta a ponta de cada recurso monitorado, agregando e processando diferentes tipos de dados coletados para determinar o impacto e qual ação responsiva tomar.

    Expanda sua leitura com estes recursos para saber mais sobre automação com base em alertas métricos e eventos de segurança:

    Eficiência de custos

    Tal como acontece com as outras disciplinas de observabilidade, a equipa precisa de compreender e perceber as implicações de custos e como os tipos de respostas definidas em apoio à gestão de incidentes moderna ajudam a controlar os custos. Embora o objetivo geral seja reduzir o MTTR (Mean Time to Recovery) respondendo e resolvendo rapidamente um problema, você deve avaliar constantemente o custo e o impacto potenciais no fluxo de receita de TI ou de negócios.

    Cada incidente relatado tem um custo. Suponha que a organização invista em orquestração para automatizar uma resposta. Nesse caso, você deve avaliar o custo-benefício e o impacto do custo, aumentando o consumo do serviço de nuvem para utilizar esses serviços ou recursos que permitem a automação.

    Automatização

    A automação em nuvem oferece vantagens significativas para segurança e monitoramento de integridade. Velocidade, flexibilidade e precisão são três arquétipos que a automação em nuvem traz para operações responsivas. Muitas vezes isso é chamado de orquestração, e a nuvem da Microsoft oferece vários serviços.

    Por exemplo:

    1. Uma ameaça orientada por identidade é detetada a partir de um ou mais logs, gerando um alerta.
    2. A automação é imediatamente acionada para coletar mais informações e correlacionar mais logs para enriquecer o alerta.
    3. Um operador executa uma ação selecionando a automação correta de uma biblioteca, como desabilitar uma conta de usuário.

    O exemplo ou caso de uso pode ser totalmente automatizado.

    O papel da automação fornece uma espécie de manual que reduz custos e economiza tempo:

    • Nenhum incidente de segurança foi necessário para acompanhar uma longa investigação, diagnóstico, resolução e recuperação.
    • O ciclo de deteção para correção pode ser em segundos ou minutos versus horas.

    Em seguida, sua equipe precisa criar uma lista ou biblioteca de exemplos de automação que possam ser usados de forma flexível - seja a partir de matéria-prima em sites públicos ou internamente selecionados e armazenados em um repositório de controle de origem.

    Aqui está uma lista de sugestões de leitura para mais automação com base em eventos de identidade ou segurança:

    Estratégia de alerta bem-sucedida

    Você não pode consertar o que você não sabe que está quebrado.

    Alertar sobre o que importa é fundamental. Ele é sustentado pela coleta e medição das métricas e logs corretos. Você também precisa de uma ferramenta de monitoramento capaz de armazenar, agregar, visualizar, analisar e iniciar uma resposta automatizada quando as condições forem atendidas. Só pode melhorar a observabilidade dos seus serviços e aplicações se compreender completamente a sua composição. Você mapeia essa composição em uma configuração de monitoramento detalhada a ser aplicada pela plataforma de monitoramento. Essa configuração inclui os estados de falha previsíveis (os sintomas, não a causa da falha) que fazem sentido alertar.

    Alertas informativos

    Em determinadas circunstâncias, alguns alertas podem ser informativos. Podemos usar isso para aprender sobre como nossos sistemas se comportam. Por exemplo, talvez você queira obter estes alertas informativos:

    • Uma VM foi encerrada: uma VM foi desligada automaticamente para minimizar o desperdício e controlar os custos com base em um cronograma ou baixa utilização detetada.

      Neste exemplo, a orquestração foi usada com base em um recurso de agendamento nativo e pela plataforma de monitoramento detetando a condição de utilização. Em vez de o alerta notificar ou escalar como a única ação, ele informa sobre a ação executada e por quê.

    • Recursos ociosos: os recursos IaaS ou PaaS ficam ociosos por um período prolongado ou não são provisionados com base nas recomendações do Azure Advisor.

      Neste exemplo, a orquestração pode ser usada para gerenciar essas atividades relacionadas à infraestrutura com base na lógica de negócios ou no fluxo de trabalho do processo ITSM. Hoje em dia, são necessárias respostas e ações muito mais rápidas. Com a nuvem, o alerta é menos para humanos do que para uma resposta automatizada ou uma orquestração contínua como parte de um fluxo de valor automatizado.

    Considerações sobre a estratégia de alerta

    Tenha em mente que aprender é fundamental e, quando projetados corretamente, os alertas informativos podem fornecer muitas informações sobre seu ecossistema de nuvem e saúde.

    Considere os seguintes princípios para determinar se um sintoma é um candidato apropriado para alerta:

    • Acionável: O problema é importante? Reflete um problema real na saúde da sua aplicação? Por exemplo, talvez você queira enviar um alerta quando a utilização da CPU estiver muito alta durante um período sustentado para um recurso ou quando uma consulta SQL estiver consistentemente causando problemas de desempenho, mas talvez não queira enviar um alerta quando a CPU aumentar em um curto período. Torne as coisas acionáveis para reduzir os falsos positivos e evitar a fadiga de alerta.

    • Urgência: A questão precisa de atenção urgente? Em caso afirmativo, a equipa responsável deve ser imediatamente notificada.

    • Impacto no cliente: os usuários do serviço ou aplicativo são afetados pelo problema?

    • Impacto nos sistemas dependentes: Existem alertas de dependências inter-relacionadas que podem ser correlacionados para evitar notificar diferentes equipas que trabalham no mesmo problema?

    Com essas considerações iniciais, você pode começar a desenvolver sua configuração de monitoramento. Você pode testar e validar as suposições em todos os ambientes. Por exemplo, avalie continuamente essas considerações e perguntas em ambientes de não produção e produção. A melhoria contínua é fundamental para uma resposta bem-sucedida na monitorização de sinais.

    Ao avaliar continuamente o que está funcionando, considere fazer estas perguntas a si mesmo para ajudar a aumentar a conscientização sobre a eficácia da resposta de monitoramento:

    • Volume de alerta: Você recebe um volume de alerta alto? Existem muitos alertas não acionáveis que poderiam ter sido evitados?
    • Problemas despercebidos: você recebe relatórios ou tíquetes de usuários com problemas que não foram detetados pela configuração de monitoramento?
    • Falsos positivos: Você recebe alertas ou sinais que foram sinalizados incorretamente?
    • Alerta ou evento: Você realmente precisa enviar um alerta, ou alguns dos alertas gerados podem ser apenas eventos sinalizados no sistema? Se os sinais aparecerem quando você os consulta, em vez de enviar um alerta, isso seria suficiente para evitar fadiga de alerta e notificações não acionáveis?

    Consulte a visão geral das plataformas de monitoramento nesta série de artigos para obter uma compreensão mais profunda dos recursos das soluções de monitoramento da Microsoft.

    Próximos passos