Coletar os dados de monitoramento corretos

Observar a integridade e a disponibilidade de sua solução de nuvem ajuda a construir uma compreensão dos sinais que você espera em seus sistemas para que você possa determinar quais dados você deve coletar.

Este artigo faz parte de uma série no guia de monitoramento de nuvem.

Considerações sobre a recolha de dados

Faça a si mesmo estas perguntas para estabelecer critérios para uma configuração de monitoramento:

  • Composição dos serviços: Qual é a composição dos serviços? Essas dependências são monitoradas hoje? Em caso afirmativo, estão envolvidos vários instrumentos e existe uma oportunidade para consolidar sem introduzir riscos adicionais?

  • Definir estados de falha previsíveis: esses sinais são os sintomas da falha, não a causa. As ferramentas de monitoramento usam métricas e logs para diagnósticos avançados e análise de causa raiz.

  • SLA de serviço: Qual é o Acordo de Nível de Serviço (SLA) do serviço e como você irá medi-lo e relatá-lo?

  • Design do painel de serviço: Qual deve ser a aparência do painel de serviço ao analisar incidentes? Qual deve ser a aparência do painel para o proprietário do serviço e a equipe que dá suporte ao serviço?

  • Métricas de recursos: quais métricas de recursos são produzidas pela solução que você precisa monitorar?

  • Pesquisa de logs: Como o proprietário do serviço, as equipes de suporte e outros funcionários pesquisarão os logs?

  • Envolvimento das partes interessadas: inclua o proprietário do serviço de monitoramento, o gerente de operações de TI e outras partes interessadas durante a fase de planejamento. Continue a envolvê-los ao longo dos ciclos de desenvolvimento e lançamento de suas soluções de monitoramento.

  • Dados confidenciais: Que dados confidenciais devo evitar coletar para aplicativos que não quero expor aos meus operadores?

A forma como você responde a essas perguntas e os critérios para alertas determina como você usará a plataforma de monitoramento.

Avaliar os sinais de monitorização necessários

Quer esteja a implementar novas cargas de trabalho com uma nova solução de monitorização ou a migrar de uma plataforma de monitorização existente ou de um conjunto de ferramentas de monitorização, é essencial avaliar os sinais de monitorização necessários. Projetar cuidadosamente os sinais necessários ajuda a impulsionar os resultados esperados e reduz o ruído.

Considere o seguinte:

  • Acionável: Lembre-se, os dados de monitoramento precisam ser acionáveis para reduzir o ruído e os falsos positivos.
  • Otimizado: otimize os dados coletados para oferecer uma visão holística da integridade geral do serviço.
  • Instrumentação de incidentes: a instrumentação definida para identificar incidentes reais deve ser tão simples, previsível e confiável quanto possível.

Desenvolver uma configuração de monitoramento

Normalmente, o proprietário de um serviço de monitoramento e sua equipe aderem a um conjunto padrão de atividades para criar uma configuração de monitoramento. Essas atividades abrangem as etapas de planejamento, teste e validação em um ambiente de não produção e implantação em produção.

Para desenvolver configurações de monitoramento, a equipe se baseia em modos de falha conhecidos, resultados de testes de falhas simuladas e a experiência de vários indivíduos dentro da organização, como a central de serviços, pessoal de operações, engenheiros e desenvolvedores.

Essas configurações são projetadas sob a suposição de que o serviço já existe, está passando por migração para a nuvem e não foi reestruturado. Para garantir que os resultados de qualidade do nível de serviço sejam alcançados, é essencial monitorar a integridade e a disponibilidade desses serviços no início do processo de desenvolvimento. Se o monitoramento do design do serviço ou aplicativo for considerado apenas uma reflexão posterior, os resultados provavelmente serão menos bem-sucedidos.

Para acelerar a resolução do incidente, considere as seguintes recomendações:

  • Painéis de componentes individuais: defina um painel para cada componente de serviço para ajudar a identificar rapidamente quaisquer problemas conhecidos em qualquer área de seus aplicativos e infraestrutura.

  • Usar métricas: utilize os sinais de métricas incorporados nos vários componentes para ajudar a diagnosticar e identificar resoluções ou soluções alternativas se não for possível identificar uma causa raiz.

  • Habilitar personalizações de painéis: projete seus painéis para que você possa detalhar facilmente os dados dos painéis de monitoramento. Certifique-se de que suporta a personalização dinâmica das vistas, permitindo uma filtragem e resolução de problemas fáceis.

Adotar esse conjunto orientador de princípios pode ajudar a fornecer insights quase em tempo real e um melhor gerenciamento do seu serviço.

Próximos passos