Сбор правильных данных мониторинга

Наблюдение за работоспособностью и доступностью облачного решения помогает понять сигналы, которые вы ожидаете в системах, чтобы определить, какие данные следует собирать.

Эта статья является частью серии в руководстве по мониторингу облака.

Рекомендации по сбору данных

Задайте себе следующие вопросы, чтобы установить критерии для конфигурации мониторинга:

  • Состав службы: каков состав служб? Отслеживаются ли эти зависимости в настоящее время? Если да, участвуют несколько инструментов и есть ли возможность консолидироваться без введения дополнительных рисков?

  • Определите прогнозируемые состояния сбоя: эти сигналы являются симптомами сбоя, а не причиной. Средства мониторинга используют метрики и журналы для расширенного диагностика и анализа первопричин.

  • Соглашение об уровне обслуживания: что такое соглашение об уровне обслуживания (SLA) службы, а также как вы будете измерять и сообщать об этом?

  • Дизайн панели мониторинга службы: что должно выглядеть панель мониторинга службы при просмотре инцидентов? Что должно выглядеть панель мониторинга для владельца службы и команды, поддерживающей службу?

  • Метрики ресурсов: какие метрики ресурсов создаются решением, которое необходимо отслеживать?

  • Поиск по журналам: как владелец службы, группы поддержки и другие сотрудники будут искать журналы?

  • Участие заинтересованных лиц: включите владельца службы мониторинга, руководителя ИТ-операций и других заинтересованных лиц на этапе планирования. Продолжайте использовать их в рамках циклов разработки и выпуска решений мониторинга.

  • Конфиденциальные данные: какие конфиденциальные данные следует избегать сбора для приложений, которые я не хочу предоставлять своим операторам?

Ответы на эти вопросы и критерии оповещения определяют подход к использованию платформы мониторинга.

Оценка необходимых сигналов мониторинга

Независимо от того, развертываете ли вы новые рабочие нагрузки с помощью нового решения для мониторинга или выполняете миграцию с существующей платформы мониторинга или набора средств мониторинга, оценка необходимых сигналов мониторинга является важной. Тщательное проектирование необходимых сигналов помогает повысить ожидаемые результаты и снизить шум.

В частности, необходимо принимать во внимание следующее:

  • Помните, что данные мониторинга должны быть действовать для снижения шума и ложных срабатываний.
  • Оптимизировано. Оптимизируйте собранные данные, чтобы обеспечить целостное представление о общей работоспособности службы.
  • Инструментирование инцидентов: инструментирование, определенное для выявления фактических инцидентов, должно быть максимально простым, предсказуемым и надежным.

Разработка конфигурации мониторинга

Как правило, владелец службы мониторинга и их команда соответствуют стандартному набору действий для создания конфигурации мониторинга. Эти действия охватывают этапы планирования, тестирование и проверку в непроизводственных средах и развертывание в рабочей среде.

Для разработки конфигураций мониторинга команда опирается на известные режимы сбоя, результаты тестирования из имитированных сбоев и опыт различных лиц в организации, таких как служба, персонал операций, инженеры и разработчики.

Эти конфигурации разработаны в соответствии с предположением, что служба уже существует, проходит миграцию в облако и не была реструктурирована. Чтобы обеспечить достижение результатов качества обслуживания, необходимо отслеживать работоспособность и доступность этих служб в начале процесса разработки. Если мониторинг дизайна службы или приложения считается только последуманым, результаты, скорее всего, будут менее успешными.

Чтобы ускорить разрешение инцидентов, примите во внимание приведенные ниже рекомендации.

  • Панели мониторинга отдельных компонентов: определите панель мониторинга для каждого компонента службы, чтобы быстро определить известные проблемы в любой области приложений и инфраструктуры.

  • Используйте метрики: используйте сигналы метрик, встроенные в различные компоненты, чтобы помочь диагностировать и выявлять разрешения или обходные пути, если не удается определить первопричину.

  • Включение настроек панели мониторинга. Проектирование панелей мониторинга позволяет легко детализировать данные из панелей мониторинга. Убедитесь, что вы поддерживаете динамические настройки представлений, что позволяет легко фильтровать и устранять неполадки.

Охватывая этот руководящий набор принципов, вы можете дать вам практически в режиме реального времени аналитические сведения и лучшее управление вашей службой.

Следующие шаги