Моделирование работоспособности и наблюдаемость критически важных рабочих нагрузок в Azure

Статья
04/20/2023

Моделирование работоспособности и наблюдаемость — это важные понятия для обеспечения максимальной надежности, которая фокусируется на надежном и контекстуализированном инструментировании и мониторинге. Эти концепции предоставляют важные сведения о работоспособности приложений, способствуя быстрому выявлению и устранению проблем.

Большинство критически важных приложений имеют большое значение как с точки зрения масштаба, так и с точки зрения сложности и поэтому создают большие объемы операционных данных, что затрудняет оценку и определение оптимальных эксплуатационных действий. Моделирование работоспособности в конечном счете стремится к максимальной наблюдаемости, дополняя необработанные журналы мониторинга и метрики ключевыми бизнес-требованиями для количественной оценки работоспособности приложений, что приводит к автоматической оценке состояний работоспособности для достижения согласованных и ускоряемых операций.

В этой области проектирования основное внимание уделяется процессу определения надежной модели работоспособности, сопоставления количественных состояний работоспособности приложения с помощью наблюдаемости и операционных конструкций для достижения операционной зрелости.

Важно!

Эта статья входит в серию критически важных рабочих нагрузок Azure Well-Architected . Если вы не знакомы с этой серией, рекомендуем начать с критически важной рабочей нагрузки?

Существует три main уровня операционной зрелости при стремлении к максимальной надежности.

Обнаружение проблем и реагирование на них по мере их возникновения.
Диагностируйте проблемы, которые возникли или уже возникли.
Прогнозирование и предотвращение проблем до их возникновения.

Видео. Определение модели работоспособности для критически важной рабочей нагрузки

Работоспособности многоуровневого приложения

Чтобы создать модель работоспособности, сначала определите работоспособность приложений в контексте ключевых бизнес-требований путем количественной оценки "работоспособных" и "неработоспособных" состояний в многоуровневом и измеримом формате. Затем для каждого компонента приложения уточните определение в контексте устойчивого состояния выполнения и агрегируйте в соответствии с потоками пользователей приложения. Наложение на ключевые нефункциональные бизнес-требования к производительности и доступности. Наконец, агрегируем состояния работоспособности для каждого отдельного потока пользователя, чтобы сформировать приемлемое представление общей работоспособности приложения. После установки эти многоуровневые определения работоспособности следует использовать для информирования критических метрик мониторинга во всех компонентах системы и проверки состава операционной подсистемы.

Важно!

При определении "неработоспособных" состояний представляет для всех уровней приложения. Важно различать временные и непереходные состояния сбоев, чтобы квалифицировать снижение производительности службы относительно недоступности.

Пример многоуровневой модели работоспособности

Это упрощенное представление многоуровневой модели работоспособности приложения для наглядности. Комплексная и контекстуализированная модель работоспособности предоставляется в эталонных реализациях Mission-Critical:

При реализации модели работоспособности важно определить работоспособность отдельных компонентов с помощью агрегирования и интерпретации ключевых метрик уровня ресурсов. Ниже приведен пример использования метрик ресурсов.

Критически важные примеры определений работоспособности

Это определение работоспособности впоследствии может быть представлено запросом KQL, как показано в примере запроса ниже, который объединяет InsightsMetrics (Аналитика контейнеров) и AzureMetrics (диагностика параметр для кластера AKS) и сравнивает (внутреннее соединение) с порогами работоспособности модели.

// ClusterHealthStatus
let Thresholds=datatable(MetricName: string, YellowThreshold: double, RedThreshold: double) [
    // Disk Usage:
    "used_percent", 50, 80,
    // Average node cpu usage %:
    "node_cpu_usage_percentage", 60, 90,
    // Average node disk usage %:
    "node_disk_usage_percentage", 60, 80,
    // Average node memory usage %:
    "node_memory_rss_percentage", 60, 80
    ];
InsightsMetrics
| summarize arg_max(TimeGenerated, *) by Computer, Name
| project TimeGenerated,Computer, Namespace, MetricName = Name, Value=Val
| extend NodeName = extract("([a-z0-9-]*)(-)([a-z0-9]*)$", 3, Computer)
| union (
    AzureMetrics
    | extend ResourceType = extract("(PROVIDERS/MICROSOFT.)([A-Z]*/[A-Z]*)", 2, ResourceId)
    | where ResourceType == "CONTAINERSERVICE/MANAGEDCLUSTERS"
    | summarize arg_max(TimeGenerated, *) by MetricName
    | project TimeGenerated, MetricName, Namespace = "AzureMetrics", Value=Average
    )
| lookup kind=inner Thresholds on MetricName
| extend IsYellow = iff(Value > YellowThreshold and Value < RedThreshold, 1, 0)
| extend IsRed = iff(Value > RedThreshold, 1, 0)
| project NodeName, MetricName, Value, YellowThreshold, IsYellow, RedThreshold, IsRed

Полученные выходные данные таблицы впоследствии можно преобразовать в оценку работоспособности для упрощения агрегирования на более высоких уровнях модели работоспособности.

// ClusterHealthScore
ClusterHealthStatus
| summarize YellowScore = max(IsYellow), RedScore = max(IsRed)
| extend HealthScore = 1-(YellowScore*0.25)-(RedScore*0.5)

Эти агрегированные оценки впоследствии можно представить в виде диаграммы зависимостей с помощью таких средств визуализации, как Grafana, чтобы проиллюстрировать модель работоспособности.

На этом изображении показан пример многоуровневой модели работоспособности из эталонной реализации Azure Mission-Critical и показано, как изменение состояния работоспособности базового компонента может оказывать каскадное влияние на потоки пользователей и общую работоспособность приложений (примеры значений соответствуют таблице на предыдущем рисунке).

Визуализация модели работоспособности критически важный

Демонстрационный видеоролик. Демонстрация мониторинга и моделирования работоспособности

Единый приемник данных для коррелированного анализа

Многие операционные наборы данных должны быть собраны из всех компонентов системы, чтобы точно представлять определенную модель работоспособности, учитывая журналы и метрики как из компонентов приложения, так и из базовых ресурсов Azure. Этот огромный объем данных в конечном итоге должен храниться в формате, который позволяет интерпретировать практически в реальном времени, чтобы упростить оперативные действия. Кроме того, требуется корреляция между всеми наборами данных, чтобы обеспечить бесперебойную обработку эффективного анализа, обеспечивая многоуровневые представления работоспособности.

Единый приемник данных необходим, чтобы обеспечить быстрое хранение всех операционных данных и их доступность для коррелированного анализа, чтобы создать представление работоспособности приложения в одной панели. Azure предоставляет несколько различных операционных технологий в рамках Azure Monitor, а рабочая область Log Analytics служит основным приемником данных Azure для хранения и анализа операционных данных.

Сбор критически важных данных о работоспособности

Визуализация

Визуальное представление модели работоспособности с критически важными операционными данными имеет важное значение для достижения эффективности операций и повышения надежности. Панели мониторинга должны в конечном итоге использоваться для предоставления практически в реальном времени аналитических сведений о работоспособности приложений для команд DevOps, что облегчает быструю диагностику отклонений от устойчивого состояния.

Корпорация Майкрософт предоставляет несколько технологий визуализации данных, включая панели мониторинга Azure, Power BI и Azure Managed Grafana (в настоящее время находится в предварительной версии). Панели мониторинга Azure предоставляют тесно интегрированное встроенное решение для визуализации операционных данных в Azure Monitor. Поэтому она играет фундаментальную роль в визуальном представлении операционных данных и работоспособности приложений для критически важной рабочей нагрузки. Однако существует несколько ограничений с точки зрения позиционирования панелей мониторинга Azure как целостной платформы наблюдаемости, и в результате следует учитывать дополнительное использование ведущих на рынке решений для наблюдения, таких как Grafana, которое также предоставляется в качестве управляемого решения в Azure.

В этом разделе основное внимание уделяется использованию панелей мониторинга Azure и Grafana для создания надежного интерфейса мониторинга, позволяющего предоставлять технические и бизнес-возможности для обеспечения работоспособности приложений, что позволяет командам DevOps и эффективно работать. Надежная панель мониторинга необходима для диагностики уже возникших проблем и поддержки операционных групп в обнаружении и реагировании на них по мере их возникновения.

Автоматизированное реагирование на инциденты

Хотя визуальные представления работоспособности приложений предоставляют бесценные операционные и бизнес-аналитические сведения для поддержки обнаружения и диагностики проблем, они зависят от готовности и интерпретации операционных групп, а также на эффективности последующих ответов, инициированных человеком. Поэтому для обеспечения максимальной надежности необходимо реализовать обширные оповещения для упреждающего обнаружения проблем и реагирования на них практически в режиме реального времени.

Azure Monitor предоставляет обширную платформу оповещений для обнаружения, классификации и реагирования на рабочие сигналы с помощью групп действий. Поэтому в этом разделе основное внимание уделяется использованию оповещений Azure Monitor для выполнения автоматических действий в ответ на текущие или потенциальные отклонения от работоспособного состояния приложения.

Важно!

Оповещения и автоматизированные действия имеют решающее значение для эффективного обнаружения проблем и быстрого реагирования на них, прежде чем могут возникнуть более негативные последствия. Оповещения также предоставляют механизм для интерпретации входящих сигналов и реагирования на предотвращение проблем до их возникновения.

Прогнозные действия и операции ИИ (AIOps)

Модели машинного обучения можно применять для корреляции и определения приоритетов операционных данных, помогая собирать критически важные сведения, связанные с фильтрацией чрезмерного "шума" оповещений и прогнозированием проблем, прежде чем они вызовут последствия, а также ускоряя реагирование на инциденты при их выполнении.

В частности, методология AIOps может применяться к критически важным аналитическим сведениям о поведении системы, пользователей и процессов DevOps. Эти аналитические сведения могут включать определение проблемы, возникающей сейчас (обнаружение), количественное определение причины проблемы (диагностика) или сигнал о том, что произойдет в будущем (прогнозирование). Такие аналитические сведения можно использовать для выполнения действий, которые корректируют и оптимизируют приложение для устранения активных или потенциальных проблем, используя ключевые бизнес-метрики, метрики качества системы и метрики производительности DevOps, чтобы определить приоритеты в соответствии с влиянием на бизнес. Выполненные действия могут быть вложены в систему с помощью цикла обратной связи, который дополнительно обучает базовую модель для повышения эффективности.

Критически важные методологии AIOps— критически

В Azure существует несколько аналитических технологий, таких как Azure Synapse и Azure Databricks, которые можно использовать для создания и обучения аналитических моделей для AIOps. Поэтому в этом разделе основное внимание уделяется тому, как эти технологии можно разместить в структуре приложения, чтобы обеспечить возможности AIOps и прогностических действий, уделяя особое внимание Azure Synapse, которые сокращают трудности, объединяя лучшие службы данных Azure наряду с мощными новыми функциями.

AIOps используется для выполнения прогнозных действий, интерпретации и корреляции сложных операционных сигналов, наблюдаемых в течение длительного периода, чтобы лучше реагировать на проблемы и предотвращать их до их возникновения.

Следующий шаг

Ознакомьтесь с рекомендациями по развертыванию и тестированию.

Развертывание и тестирование

Моделирование работоспособности и наблюдаемость критически важных рабочих нагрузок в Azure

Видео. Определение модели работоспособности для критически важной рабочей нагрузки

Работоспособности многоуровневого приложения

Рекомендации по проектированию

Рекомендации по проектированию

Пример многоуровневой модели работоспособности

Демонстрационный видеоролик. Демонстрация мониторинга и моделирования работоспособности

Единый приемник данных для коррелированного анализа

Рекомендации по проектированию

Рекомендации по проектированию

Визуализация

Рекомендации по проектированию

Рекомендации по проектированию

Автоматизированное реагирование на инциденты

Рекомендации по проектированию

Рекомендации по проектированию

Прогнозные действия и операции ИИ (AIOps)

Рекомендации по проектированию

Рекомендации по проектированию

Следующий шаг

Обратная связь

Обратная связь

Дополнительные ресурсы