Проектирование приложений критически важных рабочих нагрузок в Azure

Статья
04/11/2023

При разработке приложения крайне важны как функциональные, так и нефункциональные требования к приложению. В этой области проектирования описываются шаблоны архитектуры и стратегии масштабирования, которые помогут сделать приложение устойчивым к сбоям.

Важно!

Эта статья является частью серии критически важных рабочих нагрузок Azure Well-Architected Framework . Если вы не знакомы с этой серией, рекомендуется начать с что такое критически важная рабочая нагрузка?.

Архитектура единиц масштабирования

Все функциональные аспекты решения должны быть способны масштабироваться в соответствии с изменениями спроса. Мы рекомендуем использовать архитектуру единиц масштабирования для оптимизации комплексной масштабируемости за счет секционирования, а также для стандартизации процесса добавления и удаления емкости. Единица масштабирования — это логическая единица или функция, которую можно масштабировать независимо друг от друга. Блок может быть составлен из компонентов кода, платформ размещения приложений, меток развертывания , охватывающих связанные компоненты, и даже подписок для поддержки мультитенантных требований.

Мы рекомендуем использовать этот подход, так как он решает ограничения масштаба отдельных ресурсов и всего приложения. Это помогает в сложных сценариях развертывания и обновления, так как единицу масштабирования можно развернуть как одну единицу. Кроме того, вы можете протестировать и проверить определенные версии компонентов в модуле, прежде чем направлять в него пользовательский трафик.

Предположим, что критически важное приложение — это онлайн-каталог продуктов. Он имеет поток пользователя для обработки комментариев и оценок продукта. Поток использует API для получения и публикации комментариев и оценок, а также вспомогательных компонентов, таких как конечная точка OAuth, хранилище данных и очереди сообщений. Конечные точки API без отслеживания состояния представляют детализированные функциональные единицы, которые должны адаптироваться к изменениям по требованию. Базовая платформа приложений также должна иметь возможность соответствующим образом масштабироваться. Чтобы избежать узких мест производительности, подчиненные компоненты и зависимости также должны масштабироваться в соответствующей степени. Они могут масштабироваться как независимо, как отдельные единицы масштабирования, так и вместе как часть одной логической единицы.

Примеры единиц масштабирования

На следующем рисунке показаны возможные области для единиц масштабирования. Области варьируются от микрослужб pod до узлов кластера и региональных меток развертывания.

Глобальное распределение

Невозможно избежать сбоя в любой высокораспределённой среде. В этом разделе приведены стратегии устранения многих сценариев сбоя. Приложение должно выдерживать региональные и зональные сбои. Он должен быть развернут в модели "активный—активный", чтобы нагрузка распределялась между всеми регионами.

Просмотрите это видео, чтобы узнать, как спланировать сбои в критически важных приложениях и обеспечить максимальную устойчивость:

Слабосвязанная архитектура на основе событий

Связь обеспечивает обмен данными между службами через четко определенные интерфейсы. Слабая связь позволяет компоненту приложения работать независимо. Стиль архитектуры микрослужб соответствует критически важным требованиям. Это обеспечивает высокий уровень доступности, предотвращая каскадные сбои.

Для слабой взаимозависимости настоятельно рекомендуется включить разработку на основе событий. Асинхронная обработка сообщений через посредника может повысить устойчивость.

В некоторых сценариях приложения могут сочетать слабую и тесную связь в зависимости от бизнес-целей.

Шаблоны устойчивости и обработка ошибок в коде приложения

Критически важное приложение должно быть устойчивым таким образом, чтобы оно позволяло выполнять как можно больше сценариев сбоев. Такая устойчивость повышает доступность и надежность служб. Приложение должно иметь возможности самовосстановления, которые можно реализовать с помощью шаблонов проектирования, таких как повторные попытки с откатом и выключением цепи.

При невременных сбоях, которые невозможно полностью устранить в логике приложения, модель работоспособности и операционные оболочки должны принять меры по исправлению. Код приложения должен включать надлежащее инструментирование и ведение журнала для информирования модели работоспособности и упрощения последующего устранения неполадок или анализа первопричин по мере необходимости. Необходимо реализовать распределенную трассировку , чтобы предоставить вызывающей программе исчерпывающее сообщение об ошибке, содержащее идентификатор корреляции при сбое.

Такие средства, как Application Insights , помогают выполнять запросы, сопоставлять и визуализировать трассировки приложений.

Рекомендации по проектированию

Ниже приведены некоторые распространенные шаблоны разработки программного обеспечения для устойчивых приложений.

Модель	Сводка
Выравнивание нагрузки на основе очередей	Предоставляет буфер между потребителями и запрашиваемыми ресурсами для обеспечения согласованности уровней нагрузки. Когда запросы потребителей помещаются в очередь, рабочий процесс обрабатывает их для запрошенного ресурса в темпе, заданном рабочей ролью и возможностью запрошенного ресурса обрабатывать запросы. Если потребители ожидают ответов на свои запросы, необходимо реализовать отдельный механизм ответа. Примените приоритетный порядок, чтобы в первую очередь выполнялись наиболее важные действия.
Автоматическое выключение	Обеспечивает стабильность, ожидая восстановления или быстро отклоняя запросы, а не блокируя при ожидании недоступной удаленной службы или ресурса. Этот шаблон также обрабатывает ошибки, которые могут занять переменное время на восстановление при подключении к удаленной службе или ресурсу.
Распределительный блок	Пытается разделить экземпляры службы на группы на основе требований к нагрузке и доступности, изолируя сбои для поддержки функциональности службы.
Saga	Управляет согласованностью данных в микрослужбах, имеющих независимые хранилища данных, гарантируя, что службы обновляют друг друга с помощью определенных каналов событий или сообщений. Каждая служба выполняет локальные транзакции для обновления собственного состояния и публикует событие для активации следующей локальной транзакции в саге. Если обновление службы завершается сбоем, сага запускает компенсирующие транзакции для противодействия предыдущим шагам обновления службы. Отдельные шаги обновления службы могут сами реализовывать шаблоны устойчивости, такие как повторная попытка.
Мониторинг конечных точек работоспособности	Реализует функциональные проверки в приложении, к которому внешние средства могут получать доступ через предоставленные конечные точки через регулярные интервалы. Вы можете интерпретировать ответы от конечных точек, используя ключевые операционные метрики для информирования о работоспособности приложения и активации операционных ответов, таких как создание оповещения или выполнение компенсирующего отката развертывания.
Повторные попытки	Обрабатывает временные сбои элегантно и прозрачно. — Отмена, если ошибка вряд ли будет временной и вряд ли будет успешной при повторной попытке операции. — Повторите попытку, если ошибка является необычной или редкой, и операция, скорее всего, будет успешной, если предпринята повторная попытка немедленно. — Повторите попытку после задержки, если ошибка вызвана условием, которое может потребовать короткого времени для восстановления, например сетевого подключения или сбоев высокой нагрузки. Примените подходящую стратегию отката по мере увеличения задержки повторных попыток.
Регулирование	Управляет потреблением ресурсов, используемых компонентами приложений, защищая их от чрезмерной обремеченности. Когда ресурс достигает порогового значения нагрузки, он откладывает операции с более низким приоритетом и ухудшает несущественные функции, чтобы основные функции могли продолжаться до тех пор, пока не будет доступно достаточно ресурсов для возврата к нормальной работе.

Ниже приведены некоторые дополнительные рекомендации.

Используйте предоставленные поставщиком пакеты SDK, такие как пакеты SDK Для Azure, для подключения к зависимым службам. Используйте встроенные возможности устойчивости вместо реализации пользовательских функций.
Применяйте подходящую стратегию отката при повторных попытках неудачных вызовов зависимостей, чтобы избежать самостоятельного сценария DDoS.
Определите общие критерии проектирования для всех команд микрослужб приложений, чтобы обеспечить согласованность и скорость использования шаблонов устойчивости на уровне приложения.
Реализуйте шаблоны устойчивости, используя проверенные стандартизированные пакеты, такие как Polly для C# или Sentinel для Java.
Используйте идентификаторы корреляции для всех событий трассировки и сообщений журнала, чтобы связать их с данным запросом. Возвращает идентификаторы корреляции вызывающей объекту для всех вызовов, а не только для неудачных запросов.
Используйте структурированное ведение журнала для всех сообщений журнала. Выберите единый приемник операционных данных для трассировок, метрик и журналов приложений, чтобы операторы могли легко отлаживать проблемы. Дополнительные сведения см. в статье Сбор, агрегирования и хранения данных мониторинга для облачных приложений.
Убедитесь, что операционные данные используются вместе с бизнес-требованиями для информирования о модели работоспособности приложений.

Выбор языка программирования

Важно выбрать правильные языки программирования и платформы. Эти решения часто определяются набором навыков или стандартизированными технологиями в организации. Однако важно оценить производительность, устойчивость и общие возможности различных языков и платформ.

Следующий шаг

Ознакомьтесь с рекомендациями для платформы приложений.

Платформа приложений

Проектирование приложений критически важных рабочих нагрузок в Azure

Архитектура единиц масштабирования

Примеры единиц масштабирования

Рекомендации по проектированию

Рекомендации по проектированию

Глобальное распределение

Рекомендации по проектированию

Слабосвязанная архитектура на основе событий

Рекомендации по проектированию

Рекомендации по проектированию

Пример. Подход на основе событий

Шаблоны устойчивости и обработка ошибок в коде приложения

Рекомендации по проектированию

Рекомендации по проектированию

Выбор языка программирования

Рекомендации по проектированию

Рекомендации по проектированию

Следующий шаг

Обратная связь

Обратная связь

Дополнительные ресурсы