Управление операциями рабочей нагрузки в облаке

Статья
07/11/2023

Некоторые рабочие нагрузки являются критически важными для успеха компании. Для этих рабочих нагрузок базового уровня управления не достаточно для удовлетворения требуемых бизнес-обязательств по управлению облаком. Операций с платформой может быть недостаточно даже для выполнения бизнес-обязательств. Это очень важное подмножество рабочих нагрузок требует особого внимания на принципы поддержки функций рабочих нагрузок.

В результате инвестиции в операции рабочей нагрузки могут привести к повышению производительности, снижению рисков прерывания работы и более быстрому восстановлению при возникновении системных сбоев. В этой статье описан подход к инвестированию в непрерывные операции этих рабочих нагрузок с высоким приоритетом, который стимулирует повышенные бизнес-обязательства.

Когда следует инвестировать в операции рабочей нагрузки

Принцип Парето (также называемый правилом 80/20) гласит, что 20 процентов усилий обеспечивают 80 процентов результата. Если портфель ИТ-решений может со временем органично расширяться, действие этого правила часто можно наблюдать при анализе обзоре портфеля ИТ-решений. В зависимости от результата, которого требуется достичь с помощью инвестиций, сами усилия могут отличаться, однако общий принцип по-прежнему остается в силе:

80 процентов сбоев систем часто являются результатом 20 процентов распространенных ошибок или неполадок.
80 процентов ценности бизнеса обычно обеспечивается за счет 20 процентов рабочих нагрузок в портфеле.
80 процентов усилий по осуществлению переноса в облако приходится на 20 процентов перемещаемых рабочих нагрузок.
80 процентов усилий по управлению облаком будет направлено на решение 20 процентов инцидентов обслуживания или заявок на устранение неисправностей.
80 процентов влияния сбоев на бизнес приходится от 20 процентов систем, которые затронул сбой.

Операции рабочей нагрузки следует применять только в том случае, если хорошо понятны стратегии внедрения облака, результаты бизнеса и операционные метрики. Это изменение парадигмы по сравнению с классическими представлениями ИТ-специалистов. Обычно предполагается, что все рабочие нагрузки получают одинаковые уровни поддержки и приоритета.

Прежде чем инвестировать в глубокие операции рабочей нагрузки, ИТ-отдел и бизнес должны понимать, что можно ожидать о увеличения инвестиций в управление облаком и какие они принесут результаты для бизнеса.

Начало работы с данными

Операции рабочей нагрузки начинаются с глубокого понимания требований к производительности и поддержке рабочей нагрузки. Прежде чем вкладывать средства в операции рабочей нагрузки, команда должна собрать полные данные о зависимостях рабочих нагрузок, производительности приложений, диагностике базы данных, телеметрии виртуальной машины и журнале инцидентов.

Эти данные позволяет затем получить аналитические сведения, на основе которых принимаются решения по операциям рабочей нагрузки.

Продолжение наблюдения

Начальные данные и данные телеметрии позволяют формулировать и тестировать теории о производительности рабочей нагрузки. Однако текущие операции рабочей нагрузки основаны на постоянном и развернутом наблюдении за производительностью рабочей нагрузки с особым вниманием на эффективность использования приложений и данных.

Тестирование автоматизации

На уровне приложения первые требования к операциям рабочей нагрузки — это инвестиции в глубокое тестирование. Для любого приложения, поддерживаемого с помощью операций рабочей нагрузки, необходимо составить план тестирования и регулярно выполнить его, чтобы обеспечить функциональное и масштабируемое тестирование приложений.

Регулярная телеметрии теста позволяет мгновенно проверять различные гипотезы относительно выполнения рабочей нагрузки. Можно совершенствовать операционные и архитектурные шаблоны и тестировать их. Полученные в результате данные об изменениях позволяют провести четкий анализ влияния, которых определит дальнейшие инвестиции.

Общие сведения о выпусках

Четкое понимание циклов выпуска и конвейеров выпуска является важным элементом операций рабочей нагрузки.

Понимание циклов позволит команде подготовиться к потенциальным перебоям в работе и заранее планировать выпуски, которые могут отрицательно сказаться на работе компании. Это понимание также позволяет специалистам по управлению облаком сотрудничать со специалистами по внедрению, чтобы постоянно улучшать качество продукта и устранять все ошибки, которые могут повлиять на стабильность.

Что еще более важно, понимание конвейеров выпуска может значительно улучшить целевую точку восстановления (RPO) рабочей нагрузки. Во многих сценариях самый быстрый и точный путь к восстановлению приложения — это конвейер выпуска. Для уровней приложений, которые изменяются только при появлении новых выпусков, есть смысл больше средств вкладывать в оптимизацию конвейера, чем в восстановление приложения из традиционных процессов резервного копирования.

Хотя конвейер развертывания может быть самым быстрым путем к восстановлению, это также может быть самый быстрый путь к исправлению. Если у приложения есть быстрый, эффективный и надежный конвейер выпуска, группа управления облаком может автоматизировать развертывание на новом узле и использовать это как вариант автоматического исправления.

Существует множество других более быстрых и эффективных механизмов исправления и восстановления. Однако, если с помощью существующего конвейера удается выполнить бизнес-обязательствами и получить отдачу от существующих инвестиций DevOps, то существующий конвейер можно считать приемлемым вариантом.

Четкое описание изменений в рабочей нагрузке

Изменение в любой рабочей нагрузке представляет собой один из самых больших рисков для операций рабочей нагрузки. Для любой рабочей нагрузки на уровне операций рабочей нагрузки управления облаком специалисты по управлению облаком должны тесно взаимодействовать со специалистами по внедрению облака, чтобы понимать, какие ожидаются изменения от каждого выпуска. Эти инвестиции в понимание изменений до начала их реализации будут иметь прямое и положительное влияние на операционную стабильность.

Улучшение результатов

Инвестиции в данные и коммуникации в рабочей нагрузке позволят получать предложения по улучшению текущих операций в одной из трех областей:

Решение проблемы технического долга
Автоматическое устранение
Улучшение структуры системы

Решение проблемы технического долга

Даже самые оптимальные планы операций рабочей нагрузки нуждаются в исправлении. Поскольку специалисты по управлению облаком стараются постоянно отслеживать и понимать усилия по внедрению и разбираться в выпусках, они вполне могут также регулярно предоставлять требования по исправлению, чтобы технический долг и ошибки оставались приоритетом для групп разработчиков.

Автоматическое устранение

Применяя принцип Парето, можно сказать, что 80 процентов от отрицательного воздействия на бизнес, скорее всего, будет связано с 20% инцидентов обслуживания. Если эти инциденты невозможно устранить в ходе нормальных циклов разработки, то инвестиции в автоматизацию исправления могут значительно сократить перебои в работе компании.

Улучшение структуры системы

В случае устранения технического долга и автоматического исправления недостатки системы являются наиболее частой причиной большинства простоев системы. Чтобы добиться наибольшего влияния на общие операции рабочей нагрузки, необходимо соблюдать несколько принципов проектирования:

Масштабируемость — это способность системы успешно функционировать при повышении нагрузки.
Доступность — это доля времени, на протяжении которого система работает надлежащим образом.
Устойчивость представляет собой возможность восстановления системы после сбоев и продолжения работы.
Управление — это рабочие процессы, обеспечивающие работу системы в производственной среде.
Безопасность — защита приложений и данных от угроз.

Microsoft Azure Well-Architected Framework предоставляет подход к оценке конкретных рабочих нагрузок на соответствие этим основным принципам, который позволяет улучшить общие операции. Применяйте эти основные принципы как для операций платформы, так и для операций рабочей нагрузки.

Дальнейшие действия

Обладая полным пониманием методологии управления в Cloud Adoption Framework, теперь вы можете реализовать принципы управления облаком. Узнайте, как применять эту методологию в вашей операционной среде.

Применить эту методологию