Операции рабочей нагрузки в управлении облакомWorkload operations in cloud management

Некоторые рабочие нагрузки важны для успеха бизнеса.Some workloads are critical to the success of the business. Для этих рабочих нагрузок недостаточный базовый уровень управления для удовлетворения требуемых бизнес-обязательств по управлению облаком.For those workloads, a management baseline is insufficient to meet the required business commitments to cloud management. Операции с платформой могут быть недостаточно даже для удовлетворения бизнес-обязательств.Platform operations might not even be sufficient to meet business commitments. Это очень важное подмножество рабочих нагрузок требует специализированного фокусирования для функций рабочей нагрузки и их поддержки.This highly important subset of workloads requires a specialized focus on the way the workload functions and how it's supported.

В результате инвестиции в операции рабочей нагрузки могут привести к повышению производительности, снижению рисков при работе в бизнесе и более быстрому восстановлению при возникновении системных сбоев.In return, the investment in workload operations can lead to improved performance, decreased risk of business interruption, and faster recovery when system failures occur. В этой статье рассматривается подход к инвестиции в продолжающиеся операции этих рабочих нагрузок с высоким приоритетом для повышения эффективности бизнес-обязательств.This article discusses an approach to investing in the continued operations of these high priority workloads to drive improved business commitments.

Когда следует вкладывать в операции рабочей нагрузкиWhen to invest in workload operations

Принцип Парето (также называемый правилом 80/20) указывает на то, что в 80 процентных последствиях приходится на 20 процентов причин.The Pareto principle (also known as the 80/20 rule) states that 80 percent of effects come from 20 percent of the causes. Когда ИТ-портфельам разрешено расти со временем, это правило часто проиллюстрировано в обзоре ИТ-портфеля.When IT portfolios are allowed to grow organically over time, this rule is often illustrated in a review of the IT portfolio. В зависимости от того, какой результат требует инвестиций, причина может варьироваться, но общий принцип имеет значение true:Depending on the effect that requires investment, the cause can vary but the general principle holds true:

  • 80% сбоев системы, как правило, является результатом 20 процентов распространенных ошибок или ошибок.80 percent of system failures tend to be the result of 20 percent of the common errors or bugs.
  • 80% ценности бизнеса обычно приходится на 20 процентов рабочих нагрузок в портфеле.80 percent of business value tends to come from 20 percent of the workloads in a portfolio.
  • 80 процентов усилий, которые необходимо перенести в облако, состоит из 20 процентов перемещаемых рабочих нагрузок.80 percent of the effort to migrate to the cloud comes from 20 percent of the workloads being moved.
  • 80 процентов усилий по управлению облаком будет поддерживать 20% инцидентов обслуживания или билетов проблем.80 percent of cloud management efforts will support 20 percent of the service incidents or trouble tickets.
  • 80% воздействия на бизнес из строя может поступать от 20 процентов систем, на которые повлиял сбой.80 percent of business impact from an outage will come from 20 percent of the systems affected by the outage.

Операции рабочей нагрузки следует применять только в том случае, если стратегии внедрения облака, результаты бизнеса и операционные метрики хорошо понятны.Workload operations should be applied only when the cloud adoption strategy, business outcomes, and operational metrics are each well understood. Это сдвиг парадигмы из классического представления.This is a paradigm shift from the classic view of IT. Обычно предполагается, что все рабочие нагрузки имеют одинаковый уровень поддержки и требовали аналогичных уровней приоритета.Traditionally, IT assumed that all workloads experienced the same degree of support and required similar levels of priority.

Прежде чем они будут вкладываться в операции глубокой рабочей нагрузки, ИТ-отдел и бизнес должны понимать бизнес-обоснования и ожидания повышенных инвестиций в управление облаком.Before they invest in deep workload operations, both IT and the business should understand the business justifications and the expectations of increased investment in cloud management.

Начало работы с даннымиStart with the data

Операции рабочей нагрузки начинаются с глубокого понимания требований к производительности и поддержке рабочей нагрузки.Workload operations begin with a deep understanding of workload performance and support requirements. Прежде чем команда вкладывается в операции рабочей нагрузки, она должна иметь обширные данные о зависимостях рабочей нагрузки, производительности приложений, диагностике базы данных, телеметрии виртуальной машины и журнале инцидентов.Before the team invests in workload operations, it must have rich data about workload dependencies, application performance, database diagnostics, virtual machine telemetry, and incident history.

Эти данные заменяют аналитические сведения, которые обработаны решениями по операциям рабочей нагрузки.This data seeds the insights that drive workload operations decisions.

Продолжение наблюденияContinued observation

Начальные и текущие данные телеметрии позволяют формулировать и тестировать теории о производительности рабочей нагрузки.Initial data and ongoing telemetry can help formulate and test theories about the performance of a workload. Но текущие операции рабочей нагрузки основаны на постоянном и развернутом наблюдении за производительностью рабочей нагрузки с большим количеством внимания на производительности приложений и данных.But ongoing workload operations are rooted in a continued and expanded observation of workload performance, with a heavy focus on application and data performance.

Тестирование автоматизацииTest the automation

На уровне приложения первые требования к операциям рабочей нагрузки — это инвестиции в глубокое тестирование.At the application level, the first requirements of workload operations, is an investment in deep testing. Для любого приложения, поддерживаемого с помощью операций рабочей нагрузки, необходимо установить план тестирования и регулярно выполнить его, чтобы обеспечить функциональное и масштабируемое тестирование в приложениях.For any application that's supported through workload operations, a test plan should be established and regularly executed to deliver functional and scale testing across the applications.

Регулярная телеметрии теста может обеспечить немедленную проверку различных значений, отданных от выполнения рабочей нагрузки.Regular test telemetry can provide immediate validation of various hypotheses about the operation of the workload. Повышение эффективности работы и архитектурных шаблонов может выполняться и тестироваться.Improving operational and architectural patterns can be executed and tested. Итоговые дельты обеспечивают четкий анализ влияния, позволяющий продолжить инвестиции.The resulting deltas provide a clear impact analysis to guide continued investments.

Общие сведения о выпускахUnderstand releases

Четкое понимание циклов выпуска и конвейеров выпуска — важный элемент операций рабочей нагрузки.A clear understanding of release cycles and release pipelines is an important element of workload operations.

Понимание циклов может подготовиться к потенциальным перерывам и позволить команде заранее решать все выпуски, которые могут привести к неблагоприятным последствиям операций.An understanding of cycles can prepare for potential interruptions and allow the team to proactively address any releases that might produce an adverse effect on operations. Это понимание также позволяет группе управления облачным специалистам сотрудничать с группами внедрения, чтобы постоянно улучшать качество продукта и устранять все ошибки, которые могут повлиять на стабильность.This understanding also allows the cloud management team to partner with adoption teams to continuously improve the quality of the product and address any bugs that might affect stability.

Что более важно, понимание конвейеров выпуска может значительно улучшить целевую точку восстановления (RPO) рабочей нагрузки.More importantly, an understanding of release pipelines can significantly improve the recovery point objective (RPO) of a workload. Во многих сценариях самый быстрый и точный путь к восстановлению приложения — это конвейер выпуска.In many scenarios, the fastest and most accurate path to the recovery of an application is a release pipeline. Для слоев приложений, которые изменяются только при возникновении нового выпуска, может быть разумно вкладывать более интенсивно в оптимизацию конвейера, чем при восстановлении приложения из традиционных процессов резервного копирования.For application layers that change only when a new release happens, it might be wise to invest more heavily in pipeline optimization than on the recovery of the application from traditional back-up processes.

Хотя конвейер развертывания может быть самым быстрым путем к восстановлению, он также может быть самым быстрым путем к исправлению.Although a deployment pipeline can be the fastest path to recovery, it can also be the fastest path to remediation. Если у приложения есть быстрый, эффективный и надежный конвейер выпуска, Группа управления облачными приложениями может автоматизировать развертывание на новом узле как форму автоматического исправления.When an application has a fast, efficient, and reliable release pipeline, the cloud management team has an option to automate deployment to a new host as a form of automated remediation.

Существует множество других более быстрых и эффективных механизмов исправления и восстановления.There might be many other faster, more effective mechanisms for remediation and recovery. Однако, если использование существующего конвейера может удовлетворить бизнес-обязательствами и заменять существующие инвестиции в DevOps, существующий конвейер может быть приемлемым вариантом.However, when the use of an existing pipeline can meet business commitments and capitalize on existing DevOps investments, the existing pipeline might be a viable alternative.

Четкое взаимодействие изменений рабочей нагрузкиClearly communicate changes to the workload

Переход на любую рабочую нагрузку — это один из крупнейших рисков к операциям рабочей нагрузки.Change to any workload is among the biggest risks to workload operations. Для любой рабочей нагрузки, выполняемой на уровне операций рабочей нагрузки в управлении облаком, Группа управления облачными специалистами должна точно соответствовать группам внедрения в облаке, чтобы понять, какие изменения поступают из каждого выпуска.For any workload in the workload operations level of cloud management, the cloud management team should closely align with the cloud adoption teams to understand the changes coming from each release. Эти инвестиции в профилактическое понимание будут иметь прямое и положительное воздействие на операционную стабильность.This investment in proactive understanding will have a direct, positive impact on operational stability.

Улучшение результатовImprove outcomes

Инвестиции в данные и коммуникации в рабочей нагрузке будут получать предложения по улучшению текущих операций в одной из трех областей:The data and communication investments in a workload will yield suggestions for improvements to ongoing operations in one of three areas:

  • Разрешение технической задолженностиTechnical debt resolution
  • Автоматическое исправлениеAutomated remediation
  • Улучшенная структура системыImproved system design

Разрешение технической задолженностиTechnical debt resolution

Оптимальные планы операций рабочей нагрузки по-прежнему нуждаются в исправлении.The best workload operations plans still require remediation. По мере того как группа управления облачными специалистами пытается оставаться в курсе проблем внедрения и выпусков, Группа также должна регулярно предоставлять требования к исправлению, чтобы гарантировать, что технические обязательства и ошибки являются приоритетом для групп разработчиков.As your cloud management team seeks to stay connected to understand adoption efforts and releases, the team likewise should regularly share remediation requirements to ensure that technical debt and bugs are a continued priority for your development teams.

Автоматическое исправлениеAutomated remediation

Применяя принцип Парето, мы можем сказать, что 80 процента от отрицательного воздействия на бизнес, скорее всего, будет от 20% инцидентов обслуживания.By applying the Pareto principle, we can say that 80 percent of negative business impact likely comes from 20 percent of the service incidents. Если эти инциденты не могут быть решены в нормальных циклах разработки, инвестиции в автоматизацию исправления могут значительно снизить объемы бизнеса.When those incidents can't be addressed in normal development cycles, investments in remediation automation can significantly reduce business interruptions.

Улучшенная структура системыImproved system design

В случае разрешения технической задолженности и автоматического исправления системные недостатки являются распространенной причиной большинства простоев системы.In the cases of technical debt resolution and automated remediation, system flaws are the common cause of most system outages. Вы можете добиться наибольшего влияния на общие операции рабочей нагрузки, придерживаясь нескольких принципов проектирования:You can have the greatest impact on overall workload operations by adhering to a few design principles:

  • Масштабируемость: Способность системы справляться с повышенной нагрузкой.Scalability: The ability of a system to handle increased load.
  • Доступность: Процент времени, в течение которого система работает и работает.Availability: The percentage of time that a system is functional and working.
  • Устойчивость: Способность системы восстанавливаться после сбоев и продолжать работать.Resiliency: The ability of a system to recover from failures and continue to function.
  • Управление: Операционные процессы, которые сохраняют систему в рабочей среде.Management: Operations processes that keep a system running in production.
  • Безопасность: Защита приложений и данных от угроз.Security: Protecting applications and data from threats.

Чтобы улучшить общие операции, инфраструктура Microsoft Azure Well-Architected предоставляет подход к оценке конкретных рабочих нагрузок для обеспечения соответствия этим основам.To help improve overall operations, the Microsoft Azure Well-Architected Framework provides an approach to evaluating specific workloads for adherence to these pillars. Применяйте эти основы как к операциям платформы, так и к операциям рабочей нагрузки.Apply the pillars to both platform operations and workload operations.

Дальнейшие действияNext steps

Благодаря полному пониманию методологии управления в облачной инфраструктуре внедрения, теперь вы можете реализовать принципы управления облаком.With a full understanding of the Manage methodology within the Cloud Adoption Framework, you are now armed to implement cloud management principles. Узнайте, как сделать эту методологию действием в среде операций.Learn how to make this methodology actionable within your operations environment.