Руководство по управлению для сложных предприятий: улучшение дисциплины согласованности ресурсовGovernance guide for complex enterprises: Improve the Resource Consistency discipline

Эта статья посвящена добавлению элементов управления согласованности ресурсов в MVP по управлению для поддержки критически важных приложений.This article advances the narrative by adding resource consistency controls to the governance MVP to support mission-critical applications.

Будущие описанияAdvancing the narrative

Команды по внедрению облака выполнили все требования для перемещения защищаемых данных.The cloud adoption teams have met all requirements to move protected data. Так как эти приложения поставляют обязательства по соглашению об уровне обслуживания для бизнеса и нуждаются в поддержке ИТ-операций.With those applications come SLA commitments to the business and need for support from IT operations. Сразу после того, как группа переносит два центра обработки данных, несколько групп разработки приложений и бизнес-аналитики готовы приступить к запуску новых решений в рабочей среде.Right behind the team migrating the two datacenters, multiple application development and BI teams are ready to begin launching new solutions into production. ИТ-операции являются новыми для облачных операций и должны быстро интегрировать существующие операционные процессы.IT operations is new to cloud operations and needs to quickly integrate existing operational processes.

Изменения в текущем состоянииChanges in the current state

  • ИТ-отдел активно перемещает рабочие нагрузки с защищенными данными в Azure.IT is actively moving production workloads with protected data into Azure. Некоторые рабочие нагрузки с низким приоритетом обслуживают рабочий трафик.Some low-priority workloads are serving production traffic. Дополнительные возможности можно вырезать, как только она будет подключаться к готовности для поддержки рабочих нагрузок.More can be cut over as soon as IT operations signs off on readiness to support the workloads.
  • Команды по разработке приложений готовы к рабочему трафику.The application development teams are ready for production traffic.
  • Команда бизнес-аналитики готова интегрировать прогнозы и аналитику в системы, которые выполняют операции для трех бизнес-подразделений.The BI team is ready to integrate predictions and insights into the systems that run operations for the three business units.

Постепенно улучшайте будущее состояниеIncrementally improve the future state

  • ИТ-операции являются новыми для облачных операций и должны быстро интегрировать существующие операционные процессы.IT operations is new to cloud operations and needs to quickly integrate existing operational processes.
  • Изменения в текущем и будущем состояниях представляют новые риски, требующие новых положений политики.The changes to current and future state expose new risks that will require new policy statements.

Изменения в материальных рискахChanges in tangible risks

Прерывание бизнеса: Существует важный риск любой новой платформы, вызывающей прерывания критически важных бизнес-процессов.Business interruption: There is an inherent risk of any new platform causing interruptions to mission-critical business processes. Группа эксплуатации ИТ и команды, выполняемые в различных облачных операциях, относительно неопытны при работе с облаком.The IT operations team and the teams executing on various cloud adoptions are relatively inexperienced with cloud operations. Это повышает риск прерывания и должен быть исправлен и регулируется.This increases the risk of interruption and must be remediated and governed.

Бизнес-риск можно разделить на несколько технических рисков:This business risk can be expanded into several technical risks:

  1. Несогласованные рабочие процессы могут привести к простоям, которые не удается обнаружить или быстро устранить.Misaligned operational processes might lead to outages that can't be detected or mitigated quickly.
  2. В результате внешнего вторжения или атак типа "отказ в обслуживании" бизнес-процессы могут быть прерваны.External intrusion or denial of service attacks might cause a business interruption.
  3. Критически важные ресурсы могут быть обнаружены неправильно и, следовательно, могут работать ненадлежащим образом.Mission-critical assets might not be properly discovered and therefore not properly operated.
  4. Необнаруженные или неправильно помеченные ресурсы могут не поддерживаться имеющимися процессами операционного управления.Undiscovered or mislabeled assets might not be supported by existing operational management processes.
  5. Конфигурация развернутых ресурсов может не соответствовать ожидаемым показателям производительности.Configuration of deployed assets might not meet performance expectations.
  6. Журналы могут записываться ненадлежащим образом и сохраняться нецентрализовано, что не позволит устранять проблемы с производительностью.Logging might not be properly recorded and centralized to allow for remediation of performance issues.
  7. Политики восстановления могут завершиться ошибкой или выполняться дольше, чем ожидается.Recovery policies may fail or take longer than expected.
  8. Несогласованные процессы развертывания могут привести к возникновению брешей в системе безопасности с последующими утечками данных и прерываниями работы.Inconsistent deployment processes might result in security gaps that could lead to data leaks or interruptions.
  9. Изменения конфигурации и отсутствие требуемых обновлений могут привести к возникновению брешей в системе безопасности с последующими утечками данных и прерываниями работы.Configuration drift or missed patches might result in unintended security gaps that could lead to data leaks or interruptions.
  10. Конфигурация может не обеспечивать выполнение требований определенных Соглашений об уровне обслуживания или применения восстановления.Configuration might not enforce the requirements of defined SLAs or committed recovery requirements.
  11. Развернутые операционные системы или приложения могут не соответствовать требованиям ОС и требованиям по усилению безопасности приложения.Deployed operating systems or applications might not meet OS and application hardening requirements.
  12. Из-за того, что несколько команд работает в облаке, существует риск несогласованности.There is a risk of inconsistency due to multiple teams working in the cloud.

Добавочное улучшение операторов политикиIncremental improvement of the policy statements

Следующие изменения в политике помогут устранить новые риски и пошаговое внедрение.The following changes to policy will help remediate the new risks and guide implementation. Список выглядит длинным, но внедрять эти политики проще, чем кажется.The list looks long, but the adoption of these policies may be easier than it would appear.

  1. Все развернутые ресурсы необходимо классифицировать по важности и типу данных.All deployed assets must be categorized by criticality and data classification. Классификации должны быть проверены командой управления облаком и владельцем приложения перед развертыванием в облаке.Classifications are to be reviewed by the cloud governance team and the application owner before deployment to the cloud.
  2. Подсети, содержащие критически важные приложения, должны быть защищены с помощью решения брандмауэра, которое может обнаруживать вторжения и реагировать на атаки.Subnets containing mission-critical applications must be protected by a firewall solution capable of detecting intrusions and responding to attacks.
  3. Средства управления должны проводить аудит и применять требования к конфигурации сети, определяемые группой базовых показателей безопасности.Governance tooling must audit and enforce network configuration requirements defined by the security baseline team.
  4. Средства управления должны проверять, что все ресурсы, связанные с критически важными приложениями или защищенными данными, включены в мониторинг для оптимизации и наблюдения за истощением ресурсов.Governance tooling must validate that all assets related to mission-critical applications or protected data are included in monitoring for resource depletion and optimization.
  5. Средства управления должны проверять, что данные журнала соответствующего уровня собираются для всех критически важных приложений или защищенных данных.Governance tooling must validate that the appropriate level of logging data is being collected for all mission-critical applications or protected data.
  6. Процесс управления должен проверять правильную реализацию резервного копирования, восстановления и соблюдения Соглашения об уровне обслуживания для критически важных приложений и защищенных данных.Governance process must validate that backup, recovery, and SLA adherence are properly implemented for mission-critical applications and protected data.
  7. Средства управления должны ограничивать развертывание виртуальных машин, разрешая использование только утвержденных образов.Governance tooling must limit virtual machine deployment to approved images only.
  8. Средства управления должны обеспечивать, чтобы автоматическое обновление не мешало всем развернутым ресурсам, поддерживающим критически важные приложения.Governance tooling must enforce that automatic updates are prevented on all deployed assets that support mission-critical applications. Нарушения следует рассмотреть с привлечением команд операционного управления и устранить в соответствии с операционными политиками.Violations must be reviewed with operational management teams and remediated in accordance with operations policies. Активы, которые не обновляются автоматически, должны быть включены в процессы, принадлежащие ИТ, для быстрого и эффективного обновления этих серверов.Assets that are not automatically updated must be included in processes owned by IT operations to quickly and effectively update those servers.
  9. Средства управления должны проверять теги, относящиеся к классификации затрат, уровню важности, Соглашений об уровне обслуживания, приложений и данных.Governance tooling must validate tagging related to cost, criticality, SLA, application, and data classification. Все значения должны быть согласованы с предопределенными значениями, управляемыми группой управления Cloud.All values must align to predefined values managed by the cloud governance team.
  10. Процессы управления предполагают проведение аудита во время развертывания и дальнейших регулярных проверок для обеспечения согласованности всех ресурсов.Governance processes must include audits at the point of deployment and at regular cycles to ensure consistency across all assets.
  11. Тенденции и эксплойты, которые могут повлиять на облачные развертывания, должны регулярно проверяться группой безопасности, чтобы предоставлять обновления средств безопасности, используемых в облаке.Trends and exploits that could affect cloud deployments should be reviewed regularly by the security team to provide updates to Security Baseline tools used in the cloud.
  12. Перед выпуском в рабочей среде необходимо добавить все критически важные приложения и защищенные данные в назначенное решение для наблюдения за работоспособностью.Before release into production, all mission-critical applications and protected data must be added to the designated operational monitoring solution. Ресурсы, которые не могут быть обнаружены в выбранном средстве ИТ-операций, нельзя выпускать для использования в рабочей среде.Assets that cannot be discovered by the chosen IT operations tooling cannot be released for production use. Чтобы обеспечить возможность обнаружения ресурсов в будущих развертываниях, любые изменения, которые нужны для обеспечения такой возможности, должны быть внесены в соответствующие процессы развертывания.Any changes required to make the assets discoverable must be made to the relevant deployment processes to ensure assets will be discoverable in future deployments.
  13. При обнаружении размер ресурса проверяется командами рабочего управления, чтобы проверить соответствие ресурса требованиям к производительности.When discovered, asset sizing is to be validated by operational management teams to validate that the asset meets performance requirements.
  14. Чтобы обеспечить текущее управление развернутыми ресурсами, группа разработчиков Cloud должна утвердить средства развертывания.Deployment tooling must be approved by the cloud governance team to ensure ongoing governance of deployed assets.
  15. Сценарии развертывания должны храниться в центральном репозитории, доступном группе управления облаком для периодической проверки и аудита.Deployment scripts must be maintained in central repository accessible by the cloud governance team for periodic review and auditing.
  16. В рамках процессов проверки управления необходимо проверять, чтобы развернутые ресурсы были настроены в соответствии с Соглашением об уровне обслуживания и требованиями к восстановлению.Governance review processes must validate that deployed assets are properly configured in alignment with SLA and recovery requirements.

Добавочное улучшение рекомендацийIncremental improvement of best practices

В этом разделе статьи мы улучшаем структуру MVP по управлению, чтобы включить новые политики Azure и реализацию Azure Cost Management + Billing.This section of the article will improve the governance MVP design to include new Azure policies and an implementation of Azure Cost Management + Billing. Совокупно эти изменения проекта позволят внедрить новые правила корпоративной политики.Together, these two design changes will fulfill the new corporate policy statements.

Следуя опыту этого вымышленного примера, предполагается, что изменения защищенных данных уже выполнены.Following the experience of this fictional example, it's assumed that the protected data changes have already occurred. Исходя из этой рекомендации, ниже будут добавлены требования к мониторингу операций, подготавливающие подписку для критически важных приложений.Building on that best practice, the following will add operational monitoring requirements, readying a subscription for mission-critical applications.

Корпоративная подписка на ИТ: Добавьте следующий фрагмент в корпоративную ИТ-подписку, которая выступает в качестве центра.Corporate IT subscription: Add the following to the corporate IT subscription, which acts as a hub.

  1. В качестве внешней зависимости группа облачных операций должна определять средства наблюдения, средства обеспечения непрерывности бизнес-процессов и аварийного восстановления (BCDR), а также средства автоматического исправления.As an external dependency, the cloud operations team will need to define operational monitoring tooling, business continuity and disaster recovery (BCDR) tooling, and automated remediation tooling. Группа управления облаком может затем поддерживать необходимые процессы обнаружения.The cloud governance team can then support necessary discovery processes.
    1. В этом случае Группа облачных операций выбрала Azure Monitor в качестве основного средства для мониторинга критически важных приложений.In this use case, the cloud operations team chose Azure Monitor as the primary tool for monitoring mission-critical applications.
    2. Команда также выбрала Azure Site Recovery в качестве основного средства BCDR.The team also chose Azure Site Recovery as the primary BCDR tooling.
  2. Реализация Azure Site Recovery.Azure Site Recovery implementation.
    1. Определение и развертывание хранилища Azure Site Recovery для процессов резервного копирования и восстановления.Define and deploy Azure Site Recovery vault for backup and recovery processes.
    2. Создайте шаблон управления ресурсами Azure для создания хранилища в каждой подписке.Create an Azure resource management template for creation of a vault in each subscription.
  3. Реализация Azure Monitor.Azure Monitor implementation.
    1. После определения критической подписки можно создать рабочую область Log Analytics.Once a mission-critical subscription is identified, a Log Analytics workspace can be created.

Отдельная подписка на внедрение в облако: Далее гарантируется, что каждая подписка будет обнаружена решением для мониторинга и готова к включению в BCDRные методики.Individual cloud adoption subscription: The following will ensure that each subscription is discoverable by the monitoring solution and ready to be included in BCDR practices.

  1. Политика Azure для критически важных узлов:Azure Policy for mission-critical nodes:
    1. Выполняйте аудит и применяйте только стандартные роли.Audit and enforce use of standard roles only.
    2. Выполняйте аудит и обеспечьте шифрование всех учетных записей хранения.Audit and enforce application of encryption for all storage accounts.
    3. Аудит и принудительное использование утвержденной сетевой подсети и виртуальной сети для каждого сетевого интерфейса.Audit and enforce use of approved network subnet and virtual network per network interface.
    4. Выполните аудит и примените ограничения определяемых пользователем таблиц маршрутизации.Audit and enforce the limitation of user-defined routing tables.
    5. Выполняйте аудит и обеспечивайте развертывание агентов Log Analytics для виртуальных машин Windows и Linux.Audit and enforce the deployment of Log Analytics agents for Windows and Linux virtual machines.
  2. Проекты Azure:Azure Blueprints:
    1. Создайте схему Azure с именем mission-critical-workloads-and-protected-data.Create a blueprint named mission-critical-workloads-and-protected-data. Эта схема будет применять ресурсы в дополнение к схеме защищенных данных.This blueprint will apply assets in addition to the protected data blueprint.
    2. Добавьте в схему новые политики Azure.Add the new Azure policies to the blueprint.
    3. Применяйте схему к любой подписке, которая должна размещать критически важное приложение.Apply the blueprint to any subscription that is expected to host a mission-critical application.

ЗаключениеConclusion

Добавление этих процессов и изменений в MVP для управления помогает устранить многие риски, связанные с системой управления ресурсами.Adding these processes and changes to the governance MVP helps remediate many of the risks associated with resource governance. Вместе они добавляют элементы управления восстановлением, масштабированием и мониторингом, необходимые для расширения возможностей операций с использованием облака.Together, they add the recovery, sizing, and monitoring controls necessary to empower cloud-aware operations.

Дальнейшие действияNext steps

Так как внедрение облака растет и доставляет дополнительную ценность для бизнеса, также изменяются риски и требования к управлению облаком.As cloud adoption grows and delivers additional business value, the risks and cloud governance needs will also change. Для вымышленной компании в этом пошаговом окне следующий триггер — когда масштаб развертывания превышает 1 000 ресурсов в облако или ежемесячные затраты превышают $10 000 долларов США в месяц.For the fictional company in this guide, the next trigger is when the scale of deployment exceeds 1,000 assets to the cloud or monthly spending exceeds $10,000 USD per month. На этом этапе группа управления облаком добавляет элементы управления затратами.At this point, the cloud governance team adds cost management controls.