Высокая доступность и аварийное восстановлениеHigh Availability and Disaster Recovery

Важно!

Поддержка этой версии Operations Manager прекращена. Рекомендуем перейти на Operations Manager 2019.This version of Operations Manager has reached the end of support, we recommend you to upgrade to Operations Manager 2019.

Серверы и компоненты System Center Operations Manager могут дать сбой, что повлияет на функциональность Operations Manager.System Center – Operations Manager servers and features can potentially fail, impacting Operations Manager functionality. Объем данных и функциональные возможности, утраченные при сбое, различаются в каждом случае отказа.The amount of data and functionality lost during a failure is different in each failure scenario. Это зависит от роли функции, давшей сбой, и продолжительности восстановления такой функции.It depends on the role of the failing feature, the length of time it takes to recover the failing feature.

Высокий уровень доступностиHigh availability

Для обеспечения высокой доступности создается избыточность группы управления для рабочих баз данных и баз данных хранилища данных Operations Manager, шлюза и серверов управления, а также конкретных рабочих нагрузок.High-availability needs are addressed by building redundancy into the management group for the Operations Manager operational and data warehouse databases, the gateway and management servers, and specific workloads. Эти рабочие нагрузки включают мониторинг сетевых устройств, мониторинг на разных платформах и рабочие нагрузки, относящиеся к группе управления, которые ранее управлялись корневым сервером управления.These workloads include network device monitoring, cross-platform monitoring, and management group-specific workloads that were previously managed by the Root Management Server.

В многосерверной конфигурации группы управления можно использовать SQL Server Always On для обеспечения высокой доступности и непрерывности обслуживания баз данных Operations Manager.The multiple servers, single management group configuration can make use of SQL Server Always On for providing high availability and service continuity of the Operations Manager databases. Отказоустойчивость сервера управления обеспечивается наличием по меньшей мере двух серверов управления и использованием пулов ресурсов для мониторинга серверов UNIX, серверов Linux и сетевых устройств.Management server fault-tolerance is provided by having at least two management servers and by using the resource pools for monitoring UNIX servers, Linux servers, and network devices. Серверы Windows на базе агента можно настроить с основным и дополнительным сервером управления для перенаправления взаимодействий агента на случай сбоя сервера управления.Agent-based Windows servers can be configured with a primary and secondary management server to redirect agent communications should a management server fail.

Эмулятор корневого сервера управления можно также перенести на другой сервер управления, если сервер управления, на котором размещен эмулятор RMS, становится недоступным.The RMS Emulator can be moved to another management server as well should the management server hosting the RMS Emulator become unavailable.

С помощью настройки высокого уровня доступности служб доступа к данным можно обеспечить высокую доступность подключений консоли управления.Operations console connections can be made highly available by configuring high availability for the Data Access Services. Это можно сделать путем установки подсистемы балансировки сетевой нагрузки Microsoft (NLB) или использования аппаратных подсистем балансировки нагрузки либо псевдонимов DNS.This can be done by installing Microsoft Network Load Balancing (NLB) or using a hardware-based load balancers, or DNS alias. Один или несколько серверов управления добавляются в пул NLB в качестве участников, и при открытии любой консоли вы ссылаетесь на виртуальное имя серверов управления с балансировкой нагрузки, зарегистрированное в DNS.One or more management servers are added as members of the NLB pool and when opening either the console, you reference the virtual name registered in DNS, of the load-balanced management servers.

Примечание

Подсистема балансировки сетевой нагрузки не поддерживается для сервера веб-консоли Operations Manager.A Network Load Balancer is not supported for the Operations Manager web console server.

В границах доверия можно развернуть несколько серверов шлюзов для реализации избыточных путей для агентов в пределах границы доверия.Multiple gateway servers can be deployed across a trust boundary to provide redundant pathways for agents that lie across that trust boundary. Агенты могут выполнять отработку отказа между основным сервером управления и одним или несколькими серверами управления. Аналогично они могут выполнять отработку отказа между серверами шлюзов.Just as agents can fail over between a primary management server and one or more secondary management servers, they can also fail over between gateway servers. Кроме того, можно использовать несколько серверов шлюзов для распределения рабочей нагрузки управления компьютерами, управляемыми без агентов, и управляемыми сетевыми устройствами.In addition, multiple gateway servers can be used to distribute the workload of managing agentless-managed computers and managed network devices.

Кроме того, для обеспечения избыточности за счет отработки отказа агента или шлюза серверы шлюзов могут быть настроены для отработки отказа между серверами управления в группе управления, если доступно несколько серверов.In addition to providing redundancy through agent-gateway failover, gateway servers can be configured to fail over between management servers in a management group, if multiple management servers are available.

Несмотря на то, что службы отчетности SQL Server поддерживают модель масштабируемого развертывания, которая позволяет запускать несколько экземпляров сервера отчетов с общей базой данных сервера отчетов, эти службы не поддерживаются в Operations Manager.While SQL Server Reporting Services supports a scale-out deployment model that allows you to run multiple report server instances that share a single report server database, it is not supported with Operations Manager. Служба отчетности Operations Manager устанавливает настраиваемое расширение безопасности в составе установки клиентских компонентов, которые невозможно реплицировать в веб-ферме.Operations Manager Reporting installs a custom security extension as part of the setup of the front-end components, which cannot be replicated across the web farm.

Аварийное восстановлениеDisaster recovery

Аварийное восстановление — это меры, которые предпринимаются для того, чтобы иметь возможность продолжить работу в случае катастрофического сбоя (например, в случае полной потери ЦОД, где размещена основная инфраструктура).Disaster recovery relates to measures taken to ensure that operations can be resumed if a catastrophic failure (for example, loss of the entire data center that hosts the primary infrastructure). Это важный элемент, который необходимо учитывать в любом развертывании. Решения, которые принимаются при планировании аварийного восстановления, влияют на то, как Operations Manager сможет продолжить обеспечивать поддержку упреждающего мониторинга и отчетности по производительности и доступности критически важных ИТ-служб.It is an important element that must be considered in any deployment and the decisions that are made in planning for disaster recovery affect how Operations Manager will be able to continue supporting proactive monitoring and reporting of the performance and availability of your critical IT services. В этом разделе основное внимание уделяется рекомендованной стратегии аварийного восстановления, обеспечению устойчивости и мерам, способным обеспечить плавное восстановление.This section will focus on the recommended strategy of disaster recovery and resiliency and what steps should be taken to ensure a smooth recovery.

Несмотря на то, что решения высокой доступности и аварийного восстановления обеспечивают защиту от системных сбоев или потерь, на них не следует полагаться в вопросах защиты от случайной, непреднамеренной или злоумышленной потери или повреждения данных.While HA and DR solutions will provide protection from system failure or system loss, they should not be relied on for protection from accidental, unintended, or malicious data loss or corruption. В таких ситуациях для восстановления работы может потребоваться использовать резервные копии или копии отстающей репликации.In these cases, back up copied or lagged replication copies might have to be leveraged for restore operations. Во многих случаях операция восстановления является наиболее подходящей формой аварийного восстановления.In many cases, a restore operation is the most appropriate form of DR. Один из примеров — база данных отчетов с низким приоритетом или данные анализа.One example of this could be a low-priority reporting database or analysis data. Во многих случаях затраты на включение многосайтового аварийного восстановления на уровне систем или приложений намного превосходят ценность получаемых данных.In many cases, the cost to enable multisite DR at the system or application level far outweighs the value of the data. В случаях, когда ценность данных в краткосрочной перспективе низкая, а доступ к данным можно отложить без серьезных последствий сбоя для бизнеса, а аварийное восстановление сайта является избыточным, оцените целесообразность использования простого резервного копирования и процессов аварийного восстановления, если экономия затрат делает такой подход целесообразным.In cases in which the near-term value of the data is low and the need to access the data can be delayed without severe business impact if a failure or site DR excessive, consider using simple backup and restore processes for DR if the cost savings warrant it.

Понимание влияния и допустимого простоя поможет сформулировать решения, понимание которых необходимо, чтобы правильно спроектировать архитектуру Operations Manager, а также определить уровень сложности и затраты, связанные с поддержкой аварийного восстановления.Understanding the impact and tolerance for downtime will help drive the decisions that need to be understood in order to properly design the architecture for Operations Manager and the level of complexity and cost required to support disaster recovery. Кроме того, необходимо учитывать приемлемый для ИТ-организации объем потери данных мониторинга без последствий для бизнеса.Additionally, consider the extent of monitoring data loss the IT organization can tolerate without causing business consequences. Это лучше всего описывается двумя понятиями: целевое время восстановления (RTO) и целевая точка восстановления (RPO).This is best described in two terms: recovery time objective (RTO) and recovery point objective (RPO).

Ниже приведены две наиболее распространенные конфигурации аварийного восстановления для Operations Manager:The two most common disaster recovery design configurations for Operations Manager are:

  • Создание дублирующей группы управления, которая развертывается во вторичном ЦОД и своими масштабом и конфигурацией дублирует основную группу управления.Creating a duplicate management group deployed to your secondary data center that duplicates in scale and configuration, the primary management group.
  • Развертывание дополнительных серверов во вторичном ЦОД, чтобы обеспечить поддержку рабочей базы данных и базы данных хранилища данных; при этом серверы управления устанавливаются в конфигурации холодного резерва и не участвуют в группе управления до тех пор, пока не потребуется выполнить действия восстановления.Deploying additional servers in a secondary data center to support the Operational and Data Warehouse database, with management servers deployed in a cold-standby configuration, not participating in the management group until recovery actions need to be performed.

Развертывание дублирующей группы управления — подходящий вариант, если простои абсолютно неприемлемы; тем не менее, это самый сложный сценарий.Deploying a duplicate management group is an option when there is no tolerance for downtime; however, it is the most complex option. Конфигурация обоих объектов должна быть согласованной, чтобы не было различий между объектами, которые отслеживаются, упоминаются в предупреждениях, отчетах или презентациях и участвуют в эскалации.Configuration between both needs to be consistent so that when you cut over, there is no difference in what is monitored, alerted or reported, presented, and finally escalated. Интеграция с другими платформами мониторинга или платформами ITSM, такими как System Center Service Manager, Remedy или ServiceNow, также необходима; возможно, ее необходимо будет настроить в активном или пассивном состоянии, чтобы избежать дублирования инцидентов, элементов конфигурации и т. д. Агенты будут размещаться в обеих группах управления, следовательно, данные будут дублироваться.Integration with other monitoring platforms or ITSM platforms such as System Center - Service Manager, Remedy or ServiceNow will need to exist as well, and possibly configured in an active/passive state to avoid duplication of incidents, configuration items, etc. Agents will be multihomed between both management groups, so there will be duplication of data.

На следующей схеме приводится пример этого сценария разработки.The following diagram is an example of this design scenario.

Дублирующиеся группы управления

Если немедленное восстановление не является обязательным для вашего развертывания Operations Manager и желательно избежать сложностей, связанных с дублирующей группой управления, можно развернуть дополнительные компоненты группы управления во вторичном ЦОД, чтобы сохранить функциональность вашей группы управления.If immediate recovery is not necessary for your Operations Manager deployment and you want to avoid the complexity of a duplicate management group, alternatively you can deploy additional management group components in your secondary data center in order to retain functionality of your management group. Как минимум, рассмотрите возможность реализации группы доступности SQL Server 2014 или 2016 AlwaysOn, чтобы обеспечить восстановление рабочей базы данных и базы данных хранилища данных в двух и более ЦОД, где экземпляр отказоустойчивого кластера с двумя узлами развернут в основном ЦОД, а автономный SQL Server — во вторичном ЦОД в составе отказоустойчивого кластера Windows Server (WSFC).At a minimum, consider implementing a SQL Server 2014 or 2016 Always On Availability Group to provide recovery of the Operational and Data Warehouse databases between two or more datacenters, where a two-node failover cluster instance (FCI) is deployed in the primary data center, and a standalone SQL Server in the secondary datacenter as part of a single Windows Server Failover Cluster (WSFC). Вторичная реплика группы доступности AlwaysOn будет размещена в отдельном экземпляре, отличном от FCI, как показано на следующей схеме.The secondary replica for the Always On Availability Group would be on the non-FCI standalone instance as shown in the following diagram.

Простая настройка аварийного восстановления

В этом примере потребовалось бы развернуть один или несколько экземпляров Windows Server с той же аппаратной конфигурацией и именем компьютера и переустановить роль сервера управления с помощью параметра /Recover.In this example, you would be required to deploy one or more Windows Servers with the same hardware configuration and computer name, and reinstall the management server role using the /Recover parameter. В это время агенты будут помещать собранные данные в очередь (оповещения, сведения о событиях и производительности и т. д.) до тех пор, пока связь с сервером управления в группе управления не будет восстановлена.During this time, agents will queue the data collected (alerts, events, performance, etc.) until they can resume communication with a management server in the management group. Такой подход позволяет избежать установки новых экземпляров SQL Server и восстановления баз данных из последней проверенной рабочей резервной копии.This approach avoids installing new instances of SQL Server and restoring databases from your last known good backup. Однако в этом сценарии восстановления вероятна более длительная задержка в возвращении до рабочего состояния, учитывая, что потребуется развернуть другие роли, необходимые для возобновления минимальных функций мониторинга.However, in this recovery scenario there is likely going to be a longer delay in returning to an operable state given you will need to deploy the other roles necessary to resume minimum monitoring functionality. Если такой подход неприемлем, можно развернуть серверы управления во вторичном центре обработки данных для восстановления в режиме ожидания.If this approach isn't acceptable, you can deploy management servers in your secondary data center for on-standby recovery. Удалите их в качестве участников трех основных пулов ресурсов: пулов ресурсов всех серверов управления, уведомления и назначения AD.Remove them as members of the three primary resources pools - All Management Servers Resource Pool, Notifications, and AD Assignment. Сюда же относится любой пользовательский пул ресурсов, который может включать серверы управления, размещенные в основном ЦОД, которые должны продолжать функционировать в рамках плана восстановления.This also includes any custom resource pool, which may include management servers hosted in the primary data center and need to continue to function as part of the recovery plan. Службы доступа к данным System Center, управления конфигурацией System Center и Microsoft Monitoring Agent должны быть остановлены и настроены для запуска вручную или отключены и запущены только в сценарии аварийного восстановления.The System Center Data Access, System Center Configuration Management, and Microsoft Monitoring Agent services should be stopped and set to manual or disable and only started in a disaster recovery scenario.
Если сервер управления поддерживает интеграцию (через соединитель, размещенный непосредственно на сервере управления или в другом продукте System Center, таком как VMM, Orchestrator и Service Manager), необходимо учитывать это при планировании выполняемых вручную или автоматических процедур по восстановлению в зависимости от конфигурации интеграции и последовательности шагов восстановления.If a management server is supporting integration (via a connector hosted directly on the management server or from another System Center product such as VMM, Orchestrator or Service Manager), this will need to be planned for with manual or automatic recovery steps depending on the integration configuration and sequence of recovery steps. Это гарантирует, что любая зависимость на сервере управления будет зафиксирована и учтена в плане, когда потребуется реализовать план аварийного восстановления.This ensures any other dependency on the management server is captured and planned for when the disaster recovery plan needs to be implemented.

Сложная конфигурация аварийного восстановленияComplex DR Config

Если один из сайтов отключается от сети, агент выполнит аварийное переключение на сервер управления на другом сайте, предполагая, что конфигурация аварийного переключения агента допускает это.If one site goes offline, the agent will fail over to the management server in another site, assuming that the agent’s failover configuration allows this. Измените конфигурацию агентов Windows так, чтобы кэшировать только серверы управления в основном ЦОД, которые должны управлять этими агентами и не допускать аварийного переключения на сервер управления в дополнительном ЦОД, что лишь отсрочит восстановление и отчетность.Reconfigure the Windows agents to cache only management servers in your primary data center that should manage them to prevent them from attempting to failover to a management server in the secondary data center, which would only delay recovery and reporting. Это можно сделать, если вручную развернуть агент автоматическим способом с помощью сценария (например, VBScript или PowerShell, что еще лучше) для предварительной настройки во время установки или после развертывания, если агент принудительно устанавливается из консоли. В этом случае также необходимо использовать метод сценариев, управляемых с помощью корпоративного решения управления конфигурацией.This can be accomplished if you manually deploy the agent in an automated manner with a script (for example, VBScript or better yet, PowerShell) to pre-configure during installation, or post deployment if you push the agent from the console, again using a scripted method managed with your enterprise configuration management solution.

В качестве альтернативного метода аварийного развертывания в целях обеспечения непрерывности группы управления можно развернуть Operations Manager на виртуальных машинах Azure.Operations Manager can be deployed on Azure virtual machines as an alternative disaster recovery option to maintain continuity of the management group. Потребуется также развернуть SQL Server на виртуальной машине в Azure, а не гибридной конфигурации, поскольку задержка между сервером управления и SQL Server, на котором размещены базы данных Operations Manager, отрицательно повлияет на производительность группы управления.It will be necessary to also deploy SQL Server on a virtual machine in Azure and not in a hybrid configuration, as the latency between a management server and the SQL Server hosting the Operations Manager databases will negatively impact performance of the management group.
Следует учитывать область наблюдения, топологию сети и возможности сетевого подключения к Microsoft Azure (то есть сеть VPN между сайтами или ExpressRoute), точки интеграции (то есть решения ITSM, другие продукты System Center, сторонние надстройки и т. д.), доступ к консоли, нормативные требования, применимое законодательство и политики и т. д., чтобы правильно спроектировать этот сценарий в системе Azure IaaS или у других поставщиков общедоступных облаков.Consider the monitoring scope, network topology, and network connectivity to Microsoft Azure (that is, site-to-site VPN or ExpressRoute), integration points (that is, ITSM solutions, other System Center products, third-part add-ons, etc.), console access, regulatory or relevant laws or policies, etc. in order to properly architect this scenario within Azure IaaS or other public cloud providers.