Alta disponibilidade e recuperação de desastreHigh Availability and Disaster Recovery

Importante

Esta versão do Operations Manager atingiu o fim do suporte, recomendamos que você faça upgrade para o Operations Manager 2019.This version of Operations Manager has reached the end of support, we recommend you to upgrade to Operations Manager 2019.

Servidores e recursos do System Center – Operations Manager podem falhar, afetando a funcionalidade do Operations Manager.System Center – Operations Manager servers and features can potentially fail, impacting Operations Manager functionality. A quantidade de dados e a funcionalidade perdidas durante uma falha são diferentes em cada cenário de falha.The amount of data and functionality lost during a failure is different in each failure scenario. Isso depende da função do recurso com falha e do tempo gasto para recuperar esse recurso.It depends on the role of the failing feature, the length of time it takes to recover the failing feature.

Alta disponibilidadeHigh availability

Demandas de alta disponibilidade são atendidas incorporando redundância ao grupo de gerenciamento dos bancos de dados operacional e de data warehouse do Operations Manager, nos servidores de gerenciamento e gateway e em cargas de trabalho específicas.High-availability needs are addressed by building redundancy into the management group for the Operations Manager operational and data warehouse databases, the gateway and management servers, and specific workloads. Essas cargas de trabalho incluem monitoramento de dispositivos de rede, monitoramento de multiplataforma e cargas de trabalho específicas do grupo de gerenciamento que anteriormente eram gerenciadas pelo Servidor de Gerenciamento Raiz.These workloads include network device monitoring, cross-platform monitoring, and management group-specific workloads that were previously managed by the Root Management Server.

A configuração com vários servidores e um único grupo de gerenciamento pode usar o Always On do SQL Server para fornecer alta disponibilidade e continuidade do serviço dos bancos de dados do Operations Manager.The multiple servers, single management group configuration can make use of SQL Server Always On for providing high availability and service continuity of the Operations Manager databases. A tolerância a falhas do servidor de gerenciamento é fornecida com pelo menos dois servidores de gerenciamento e usando pools de recursos para monitorar servidores UNIX, servidores Linux e dispositivos de rede.Management server fault-tolerance is provided by having at least two management servers and by using the resource pools for monitoring UNIX servers, Linux servers, and network devices. Servidores do Windows baseados em agente podem ser configurados com um servidor de gerenciamento primário e secundário para redirecionar as comunicações do agente em caso de falha de um servidor de gerenciamento.Agent-based Windows servers can be configured with a primary and secondary management server to redirect agent communications should a management server fail.

O Emulador RMS também pode ser movido para outro servidor de gerenciamento caso o servidor de gerenciamento que hospeda o Emulador RMS fique indisponível.The RMS Emulator can be moved to another management server as well should the management server hosting the RMS Emulator become unavailable.

As conexões do Console de Operações podem se tornar altamente disponíveis por meio da configuração da alta disponibilidade dos Serviços de Acesso a Dados.Operations console connections can be made highly available by configuring high availability for the Data Access Services. Isso pode ser feito instalando o NLB (Balanceamento de Carga de Rede) da Microsoft ou usando balanceadores de carga baseados em hardware ou alias de DNS.This can be done by installing Microsoft Network Load Balancing (NLB) or using a hardware-based load balancers, or DNS alias. Um ou mais servidores de gerenciamento são adicionados como membros do pool do NLB e, ao abrir o console, você referenciará o nome virtual registrado no DNS dos servidores de gerenciamento com balanceamento de carga.One or more management servers are added as members of the NLB pool and when opening either the console, you reference the virtual name registered in DNS, of the load-balanced management servers.

Observação

Não há suporte para um balanceador de carga de rede para o servidor do console Web do Operations Manager.A Network Load Balancer is not supported for the Operations Manager web console server.

É possível implantar vários servidores de gateway em um limite de relação de confiança para fornecer caminhos para agentes que residam dentro do limite da relação de confiança.Multiple gateway servers can be deployed across a trust boundary to provide redundant pathways for agents that lie across that trust boundary. Assim como pode ocorrer o failover de agentes entre um servidor de gerenciamento primário e um ou mais servidores de gerenciamento secundários, o failover deles também pode ocorrer entre servidores de gateway.Just as agents can fail over between a primary management server and one or more secondary management servers, they can also fail over between gateway servers. Além disso, vários servidores de gateway podem ser usados para distribuir a carga de trabalho de gerenciar computadores gerenciados sem agentes e dispositivos de rede gerenciados.In addition, multiple gateway servers can be used to distribute the workload of managing agentless-managed computers and managed network devices.

Além de fornecer redundância por meio do failover de gateway de agente, os servidores de gateway poderão ser configurados para failover entre servidores de gerenciamento em um grupo de gerenciamento se houver vários servidores de gerenciamento disponíveis.In addition to providing redundancy through agent-gateway failover, gateway servers can be configured to fail over between management servers in a management group, if multiple management servers are available.

Embora o SQL Server Reporting Services dê suporte a um modelo de implantação escalável que permite executar várias instâncias do servidor de relatório que compartilham um único banco de dados do servidor de relatório, ele não é compatível com o Operations Manager.While SQL Server Reporting Services supports a scale-out deployment model that allows you to run multiple report server instances that share a single report server database, it is not supported with Operations Manager. O Operations Manager Reporting Services instala uma extensão de segurança personalizada como parte da instalação dos componentes front-end, que não podem ser replicados pelo web farm.Operations Manager Reporting installs a custom security extension as part of the setup of the front-end components, which cannot be replicated across the web farm.

Recuperação de desastresDisaster recovery

A recuperação de desastres está relacionada a medidas que são adotadas para garantir que as operações sejam retomadas no caso de uma falha catastrófica (por exemplo, a perda de todo o data center que hospeda a infraestrutura principal).Disaster recovery relates to measures taken to ensure that operations can be resumed if a catastrophic failure (for example, loss of the entire data center that hosts the primary infrastructure). Trata-se de um importante elemento que deve ser levado em consideração em qualquer implantação e as decisões que são feitas durante o planejamento de recuperação de desastre afetam a forma como o Operations Manager poderá continuar dando suporte ao monitoramento e à emissão de relatórios de desempenho e disponibilidade, de forma proativa, de seus serviços essenciais de TI.It is an important element that must be considered in any deployment and the decisions that are made in planning for disaster recovery affect how Operations Manager will be able to continue supporting proactive monitoring and reporting of the performance and availability of your critical IT services. Esta seção se concentrará na estratégia recomendada para recuperação de desastre e resiliência e em quais etapas devem ser adotadas para garantir que a recuperação seja simples.This section will focus on the recommended strategy of disaster recovery and resiliency and what steps should be taken to ensure a smooth recovery.

Enquanto fornecem proteção contra falhas de sistema ou perda de sistema, as soluções de alta disponibilidade e recuperação de desastre não devem ser utilizadas para proteção contra corrupção ou perda de dados acidental, mal-intencionada ou não intencional.While HA and DR solutions will provide protection from system failure or system loss, they should not be relied on for protection from accidental, unintended, or malicious data loss or corruption. Nesses casos, pode ser necessário utilizar cópias de backup ou cópias de replicação com retardo para operações de restauração.In these cases, back up copied or lagged replication copies might have to be leveraged for restore operations. Em muitos casos, uma operação de restauração é a forma de recuperação de desastre mais apropriada.In many cases, a restore operation is the most appropriate form of DR. Um exemplo disso pode ser um banco de dados de relatórios de baixa prioridade ou dados de análise.One example of this could be a low-priority reporting database or analysis data. Em muitos casos, o custo para habilitar a recuperação de desastres multissite no nível do sistema ou do aplicativo supera muito o valor dos dados.In many cases, the cost to enable multisite DR at the system or application level far outweighs the value of the data. Nos casos em que o valor de curto prazo dos dados é baixo e a necessidade de acessar os dados pode ser adiada sem impactos graves sobre os negócios quando há excesso de falhas ou de recuperação de desastre no site, considere o uso de processos simples de backup e restauração para recuperação de desastre se as economias de custos compensarem.In cases in which the near-term value of the data is low and the need to access the data can be delayed without severe business impact if a failure or site DR excessive, consider using simple backup and restore processes for DR if the cost savings warrant it.

Compreender o impacto do tempo de inatividade e a tolerância a ele ajudará a tomar as decisões que precisam ser entendidas para criar corretamente a arquitetura do Operations Manager e o nível de complexidade e custo necessários para dar suporte à recuperação de desastres.Understanding the impact and tolerance for downtime will help drive the decisions that need to be understood in order to properly design the architecture for Operations Manager and the level of complexity and cost required to support disaster recovery. Além disso, é necessário considerar a extensão da perda de dados de monitoramento que a organização de TI pode tolerar sem causar consequências de negócios.Additionally, consider the extent of monitoring data loss the IT organization can tolerate without causing business consequences. Isso é melhor descrito em dois termos: RTO (objetivo de tempo de recuperação) e RPO (objetivo de ponto de recuperação).This is best described in two terms: recovery time objective (RTO) and recovery point objective (RPO).

As duas configurações de design mais comuns de recuperação de desastre para o Operations Manager são:The two most common disaster recovery design configurations for Operations Manager are:

  • criar um grupo de gerenciamento duplicado implantado em seu data center secundário que duplica, em escala e configuração, o grupo de gerenciamento primário.Creating a duplicate management group deployed to your secondary data center that duplicates in scale and configuration, the primary management group.
  • implantar servidores adicionais em um data center secundário para dar suporte ao banco de dados Operacional e de Data Warehouse, com servidores de gerenciamento implantados em uma configuração de espera passiva, que não participam do grupo de gerenciamento até que as ações de recuperação precisem ser executadas.Deploying additional servers in a secondary data center to support the Operational and Data Warehouse database, with management servers deployed in a cold-standby configuration, not participating in the management group until recovery actions need to be performed.

Implantar um grupo de gerenciamento duplicado é uma opção quando não há nenhuma tolerância para tempo de inatividade. No entanto, é a opção mais complexa.Deploying a duplicate management group is an option when there is no tolerance for downtime; however, it is the most complex option. A configuração entre os dois precisa ser consistente para que, quando você fizer a transferência, não haja diferenças quanto ao que é monitorado, alertado ou relatado, apresentado e, finalmente, escalado.Configuration between both needs to be consistent so that when you cut over, there is no difference in what is monitored, alerted or reported, presented, and finally escalated. A integração com outras plataformas de monitoramento ou plataformas de ITSM, como o System Center – Service Manager, Remedy ou ServiceNow, também precisará existir e, possivelmente, ser configurada em um estado ativo/passivo para evitar a duplicação de incidentes, itens de configuração etc. Os agentes terão hospedagem múltipla entre os dois grupos de gerenciamento, de modo que haverá duplicação de dados.Integration with other monitoring platforms or ITSM platforms such as System Center - Service Manager, Remedy or ServiceNow will need to exist as well, and possibly configured in an active/passive state to avoid duplication of incidents, configuration items, etc. Agents will be multihomed between both management groups, so there will be duplication of data.

O diagrama a seguir é um exemplo desse cenário de design.The following diagram is an example of this design scenario.

Grupos de gerenciamento duplicados

Se a recuperação imediata não for necessária para sua implantação do Operations Manager e você quiser evitar a complexidade de um grupo de gerenciamento duplicado, como alternativa você poderá implantar componentes adicionais do grupo de gerenciamento em seu data center secundário para manter a funcionalidade do grupo de gerenciamento.If immediate recovery is not necessary for your Operations Manager deployment and you want to avoid the complexity of a duplicate management group, alternatively you can deploy additional management group components in your secondary data center in order to retain functionality of your management group. No mínimo, considere implementar um grupo de disponibilidade do AlwaysOn do SQL Server 2014 ou 2016 para fornecer a recuperação dos bancos de dados Operacional e de Data Warehouse entre dois ou mais datacenters, em que uma FCI (instância de cluster de failover) de dois nós está implantada no datacenter principal e um SQL Server autônomo no datacenter secundário como parte de um único WSFC (Windows Server Failover Cluster).At a minimum, consider implementing a SQL Server 2014 or 2016 Always On Availability Group to provide recovery of the Operational and Data Warehouse databases between two or more datacenters, where a two-node failover cluster instance (FCI) is deployed in the primary data center, and a standalone SQL Server in the secondary datacenter as part of a single Windows Server Failover Cluster (WSFC). A réplica secundária do grupo de disponibilidade do AlwaysOn estaria na instância autônoma não FCI, conforme mostrado no diagrama a seguir.The secondary replica for the Always On Availability Group would be on the non-FCI standalone instance as shown in the following diagram.

Configuração simples de recuperação de desastre

Neste exemplo, você deverá implantar um ou mais Windows Servers com o mesmo nome do computador e a mesma configuração de hardware e reinstalará a função de servidor de gerenciamento usando o parâmetro /Recover.In this example, you would be required to deploy one or more Windows Servers with the same hardware configuration and computer name, and reinstall the management server role using the /Recover parameter. Durante esse tempo, os agentes colocarão em fila os dados coletados (alertas, eventos, desempenho etc.) até que podem retomar a comunicação com um servidor de gerenciamento no grupo de gerenciamento.During this time, agents will queue the data collected (alerts, events, performance, etc.) until they can resume communication with a management server in the management group. Essa abordagem evita instalar novas instâncias do SQL Server e restaurar bancos de dados de seu último backup válido conhecido.This approach avoids installing new instances of SQL Server and restoring databases from your last known good backup. No entanto, nesse cenário de recuperação, provavelmente haverá um atraso maior para retornar a um estado operacional, uma vez que será necessário implantar as outras funções necessárias para retomar a funcionalidade de monitoramento mínima.However, in this recovery scenario there is likely going to be a longer delay in returning to an operable state given you will need to deploy the other roles necessary to resume minimum monitoring functionality. Se essa abordagem não for aceitável, você poderá implantar servidores de gerenciamento em seu data center secundário para recuperação no modo de espera.If this approach isn't acceptable, you can deploy management servers in your secondary data center for on-standby recovery. Remova-os como membros dos três pools de recursos principais – Pool de Recursos de Todos os Servidores de Gerenciamento, Notificações e Atribuição de AD.Remove them as members of the three primary resources pools - All Management Servers Resource Pool, Notifications, and AD Assignment. Isso também inclui qualquer pool de recursos personalizado que possa incluir servidores de gerenciamento hospedados no data center primário e precise continuar funcionando como parte do plano de recuperação.This also includes any custom resource pool, which may include management servers hosted in the primary data center and need to continue to function as part of the recovery plan. Os serviços de Acesso a Dados do System Center, Gerenciamento de Configuração do System Center e o Microsoft Monitoring Agent devem ser interrompidos, definidos como manual ou desabilitado e devem ser iniciados somente em um cenário de recuperação de desastre.The System Center Data Access, System Center Configuration Management, and Microsoft Monitoring Agent services should be stopped and set to manual or disable and only started in a disaster recovery scenario.
Se um servidor de gerenciamento for compatível com a integração (por meio de um conector hospedado diretamente no servidor de gerenciamento ou de outro produto do System Center, como o VMM, o Orchestrator ou o Service Manager), isso precisará ser planejado com etapas de recuperação manual ou automática, dependendo da configuração de integração e da sequência de etapas de recuperação.If a management server is supporting integration (via a connector hosted directly on the management server or from another System Center product such as VMM, Orchestrator or Service Manager), this will need to be planned for with manual or automatic recovery steps depending on the integration configuration and sequence of recovery steps. Isso garante que qualquer outra dependência do servidor de gerenciamento seja capturada e planejada quando o plano de recuperação de desastre precisar ser implementado.This ensures any other dependency on the management server is captured and planned for when the disaster recovery plan needs to be implemented.

Configuração complexa de recuperação de desastreComplex DR Config

Se um site ficar offline, o agente efetuará o failover para o servidor de gerenciamento em outro site, presumindo que a configuração de failover do agente permita isso.If one site goes offline, the agent will fail over to the management server in another site, assuming that the agent’s failover configuration allows this. Configure novamente os agentes do Windows para armazenar em cache somente os servidores de gerenciamento no seu data center principal, que deve gerenciá-los para impedir que tentem efetuar o failover para um servidor de gerenciamento no data center secundário, o que apenas atrasaria a recuperação e a emissão de relatórios.Reconfigure the Windows agents to cache only management servers in your primary data center that should manage them to prevent them from attempting to failover to a management server in the secondary data center, which would only delay recovery and reporting. Isso poderá ser feito se você implantar manualmente o agente de maneira automatizada com um script (por exemplo, VBScript ou, melhor ainda, PowerShell) para pré-configurar durante a instalação ou após a implantação se você efetuar push do agente do console, novamente usando um método de script gerenciado com sua solução de gerenciamento de configuração corporativa.This can be accomplished if you manually deploy the agent in an automated manner with a script (for example, VBScript or better yet, PowerShell) to pre-configure during installation, or post deployment if you push the agent from the console, again using a scripted method managed with your enterprise configuration management solution.

O Operations Manager pode ser implantado em máquinas virtuais do Azure como uma opção alternativa de recuperação de desastre para manter a continuidade do grupo de gerenciamento.Operations Manager can be deployed on Azure virtual machines as an alternative disaster recovery option to maintain continuity of the management group. Também será necessário implantar o SQL Server em uma máquina virtual no Azure e não em uma configuração híbrida, uma vez que a latência entre um servidor de gerenciamento e o SQL Server que hospeda os bancos de dados do Operations Manager afetará negativamente o desempenho do grupo de gerenciamento.It will be necessary to also deploy SQL Server on a virtual machine in Azure and not in a hybrid configuration, as the latency between a management server and the SQL Server hosting the Operations Manager databases will negatively impact performance of the management group.
Considere o escopo de monitoramento, a topologia de rede e a conectividade de rede com o Microsoft Azure (ou seja, VPN site a site ou ExpressRoute), pontos de integração (ou seja, soluções de ITSM, outros produtos do System Center, complementos de terceiros etc.), acesso de console, leis ou políticas relevantes ou regulatórias etc. para arquitetar corretamente esse cenário na IaaS do Azure ou em outros provedores de nuvem pública.Consider the monitoring scope, network topology, and network connectivity to Microsoft Azure (that is, site-to-site VPN or ExpressRoute), integration points (that is, ITSM solutions, other System Center products, third-part add-ons, etc.), console access, regulatory or relevant laws or policies, etc. in order to properly architect this scenario within Azure IaaS or other public cloud providers.