Alta disponibilidad y recuperación ante desastresHigh Availability and Disaster Recovery

Se aplica a: System Center 2016 Operations ManagerApplies To: System Center 2016 - Operations Manager

Varios servidores y características de System Center 2016 Operations Manager podrían producir errores, lo que afectaría a la funcionalidad de Operations Manager.Various System Center 2016 – Operations Manager servers and features can potentially fail, impacting Operations Manager functionality. La cantidad de datos y funcionalidades que se pierde durante un error es diferente en cada escenario de error.The amount of data and functionality lost during a failure is different in each failure scenario. Depende del rol de la característica con error, del tiempo que se tarda en recuperar la característica con error.It depends on the role of the failing feature, the length of time it takes to recover the failing feature.

Alta disponibilidadHigh availability

Las necesidades de alta disponibilidad se dirigen mediante la creación de redundancia en el grupo de administración para las bases de datos operativas y de almacenamiento de datos de Operations Manager, la puerta de enlace y servidores de administración y las cargas de trabajo específicas.High-availability needs are addressed by building redundancy into the management group for the Operations Manager operational and data warehouse databases, the gateway and management servers, and specific workloads. Estas cargas de trabajo incluyen la supervisión de dispositivos de red y multiplataforma, y las cargas de trabajo específicas del grupo de administración que se administraron previamente con el servidor de administración raíz.These workloads include network device monitoring, cross-platform monitoring, and management group specific workloads that were previously managed by the Root Management Server.

La configuración del grupo de administración único y de varios servidores puede hacer uso de SQL Server 2014 o SQL Server 2016 Always On para proporcionar alta disponibilidad y continuidad del servicio de las bases de datos de Operations Manager.The multiple server, single management group configuration can make use of SQL Server 2014 or SQL Server 2016 Always On for providing high availability and service continuity of the Operations Manager databases. Al tener al menos dos servidores de administración y hacer uso de grupos de recursos para la supervisión de servidores de UNIX y Linux y de dispositivos de red proporciona tolerancia a errores del servidor de administración.Management server fault-tolerance is provided by having at least two management servers and making use of resource pools for monitoring UNIX servers, Linux servers, and network devices. Los servidores de Windows basados en agentes pueden configurarse con un servidor de administración principal y secundario para redirigir las comunicaciones del agente en caso de que se produjera un error de un servidor de administración.Agent based Windows servers can be configured with a primary and secondary management server to redirect agent communications should a management server fail.

El emulador de RMS también se puede mover a otro servidor de administración, en caso de que el servidor de administración que hospeda el emulador de RMS dejase de estar disponible.The RMS Emulator can be moved to another management server as well should the management server hosting the RMS Emulator become unavailable.

Las conexiones de la consola del operador se puede hacer que sean altamente disponibles.Operations console connections can be made highly available. Esto se logra mediante la configuración de alta disponibilidad para los servicios de acceso a datos.This is accomplished by configuring high availability for the Data Access Services. Esto puede hacerse al instalar Equilibrio de carga de red de Microsoft (NLB) o al usar equilibradores basados en hardware o alias DNS.This can be done by installing Microsoft Network Load Balancing (NLB) or using a hardware-based load balancers, or DNS alias. Se agregan uno o más servidores de administración como miembros del grupo de NLB y, al abrir la consola de cualquiera, hace referencia al nombre virtual registrado en DNS, de los servidores de administración de equilibrio de carga.One or more management servers are added as members of the NLB pool and when opening the either console, you reference the virtual name registered in DNS, of the load-balanced management servers.

Nota

No se puede usar un equilibrador de carga de red en el servidor de consola web de Operations Manager.A Network Load Balancer is not supported for the Operations Manager web console server.

Varios servidores de puerta de enlace pueden implementarse en un límite de confianza para proporcionar las rutas redundantes para los agentes que se encuentran en ese límite de confianza.Multiple gateway servers can be deployed across a trust boundary to provide redundant pathways for agents that lie across that trust boundary. Así como los agentes pueden conmutar por error entre un servidor de administración principal y uno o más servidores de administración secundarios, también pueden conmutar por error entre los servidores de puerta de enlace.Just as agents can fail over between a primary management server and one or more secondary management servers, they can also fail over between gateway servers. Además, varios servidores de puerta de enlace pueden utilizarse para distribuir la carga de trabajo de la administración de los equipos administrados sin agente y de los dispositivos de red administrados.In addition, multiple gateway servers can be used to distribute the workload of managing agentless-managed computers and managed network devices.

Además de proporcionar redundancia a través de la conmutación por error de la puerta de enlace del agente, los servidores de puerta de enlace pueden configurarse para conmutar por error entre servidores de administración de un grupo de administración, si varios servidores de administración están disponibles.In addition to providing redundancy through agent-gateway failover, gateway servers can be configured to fail over between management servers in a management group if multiple management servers are available.

A pesar de que SQL Server Reporting Services admite un modelo de implementación de ampliación horizontal que le permite ejecutar varias instancias de servidor de informes que comparten una única base de datos, no es compatible con Operations Manager.While SQL Server Reporting Services supports a scale-out deployment model that allows you to run multiple report server instances that share a single report server database, it is not supported with Operations Manager. Informes de Operations Manager instala una extensión de seguridad personalizada como parte de la instalación de los componentes front-end, que no se pueden replicar a través de la granja de servidores web.Operations Manager Reporting installs a custom security extension as part of the setup of the front-end components, which cannot be replicated across the web farm.

Recuperación ante desastresDisaster recovery

La recuperación ante desastres se relaciona con las medidas tomadas para garantizar que las operaciones se pueden reanudar si se produce un error grave (por ejemplo, pérdida del centro de datos que hospeda la infraestructura principal).Disaster recovery relates to measures taken to ensure that operations can be resumed in the event of a catastrophic failure (for example, loss of the entire data center that hosts the primary infrastructure). Es un elemento importante que debe tenerse en cuenta en cualquier implementación y las decisiones que se toman en la planificación para la recuperación ante desastres afecta a cómo Operations Manager podrá seguir admitiendo la elaboración de informes y la supervisión proactivas del rendimiento y disponibilidad de los servicios críticos de TI.It is an important element that must be considered in any deployment and the decisions that are made in planning for disaster recovery affect how Operations Manager will be able to continue supporting proactive monitoring and reporting of the performance and availability of your critical IT services. Esta sección se centrará en la estrategia recomendada de recuperación ante desastres y resistencia, y qué pasos que deben seguir para garantizar una recuperación sin problemas.This section will focus on the recommended strategy of disaster recovery and resiliency and what steps should be taken to ensure a smooth recovery.

Aunque las soluciones de alta disponibilidad y de recuperación ante desastres proporcionarán protección contra la pérdida o error del sistema, no se debe confiar en ellas para la protección contra la pérdida o daño de datos accidental, no intencionada o malintencionada.While HA and DR solutions will provide protection from system failure or system loss, they should not be relied on for protection from accidental, unintended, or malicious data loss or corruption. En esos casos, las copias de seguridad o replicaciones perdidas podrían tener que aprovecharse para operaciones de restauración.In these cases, backup copied or lagged replication copies might have to be leveraged for restore operations. En muchos casos, la forma más adecuada de recuperación ante desastres es una operación de restauración.In many cases, a restore operation is the most appropriate form of DR. Un ejemplo de esto podría ser una base de datos de informe de prioridad baja o datos de análisis.One example of this could be a low-priority reporting database or analysis data. En muchos casos, el costo para habilitar el multisitio de recuperación ante desastres en el nivel de aplicación o de sistema supera de lejos el valor de los datos.In many cases, the cost to enable multisite DR at the system or application level far outweighs the value of the data. En los casos en que el valor de los datos a corto plazo es bajo y la necesidad de tener acceso a los datos se pueden retrasar sin que tenga un gran impacto en el negocio en caso de un error o sitio de recuperación ante desastres excesivo, considere la posibilidad de usar una simple copia de seguridad y procesos de restauración para recuperación ante desastres si lo exigen los ahorros de costos.In cases in which the near-term value of the data is low and the need to access the data can be delayed without severe business impact in the case of a failure or site DR excessive, consider using simple backup and restore processes for DR if the cost savings warrant it.

Comprender el impacto y la tolerancia del tiempo de inactividad le ayudará a tomar las decisiones que se deben entender para diseñar adecuadamente la arquitectura de Operations Manager y el nivel de complejidad y costo necesarios para admitir la recuperación ante desastres.Understanding the impact and tolerance for downtime will help drive the decisions that need to be understood in order to properly design the architecture for Operations Manager and the level of complexity and cost required to support disaster recovery. Además, se debe considerar el alcance de supervisión de la pérdida de datos que la organización de TI puede tolerar sin que se produzcan consecuencias empresariales.Additionally, you have to consider the extent of monitoring data loss the IT organization can tolerate without causing business consequences. Esto se describe mejor en dos términos: objetivo de tiempo de recuperación (RTO) y objetivo de punto de recuperación (RPO).This is best described in two terms: recovery time objective (RTO) and recovery point objective (RPO).

Las dos configuraciones de diseño más comunes de recuperación ante desastres para Operations Manager son:The two most common disaster recovery design configurations for Operations Manager are:

  • Creación de un grupo de administración duplicado implementado en su centro de datos secundario que duplica en escala y configuración, al grupo de administración principal.Creating a duplicate management group deployed to your secondary data center that duplicates in scale and configuration, the primary management group.
  • Implementación de servidores adicionales en un centro de datos secundario para admitir la base de datos operativa y de almacenamiento de datos, con los servidores de administración implementados en una configuración de espera pasiva, sin participar en el grupo de administración hasta que se deban realizar acciones de recuperación.Deploying additional servers in a secondary data center to support the Operational and Data Warehouse database, with management servers deployed in a cold-standby configuration, not participating in the management group until recovery actions need to be performed.

La implementación de un grupo de administración duplicado es una opción cuando no hay ninguna tolerancia para el tiempo de inactividad, pero esta es la opción más compleja.Deploying a duplicate management group is an option when there is no tolerance for downtime; however, it is the most complex option. La configuración entre ambos debe ser coherente para que cuando se migra, no haya ninguna diferencia en lo que se supervisa, se alerta o notifica, se presenta y, finalmente, se escala.Configuration between both needs to be consistent so that when you cut over, there is no difference in what is monitored, alerted or reported, presented, and finally escalated. La integración con otras plataformas de supervisión o plataformas ITSM como System Center 2016 Service Manager, Remedy o ServiceNow también deberá existir y estar, posiblemente, configurada en un estado activo/pasivo para evitar la duplicación de incidentes, elementos de configuración, etc. Agentes que actuarán como host múltiple entre ambos grupos de administración, por lo que habrá duplicación de datos.Integration with other monitoring platforms or ITSM platforms such as System Center 2016 - Service Manager, Remedy or ServiceNow will need to exist as well, and possibly configured in an active/passive state to avoid duplication of incidents, configuration items, etc. Agents will be multihomed between both management groups, so there will be duplication of data.

El diagrama siguiente es un ejemplo de este escenario de diseño.The following diagram is an example of this design scenario.

Grupo de administración duplicado

Si no se necesita la recuperación inmediata para la implementación de Operations Manager y quiere evitar la complejidad de un grupo de administración duplicado, también puede implementar componentes del grupo de administración adicionales en su centro de datos secundario con el fin de conservar la funcionalidad de su grupo de administración.If immediate recovery is not necessary for your Operations Manager deployment and you want to avoid the complexity of a duplicate management group, alternatively you can deploy additional management group components in your secondary data center in order to retain functionality of your management group. Como mínimo, considere la posibilidad de implementar un grupo de disponibilidad de SQL Server 2014 o 2016 Always On para proporcionar la recuperación de las bases de datos operativas y de almacenamiento de datos entre dos o más centros de datos, donde se implementa una instancia del clúster de conmutación por error (FCI) de dos nodos en el centro de datos principal, y un SQL Server independiente en el centro de datos secundario como parte de un clúster de conmutación por error de Windows Server (WSFC) único.At a minimum, consider implementing a SQL Server 2014 or 2016 Always On Availability Group to provide recovery of the Operational and Data Warehouse databases between two or more datacenters, where a two-node failover cluster instance (FCI) is deployed in the primary data center, and a standalone SQL Server in the secondary datacenter as part of a single Windows Server Failover Cluster (WSFC). La réplica secundaria para el grupo de disponibilidad Always On estaría en la instancia independiente no FCI, tal como se muestra en el diagrama siguiente.The secondary replica for the Always On Availability Group would be on the non-FCI standalone instance as shown in the following diagram.

Configuración de recuperación ante desastres simple

En este ejemplo, tendría que implementar uno o varios servidores de Windows con el mismo nombre de equipo y configuración de hardware y volver a instalar el rol de servidor de administración mediante el parámetro /recuperación.In this example, you would be required to deploy one or more Windows Server with the same hardware configuration and computer name, and reinstall the management server role using the /Recover parameter. Mientras tanto, los agentes pondrán en cola los datos recopilados (alertas, eventos, rendimiento, etc.) hasta que puedan reanudar la comunicación con un servidor de administración del grupo de administración.During this time, agents will queue the data collected (alerts, events, performance, etc.) until they can resume communication with a management server in the management group. Este enfoque evita la instalación de nuevas instancias de SQL Server y la restauración de bases de datos desde la última copia de seguridad buena conocida.This approach avoids installing new instances of SQL Server and restoring databases from your last known good backup. Pero, en este escenario de recuperación, probablemente habrá un mayor retraso para devolver a un estado operable, dado que habrá que implementar los demás roles necesarios para reanudar la funcionalidad de supervisión mínima.However, in this recovery scenario there is likely going to be a longer delay in returning to an operable state given you will need to deploy the other roles necessary to resume minimum monitoring functionality. Si este enfoque no es aceptable, puede implementar servidores de administración en su centro de datos secundario para la recuperación en espera.If this approach isn't acceptable, you can deploy management servers in your secondary data center for on-standby recovery. Deben quitarse como miembros de los tres grupos de recursos principales todos los grupos de recursos de servidores de administración, las notificaciones y la asignación de AD.They need to be removed as members of the three primary resources pools - All Management Servers Resource Pool, Notifications, and AD Assignment. Esto también incluye cualquier grupo de recursos personalizado que pueda incluir servidores de administración hospedados en el centro de datos principal y que tienen que seguir funcionando como parte del plan de recuperación.This also includes any custom resource pool which may include management servers hosted in the primary data center and need to continue to function as part of the recovery plan. Se deberían detener y establecer en modo manual o deshabilitado los servicios de acceso a datos de System Center, administración de la configuración de System Center y Microsoft Monitoring Agent, y solo iniciarlos en un escenario de recuperación ante desastres.The System Center Data Access, System Center Configuration Management, and Microsoft Monitoring Agent services should be stopped and set to manual or disable and only started in a disaster recovery scenario.
Si un servidor de administración es compatible con la integración (a través de un conector alojado directamente en el servidor de administración o de otro producto de System Center, como VMM, Orchestrator o Service Manager) esto se deberá planear, con pasos de recuperación manual o automática según la configuración de la integración y la secuencia de los pasos de recuperación.If a management server is supporting integration (via a connector hosted directly on the management server or from another System Center product such as VMM, Orchestrator or Service Manager) this will need to be planned for with manual or automatic recovery steps depending on the integration configuration and sequence of recovery steps. Además, esto garantiza que cualquier otra dependencia en el servidor de administración se capture y planee para cuando se necesite implementar el plan de recuperación ante desastres.Additionally, this ensures any other dependency on the management server is captured and planned for when the disaster recovery plan needs to be implemented.

Configuración de recuperación ante desastres complejaComplex DR Config

Si un sitio se desconecta, el agente conmutará por error al servidor de administración en otro sitio, suponiendo que la configuración de conmutación por error del agente lo permita.If one site goes offline, the agent will fail over to the management server in another site, assuming that the agent’s failover configuration allows this. Debe reconfigurar los agentes de Windows para almacenar en caché solo los servidores de administración de su centro de datos principal que los debe administrar para impedir que intenten conmutar por error a un servidor de administración en el centro de datos secundario, lo que solo retrasaría la detección e informe.You should re-configure the Windows agents to cache only management servers in your primary data center that should manage them to prevent them from attempting to failover to a management server in the secondary data center, which would only delay recovery and reporting. Esto puede realizarse si implementa manualmente el agente de manera automática con un script (por ejemplo, VBScript o, mejor todavía, PowerShell) para configurar previamente durante la instalación o tras la implementación, si inserta al agente desde la consola, otra vez mediante un método generado por scripts administrado con la solución de administración de configuración de empresa.This can be accomplished if you manually deploy the agent in an automated manner with a script (e.g. VBScript or better yet, PowerShell) to pre-configure during installation, or post deployment if you push the agent from the console, again using a scripted method managed with your enterprise configuration management solution.

Se puede implementar Operations Manager en máquinas virtuales de Azure como una opción de recuperación ante desastres alternativa para mantener la continuidad del grupo de administración.Operations Manager can be deployed on Azure virtual machines as an alternative disaster recovery option to maintain continuity of the management group. También será necesario implementar SQL Server en una máquina virtual en Azure y no en una configuración híbrida, ya que la latencia entre un servidor de administración y el SQL Server que hospeda las bases de datos de Operations Manager afectará negativamente al rendimiento del grupo de administración.It will be necessary to also deploy SQL Server on a virtual machine in Azure and not in a hybrid configuration, as the latency between a management server and the SQL Server hosting the Operations Manager databases will negatively impact performance of the management group.
Tenga en cuenta el ámbito de supervisión, la topología de red y la conectividad de red con Microsoft Azure (es decir, VPN sitio a sitio o ExpressRoute), los puntos de integración (es decir, las soluciones de ITSM, otros productos de System Center, complementos de terceros, etc.), el acceso a la consola, las directivas o leyes normativas o relevantes, etc. para diseñar correctamente este escenario en IaaS de Azure u otros proveedores de nube públicos.Consider the monitoring scope, network topology and network connectivity to Microsoft Azure (i.e. site-to-site VPN or ExpressRoute), integration points (i.e. ITSM solutions, other System Center products, third-part add-ons, etc.), console access, regulatory or relevant laws or polices, etc. in order to properly architect this scenario within Azure IaaS or other public cloud providers.