Protección y recuperación en la administración de la nubeProtect and recover in cloud management

Después de cumplir los requisitos de inventario y visibilidad y de cumplimiento operativo, los equipos de administración de la nube se pueden anticipar y prepararse para una posible interrupción de la carga de trabajo.After they've met the requirements for inventory and visibility and operational compliance, cloud management teams can anticipate and prepare for a potential workload outage. Cuando planean la administración de la nube, los equipos deben plantearse la posibilidad de que se produzca un error.As they're planning for cloud management, the teams must start with an assumption that something will fail.

No hay ninguna solución técnica que pueda ofrecer constantemente un Acuerdo de Nivel de Servicio de tiempo de actividad del 100 %.No technical solution can consistently offer a 100 percent uptime SLA. Aquellas soluciones con las arquitecturas más redundantes afirman que pueden ofrecer un tiempo de actividad de "seis nueves", es decir, del 99,9999 %.Solutions with the most redundant architectures claim to deliver on "six 9s" or 99.9999 percent uptime. Pero incluso estas soluciones dejan de funcionar durante 31,6 segundos como mínimo cada año.But even a "six 9s" solution goes down for 31.6 seconds in any given year. Además, es raro que una solución justifique la gran inversión operativa constante que se necesita para alcanzar un tiempo de actividad de "seis nueves".Sadly, it's rare for a solution to warrant a large, ongoing operational investment that's required to reach "six 9s" of uptime.

La preparación ante las interrupciones permite que el equipo detecte errores antes y se recupere más rápidamente.Preparation for an outage allows the team to detect failures sooner and recover more quickly. El enfoque de esta materia se centra en los pasos siguientes que hay que tomar inmediatamente después de un error del sistema.The focus of this discipline is on the steps that come immediately after a system fails. ¿Cómo se protegen las cargas de trabajo para que se puedan recuperar rápidamente cuando se produce una interrupción?How do you protect workloads, so that they can be recovered quickly when an outage occurs?

Traslado de las conversaciones sobre protección y recuperaciónTranslate protection and recovery conversations

Las cargas de trabajo que impulsan las operaciones empresariales constan de aplicaciones, datos, máquinas virtuales (VM) y otros recursos.The workloads that power business operations consist of applications, data, virtual machines (VMs), and other assets. Cada uno de esos recursos puede requerir un enfoque diferente para la protección y la recuperación.Each of those assets might require a different approach to protection and recovery. Un aspecto importante de esta materia consiste en establecer un compromiso coherente dentro de la base de referencia de administración, que puede proporcionar un punto de partida durante las conversaciones empresariales.The important aspect of this discipline is to establish a consistent commitment within the management baseline, which can provide a starting point during business discussions.

Como mínimo, cada recurso que respalda una carga de trabajo determinada debe disponer de un enfoque de base de referencia con un compromiso claro relativo a la velocidad de recuperación (objetivos de tiempo de recuperación o RTO) y al riesgo de pérdida de datos (objetivos de punto de recuperación o RPO).At a minimum, each asset that supports any given workload should have a baseline approach with a clear commitment to speed of recovery (recovery time objectives, or RTO) and risk of data loss (recovery point objectives, or RPO).

Objetivos de tiempo de recuperación (RTO)Recovery time objectives (RTO)

Cuando se produce un desastre, el objetivo de tiempo de recuperación es la cantidad de tiempo que debe tardar cualquier sistema en recuperar su estado previo al desastre.When disaster strikes, a recovery time objective is the amount of time it should take to recovery any system to its state prior to the disaster. Para cada carga de trabajo, esto incluye el tiempo requerido para restaurar la funcionalidad mínima necesaria de las máquinas virtuales y las aplicaciones.For each workload, that would include the time required to restore minimum necessary functionality for the VMs and applications. También incluye el tiempo necesario para restaurar los datos que requieren las aplicaciones.It also includes the amount of time required to restore the data that's required by the applications.

En términos empresariales, el RTO representa la cantidad de tiempo que un proceso de negocio estará fuera de servicio.In business terms, RTO represents the amount of time that the business process will be out of service. En el caso de cargas de trabajo críticas, esta variable debe ser relativamente baja para permitir que los procesos se reanuden rápidamente.For mission-critical workloads, this variable should be relatively low, allowing the business processes to resume quickly. Para aquellas cargas de trabajo de prioridad baja, es posible que un nivel estándar de RTO no afecte notablemente al rendimiento de la empresa.For lower-priority workloads, a standard level of RTO might not have a noticeable impact on company performance.

La base de referencia de administración debe establecer un objetivo de tiempo de recuperación estándar para las cargas de trabajo no críticas.The management baseline should establish a standard RTO for non-mission-critical workloads. Posteriormente, la empresa puede usar esa línea de base como una manera de justificar inversiones adicionales en los tiempos de recuperación.The business can then use that baseline as a way to justify additional investments in recovery times.

Objetivos de punto de recuperación (RPO)Recovery point objectives (RPO)

En la mayoría de los sistemas de administración de la nube, los datos se capturan y almacenan periódicamente mediante algún tipo de protección de datos.In most cloud management systems, data is periodically captured and stored through some form of data protection. La última vez que se capturaron los datos se conoce como punto de recuperación.The last time data was captured is referred to as a recovery point. Cuando se produce un error en un sistema, solo se puede restaurar al punto de recuperación más reciente.When a system fails, it can be restored only to the most recent recovery point.

Si un sistema tiene un objetivo de punto de recuperación que se mide en horas o días, un error del sistema daría lugar a la pérdida de datos durante esas horas o días que transcurren entre el último punto de recuperación y la interrupción.If a system has a recovery point objective that's measured in hours or days, a system failure would result in the loss of data for those hours or days between the last recovery point and the outage. En teoría, un RPO de 1 día dará lugar a la pérdida de todas las transacciones del día en que se produjo el error.A one-day RPO would theoretically result in the loss of all transactions in the day leading up to the failure.

En el caso de sistemas críticos, un RPO medido en minutos o segundos puede ser más adecuado para evitar una pérdida de ingresos.For mission-critical systems, an RPO that's measured in minutes or seconds might be more appropriate to use to avoid a loss in revenue. Sin embargo, un RPO más corto suele provocar un aumento de los costos generales de administración.But a shorter RPO generally results in an increase in overall management costs.

Una base de referencia de administración debe concentrarse en hallar el RPO más largo aceptable para minimizar los costos.To help minimize costs, a management baseline should focus on the longest acceptable RPO. El equipo de administración de la nube puede aumentar el RPO de plataformas o cargas de trabajo concretas, lo que justificaría una mayor inversión.The cloud management team can then increase the RPO of specific platforms or workloads, which would warrant more investment.

Protección y recuperación de cargas de trabajoProtect and recover workloads

La mayoría de las cargas de trabajo de un entorno de TI respaldan un proceso empresarial o técnico concreto.Most of the workloads in an IT environment support a specific business or technical process. Los sistemas que no tienen un impacto sistémico en las operaciones empresariales a menudo no justifican el aumento de las inversiones que se necesita para una recuperación rápida o la reducción al mínimo de la pérdida de datos.Systems that don't have a systemic impact on business operations often don't warrant the increased investments required to recover quickly or minimize data loss. El establecimiento de una base de referencia permite a las empresas comprender claramente qué nivel de respaldo a la recuperación se puede ofrecer a cambio de un precio concreto y asumible.By establishing a baseline, the business can clearly understand what level of recovery support can be offered at a consistent, manageable price point. Ello ayuda a las partes interesadas de la empresa a evaluar el valor de una mayor inversión en los procesos de recuperación.This understanding helps the business stakeholders evaluate the value of an increased investment in recovery.

Para la mayoría de los equipos de administración de la nube, una base de referencia mejorada con compromisos específicos de RPO/RTO para varios recursos, genera el escenario más favorable para establecer compromisos empresariales mutuos.For most cloud management teams, an enhanced baseline with specific RPO/RTO commitments for various assets yields the most favorable path to mutual business commitments. En las secciones siguientes se describen algunas líneas de base mejoradas comunes que permiten a la empresa agregar fácilmente funcionalidades de protección y recuperación mediante un proceso repetible.The following sections outline a few common enhanced baselines that empower the business to easily add protection and recovery functionality through a repeatable process.

Protección y recuperación de datosProtect and recover data

Los datos son posiblemente el recurso más valioso en la economía digital.Data is arguably the most valuable asset in the digital economy. La capacidad para proteger y recuperar datos de forma más eficaz es la línea de base mejorada más común.The ability to protect and recover data more effectively is the most common enhanced baseline. En el caso de los datos que forman parte de una carga de trabajo de producción, la pérdida de datos se puede equiparar directamente a una pérdida de ingresos o de rentabilidad.For the data that powers a production workload, loss of data can be directly equated to loss in revenue or loss of profitability. Por lo general, se recomienda que los equipos de administración de la nube ofrezcan un nivel de base de referencia de administración mejorada que admita las plataformas de datos comunes.We generally encourage cloud management teams to offer a level of enhanced management baseline that supports common data platforms.

Antes de que los equipos de administración de la nube implementen operaciones de plataforma, es habitual que respalden las operaciones mejoradas de una plataforma de datos como servicio (PaaS).Before cloud management teams implement platform operations, it's common for them to support improved operations for a platform as a service (PaaS) data platform. Por ejemplo, es fácil que un equipo de administración de la nube aplique una mayor frecuencia de copias de seguridad o de replicación en varias regiones para las soluciones de Azure SQL Database o Azure Cosmos DB.For instance, it's easy for a cloud management team to enforce a higher frequency of backup or multiregion replication for Azure SQL Database or Azure Cosmos DB solutions. Esto permite que el equipo de desarrollo pueda mejorar fácilmente el RPO mediante la modernización de sus plataformas de datos.Doing so allows the development team to easily improve RPO by modernizing their data platforms.

Para obtener más información acerca de este proceso de reflexión, consulte la materia sobre operaciones de plataforma.To learn more about this thought process, see Platform operations discipline.

Protección y recuperación de máquinas virtualesProtect and recover VMs

La mayoría de las cargas de trabajo tienen alguna dependencia de las máquinas virtuales, que hospedan diversos aspectos de la solución.Most workloads have some dependency on virtual machines, which host various aspects of the solution. Para que la carga de trabajo apoye un proceso empresarial después de un error del sistema, es necesario recuperar rápidamente algunas máquinas virtuales.For the workload to support a business process after a system failure, some virtual machines must be recovered quickly.

Cada minuto de tiempo de inactividad de esas máquinas virtuales puede provocar una pérdida de ingresos o una menor rentabilidad.Every minute of downtime on those virtual machines could cause lost revenue or reduced profitability. Cuando el tiempo de inactividad de la VM tiene un impacto directo en el rendimiento fiscal de la empresa, el RTO pasa a ser algo muy importante.When VM downtime has a direct impact on the fiscal performance of the business, RTO is very important. Las máquinas virtuales se pueden recuperar más rápidamente mediante la replicación en un sitio secundario y la recuperación automatizada, un modelo que se conoce como modelo de recuperación activa-semiactiva.Virtual machines can be recovered more quickly by using replication to a secondary site and automated recovery, a model that's referred to as a hot-warm recovery model. En un estado ideal de recuperación, las máquinas virtuales se pueden replicar en un sitio secundario totalmente funcional.At the highest state of recovery, virtual machines can be replicated to a fully functional, secondary site. Este enfoque más caro se conoce como modelo de recuperación activa-activa o de alta disponibilidad.This more expensive approach is referred to as a high-availability, or hot-hot, recovery model.

Cada uno de los modelos anteriores reduce el RTO, lo que da lugar a una restauración más rápida de las funcionalidades del proceso de negocio.Each of the preceding models reduces the RTO, resulting in a faster restoration of business process capabilities. Sin embargo, cada modelo también supone un aumento considerable de los costos de administración de la nube.However, each model also results in significantly increased cloud management costs.

Tenga en cuenta que, además de la replicación para la alta disponibilidad, la copia de seguridad debe estar habilitada para escenarios como la eliminación accidental, los daños en los datos y los ataques de ransomware.Also, please note that, apart from replication for high-availability, backup should be enabled for scenarios such as accidental delete, data corruption and ransomware attacks.

Para más información sobre este proceso de reflexión, consulte la materia sobre operaciones de carga de trabajo.For more information about this thought process, see Workload operations discipline.

Pasos siguientesNext steps

Una vez satisfecho este componente de la línea de base de administración, el equipo puede prepararse para evitar interrupciones en sus operaciones de la plataforma y operaciones con cargas de trabajo.After this management baseline component is met, the team can look ahead to avoid outages in its platform operations and workload operations.