Protección y recuperación en la administración de la nube

Antes de prepararse para una posible interrupción de la carga de trabajo, los equipos de administración en la nube deben asegurarse primero de que cumplen los requisitos de:

A medida que planean, los equipos deben comenzar con una suposición de que algo fallará cuando se produzca un desastre. La preparación ante las interrupciones permite a los equipos detectar errores antes y recuperarse más rápidamente. El enfoque de esta materia se centra en los pasos siguientes que hay que tomar inmediatamente después de un error del sistema. ¿Cómo se protegen las cargas de trabajo para que se puedan recuperar rápidamente cuando se produce una interrupción?

Ninguna solución técnica puede ofrecer de forma coherente un Acuerdo de Nivel de Servicio que garantice un tiempo de actividad del 100 %. Aquellas soluciones con las arquitecturas más redundantes afirman que pueden ofrecer un tiempo de actividad de "seis nueves", es decir, del 99,9999 %. Pero incluso estas soluciones dejan de funcionar durante 31,6 segundos como mínimo cada año. Es raro que una solución justifique la gran inversión operativa constante que se necesita para alcanzar un tiempo de actividad de "seis nueves".

Traslado de las conversaciones sobre protección y recuperación

Las cargas de trabajo que impulsan las operaciones empresariales constan de:

  • applications
  • datos
  • Máquinas virtuales
  • Otros recursos

Cada recurso puede requerir su propio enfoque de protección y recuperación. El principal objetivo de esta materia consiste en establecer un compromiso coherente dentro de la base de referencia de administración, que puede proporcionar un punto de partida para las conversaciones empresariales.

Como mínimo, los equipos de administración de la nube deben crear un enfoque de línea de base para cada recurso, con un compromiso claro de recuperación rápida y pérdida mínima de datos.

Objetivos de tiempo de recuperación (RTO)

El objetivo de tiempo de recuperación es la cantidad de tiempo que debe tardar cualquier sistema en recuperar su estado previo a un desastre. Esto incluye el tiempo necesario para:

  • Restaurar la funcionalidad mínima en máquinas virtuales y aplicaciones
  • Restaurar los datos requeridos por las aplicaciones.

En términos empresariales, el RTO representa la cantidad de tiempo que los procesos empresariales estarán fuera de servicio. En el caso de cargas de trabajo críticas, esta variable debe ser relativamente baja para permitir que los procesos se reanuden rápidamente. Para aquellas cargas de trabajo de prioridad baja, es posible que un nivel estándar de RTO no afecte notablemente al rendimiento de la empresa.

Una empresa debe crear una línea de base de administración que establezca un RTO estándar para cargas de trabajo no críticas. Posteriormente, la empresa puede usar esa línea de base como una manera de justificar inversiones adicionales en los tiempos de recuperación.

Objetivos de punto de recuperación (RPO)

En la mayoría de los sistemas de administración en la nube, alguna forma de protección de datos captura y almacena datos periódicamente. El punto de recuperación hace referencia a la última vez que se capturaron los datos. Cuando se produce un error en un sistema, solo se puede restaurar al punto de recuperación más reciente.

El objetivo de punto de recuperación se mide desde el punto de recuperación más reciente hasta una interrupción. Si el objetivo de punto de recuperación se mide en horas, un error del sistema da como resultado la pérdida de los datos de las horas comprendidas entre el último punto de recuperación y la interrupción. Si el objetivo de punto de recuperación se mide en días, un error del sistema da como resultado la pérdida de los datos de los días comprendidos entre el último punto de recuperación y la interrupción. En teoría, un RPO de 1 día dará lugar a la pérdida de todas las transacciones del día en que se produjo el error.

En el caso de los sistemas críticos, medir un RPO en minutos o segundos puede ayudar a evitar la pérdida de ingresos o beneficios. Sin embargo, un RPO más corto suele provocar un aumento de los costos de administración. Para ayudar a minimizar estos costos, una empresa debe crear una línea de base de administración que se centre en el RPO más largo aceptable. La empresa puede posteriormente reducir el RPO de las plataformas o cargas de trabajo específicas que justifiquen una mayor inversión.

Protección y recuperación de cargas de trabajo

La mayoría de las cargas de trabajo de un entorno de TI respaldan un proceso empresarial o técnico concreto. Los sistemas que no tienen un impacto sistémico en las operaciones empresariales a menudo no justifican el aumento de las inversiones que se necesita para una recuperación rápida de los sistemas o la reducción al mínimo de la pérdida de datos. Al establecer una línea de base, una empresa puede averiguar qué nivel de soporte de recuperación necesita a un precio que pueda administrar de forma coherente. El conocimiento de esto ayuda a las partes interesadas de la empresa a evaluar el valor de una mayor inversión en los procesos de recuperación.

Para la mayoría de los equipos de administración de la nube, una base de referencia mejorada con compromisos específicos de RPO/RTO para varios recursos, genera el escenario más favorable para establecer compromisos empresariales mutuos. En las secciones siguientes se describen algunas líneas de base mejoradas comunes que permiten a la empresa agregar fácilmente funcionalidades de protección y recuperación mediante un proceso repetible.

Protección y recuperación de datos

Los datos son posiblemente el recurso más valioso en la economía digital. La pérdida de los datos que impulsa una carga de trabajo de producción conduce a pérdidas en ingresos o beneficios. La capacidad para proteger y recuperar datos de forma más eficaz es la línea de base mejorada más común. Se recomienda que los equipos de administración de la nube ofrezcan un nivel de base de referencia de administración mejorada que admita las plataformas de datos comunes.

Antes de que los equipos de administración de la nube implementen operaciones de plataforma, es habitual que respalden las operaciones mejoradas de una plataforma de datos como servicio (PaaS). Por ejemplo, es fácil que un equipo de administración de la nube aplique una mayor frecuencia de copias de seguridad o de replicación en varias regiones para las soluciones de Azure SQL Database o Azure Cosmos DB. Esto permite que el equipo de desarrollo pueda mejorar fácilmente el RPO mediante la modernización de sus plataformas de datos.

Para obtener más información acerca de este proceso de reflexión, consulte la materia sobre operaciones de plataforma.

Protección y recuperación de máquinas virtuales

La mayoría de las cargas de trabajo dependen en mayor o menor medida de las máquinas virtuales que hospedan diversos aspectos de la solución. Una empresa debe recuperar algunas máquinas virtuales rápidamente para que la carga de trabajo admita sus procesos después de un error del sistema.

Cada minuto de tiempo de inactividad de esas máquinas virtuales puede provocar una pérdida de ingresos o una menor rentabilidad. Cuando el tiempo de inactividad de la VM tiene un impacto directo en el rendimiento fiscal de la empresa, el RTO pasa a ser algo muy importante. Los equipos de administración en la nube pueden recuperar máquinas virtuales rápidamente mediante la replicación en un sitio secundario y el uso de la recuperación automatizada, un modelo que se conoce como un modelo de recuperación frecuente-normal. Los equipos también pueden replicar máquinas virtuales en un sitio funcional secundario en un enfoque conocido como modelo de alta disponibilidad o frecuente-frecuente. Este último es más caro, pero ofrece el estado de recuperación más alto.

Cada uno de estos modelos reduce el RTO, lo que ayuda a las empresas a restaurar sus funcionalidades empresariales con mayor rapidez. Sin embargo, cada modelo también supone un aumento considerable de los costos de administración de la nube.

Tenga en cuenta que, además de la replicación para la alta disponibilidad, la copia de seguridad debe estar habilitada para escenarios:

  • Eliminación por error
  • daño en datos
  • Ataques de ransomware

Para más información sobre este proceso de reflexión, consulte la materia sobre operaciones de carga de trabajo.

Pasos siguientes

Una vez satisfecho este componente de la línea de base de administración, el equipo puede prepararse para evitar interrupciones en sus operaciones de la plataforma y operaciones con cargas de trabajo.