Descripción de la resistencia Microsoft 365

Completado

La resistencia es otro principio de diseño clave para Microsoft 365 arquitectura y diseño de servicios. Microsoft diseña y crea nuestros servicios en la nube para maximizar la confiabilidad y minimizar los efectos negativos en los clientes en caso de errores y desafíos para las operaciones normales. En lugar de basarse en estrategias de resistencia tradicionales que implican una infraestructura física compleja, Microsoft crea redundancia directamente en servicios en línea. Combinamos la infraestructura redundante con software inteligente para maximizar la resistencia de los datos, evitar tiempos de inactividad y cumplir nuestro acuerdo de nivel de servicio de disponibilidad del 99,9 %.

Resiliencia del servicio

La estrategia de resistencia de Microsoft 365 da prioridad a la resistencia del software. Esto significa que nos centramos en generar resistencia en el diseño de nuestros servicios, protegiendo contra el tiempo de inactividad del servicio, independientemente de los errores en el hardware subyacente. La resistencia del servicio permite a nuestros servicios recuperarse automáticamente de muchos tipos de errores sin afectar a la disponibilidad del servicio.

Microsoft 365 servicios implementan una serie de principios de resistencia, entre los que se incluyen:

  • Diseño del servicio activo/activo: Siempre que sea posible, nos aseguramos de que nuestros servicios estén diseñados e implementados con resistencia activa/activa. Esto significa que si se produce un error en un componente crítico del servicio, hay un componente idéntico disponible para asumir el control sin pérdida de disponibilidad.
  • Aislamiento de errores: El aislamiento de errores aumenta la resistencia del servicio al impedir que los errores de un componente provoquen errores en otros componentes. Microsoft 365 trabaja continuamente para reducir el tamaño de las zonas de error en nuestros servicios para evitar que los errores se propaguen y afecten a otros componentes del sistema. Por ejemplo, los grupos de disponibilidad de base de datos de Exchange Online limitan el impacto de los errores dentro del servicio a grupos de disponibilidad específicos.
  • Supervisión y recuperación automática: Microsoft 365 servicios emplean una variedad de mecanismos automatizados que supervisan continuamente el estado de nuestros servicios y enrutan el tráfico a clústeres de servicio óptimos. Muchos de nuestros servicios incluyen mecanismos de recuperación automática cuando se detecta un problema. Por ejemplo, Exchange Online restaura automáticamente las bases de datos de buzones de correo si detecta un error de disco que afecta a un grupo de disponibilidad.

Resiliencia de datos

La resistencia de datos complementa la resistencia del servicio al proteger la integridad y la disponibilidad de los datos en Microsoft 365 servicios. Microsoft 365 resistencia de datos se centra en garantizar que los datos críticos del cliente permanecen disponibles y sin modificar en caso de errores inesperados. Para ello, Microsoft 365 servicios implementan los siguientes principios de resistencia de datos:

  • Importancia de los datos: Nuestros servicios están diseñados para proteger los datos críticos de los clientes. Para ello, clasificamos los datos procesados por nuestros sistemas como críticos o no críticos. Los datos no críticos, como si se leyó un mensaje, se pueden quitar en escenarios de error poco frecuentes. Los datos críticos, como los datos del cliente, están protegidos contra la pérdida durante los escenarios de error.
  • Redundancia de datos: Nuestros servicios usan redundancia de almacenamiento local y redundancia geográfica para replicar copias de los datos del cliente en diferentes zonas de error. Si los datos están dañados o perdidos en una zona de error, se puede acceder a ellos en otra zona de error sin pérdida de disponibilidad.
  • Supervisión pormenorizada y recuperación automatizada: Nuestros sistemas supervisan la integridad de los datos del cliente y restauran automáticamente los datos dañados. Por ejemplo, Exchange Online supervisa los daños en los datos en varios niveles y restaura automáticamente las bases de datos o los buzones que experimentan daños.
  • Protección contra la pérdida accidental: la mayoría de los resultados de la pérdida de datos son consecuencia de las acciones de los clientes. Microsoft 365 proporciona a los clientes herramientas para recuperar datos eliminados o modificados accidentalmente en Exchange Online y SharePoint Online.

Resistencia de red

Microsoft posee y opera una de las redes troncales más grandes del mundo, conectando cientos de centros de datos en 54 regiones globales. Nuestra red es compatible con cientos de miles de kilómetros de fibra privada para proporcionar una disponibilidad casi perfecta, alta capacidad y flexibilidad de red en todo el mundo.

Nuestra red de centros de datos de Microsoft está diseñada teniendo en cuenta la proximidad a nuestros clientes y utiliza cientos de nodos perimetrales para mantener la disponibilidad del servicio. La arquitectura de red incluye interconexiones directas y varias rutas de acceso de red. Nuestros servicios aprovechan esta redundancia para enrutar automáticamente el tráfico en torno a errores con el fin de mejorar la calidad del servicio. Además, nuestra red nos proporciona control directo de la capacidad de la red y usamos redes definidas por software para administrar de forma proactiva el tráfico de red a escala para maximizar el rendimiento y la resistencia.

Responsabilidades y dependencias compartidas

En entornos de nube, la resistencia es una responsabilidad compartida entre el proveedor de la nube y el cliente. Aunque Microsoft 365 se centra en la resistencia de sus servicios y su red, los clientes deben tener en cuenta sus responsabilidades y dependencias para garantizar la disponibilidad de los servicios.

Las responsabilidades del cliente para la resistencia varían en función del producto de Microsoft 365 específico y de la configuración específica del cliente, pero a menudo incluyen:

  • Mantenimiento de licencias para suscripciones de Microsoft 365.
  • Mantener la conectividad de red adecuada desde dispositivos de usuario final.
  • Entrenar a los usuarios para que comprendan las directivas de retención y recuperación, y para que usen las características de retención.
  • Iniciando la recuperación de datos dentro de los tiempos de retención del servicio para los servicios pertinentes.
  • Administrar y mantener los directorios locales.
  • Revisar y resolver errores de Sincronización de Azure AD.
  • Desarrollar y adoptar directivas de contingencia (por ejemplo, configurar cuentas de acceso de administrador de emergencia).
  • Administración y garantía de la conectividad y funcionalidad de los HSM de los clientes

Más información