Comprendre la validation de la fonctionnalité BCP

Effectué

La validation des capacités fait partie intégrante du cycle de vie ERCM. Elle implique de tester l’efficacité d’un plan de continuité d’activité (BCP) aussi bien du point de vue théorique que pratique. Chaque équipe de service teste régulièrement son BCP pour mesurer l’efficacité du plan et la préparation de l’équipe de service à l’exécution du plan. Selon les lignes directrices du programme ERCM, un examen annuel du PCA et de la validation des capacités doit avoir lieu dans les 12 mois suivant le dernier examen et inclure l’examen de la documentation à l’appui, comme la BIA et le DA.

Phase de validation des capacités : - développer des scénarios, - effectuer des validations, - documenter les résultats, - identifier les lacunes et les améliorations

Niveaux de validation

Pour valider les stratégies de résilience et de récupération contre un large éventail d’incidents potentiels, le programme ERCM définit plusieurs catégories de scénarios de test affectant les personnes, les emplacements et la technologie. Les équipes de service individuelles sont libres de définir leurs propres tests spécifiques dans les instructions du scénario de test ERCM.

Voici quelques exemples de scénarios de test :

  • Perte d’un cluster du bâtiment principal ou du campus
  • Perturbations technologiques
  • Pannes de réseau régionales
  • Perturbations tierces critiques
  • Perturbations de la main-d’œuvre
  • Événements régionaux étendus
  • Perte d’un seul centre de données
  • Cyberattaques
  • Pandémie

Dans le contexte de chaque scénario de test, Microsoft définit huit niveaux de validation, de 0, qui signifie que la capacité n’a pas été testée, à 7, qui signifie que la capacité a été entièrement activée pendant le test. Les niveaux 1 à 4 testent les capacités du plan de continuité des activités en dehors des environnements de production. Les niveaux 5 à 7 nécessitent une validation de plus en plus rigoureuse des stratégies de récupération dans les environnements de production, avec le niveau 7 nécessitant la validation du plan de récupération pour l’intégralité de l’écosystème d’applications, y compris toutes les dépendances. Le niveau de validation nécessaire pour chaque service dépend de sa criticité ; les services plus critiques faisant l’objet d’une validation plus rigoureuse. Nous mettons à la disposition des clients les résultats de validation des fonctionnalités de certains services en ligne Microsoft par le biais de rapports trimestriels disponibles sur le portail d’approbation de service.

Réponse aux incidents affectant les services

La valeur de la validation des capacités et de l’amélioration continue de la gestion de la continuité de l’activité devient évidente lorsque Microsoft doit exécuter des plans de continuité d’activité pour répondre aux incidents affectant les services. Lorsque l’ouragan Harvey s’est abattu sur le Texas, notre centre de données de San Antonio était menacé, l’équipe Exchange Online a activé le plan de continuité d’activité pour évacuer de manière proactive le trafic à partir du centre de données, afin d’éviter tout impact pour nos clients. Une fois la menace passée, le centre de données est repassé en fonctionnement normal sans incident en suivant les processus de récupération clairement définis. Ces processus étaient en place, car Exchange Online avait mis à jour et testé son plan de continuité sur la base des enseignements tirés des précédentes catastrophes naturelles afin de garantir l’efficacité du plan en cas d’urgence.

Les leçons tirées des incidents internes permettent également d’améliorer la continuité de l’activité. Lorsque le réseau d’entreprise Microsoft a rencontré une panne de DNS suite à un déploiement de stratégie de groupe incorrect, les clients ont été protégés de tout impact, car le réseau d’entreprise était isolé de nos services commerciaux dans des zones d’erreur distinctes. Cependant, les communications internes chez Microsoft ont été affectées, ce qui a rendu plus difficile la coordination en vue de résoudre l’incident. Cet incident a conduit à la création de protocoles d’état d’urgence afin d’autoriser la collaboration entre équipes chez Microsoft en cas d’incidents qui ont une incidence sur les communications internes.

En savoir plus