Résumé

Effectué

La planification et la reprise d’activité en cas de sinistre sont des éléments essentiels du fonctionnement de l’informatique, que les systèmes de l’organisation soient locaux, dans le cloud ou une combinaison des deux. Les plateformes de cloud public offrent des services permettant de sauvegarder les données critiques, de les restaurer en cas de perte, de basculer sur des systèmes secondaires quand les systèmes principaux sont défaillants et d’une façon plus générale, d’atténuer les effets des échecs et de récupérer de ceux-ci. Voici quelques-uns des points clés couverts dans ce module :

  • Dans la mesure du possible, les systèmes informatiques doivent être tolérants aux pannes. Un système à tolérance aux pannes est un système qui se comporte comme prévu, ou conformément aux attentes du contrat de niveau de service (SLA) face à des pannes.

  • Une façon d’obtenir une tolérance aux pannes est d’utiliser des méthodes réactives, comme la réplication des tâches et les points de restauration.

  • Les méthodes proactives, comme la réplication des ressources et l’équilibrage de charge, peuvent également contribuer à la tolérance aux pannes.

  • Les principales plateformes cloud offrent des services de sauvegarde qui fournissent un filet de sécurité contre la perte de données. Sauvegarde Azure est un exemple de service de sauvegarde cloud, de même qu’AWS Backup.

  • La reprise d’activité après sinistre vise à assurer la continuité des activités en redirigeant le trafic vers des systèmes secondaires quand c’est nécessaire. Les fournisseurs de services cloud, comme Amazon et Microsoft, proposent des services DRaaS (Disaster-Recovery-as-a-Service) comme AWS CloudEndure et Azure Site Recovery.

  • Les objectifs de niveau de service courants qui déterminent les plans de reprise d’activité incluent l’objectif de point de récupération (RPO), l’objectif de délai de récupération (RTO) et la période de conservation.

  • La continuité est l’application de bonnes pratiques pour parvenir à un résultat positif quand un sinistre survient. Un facteur clé de la continuité est la résilience.

  • La résilience peut être quantifiée avec des métriques telles que la tolérance aux pannes, la tolérance d’interruption et la survivabilité. Le modèle ResiliNets offre un moyen de codifier la résilience.

  • La norme internationale pour la stratégie de continuité des activités est ISO 22301. Azure utilise Azure Resiliency Framework pour la conformité à ISO 22301.

Pour qu’un système d’information puisse être résilient, les personnes qui en sont responsables doivent s’efforcer de parvenir à un idéal, qui est que les systèmes informatiques évoluent comme des êtres vivants, via l’amélioration et la supervision cohérentes par des éléments réellement vivants, et non pas robotiques. Les processus automatisés servent un objectif positif, mais ils ne remplacent pas un travail actif.