Continuidade de negócios de datacenter e recuperação de desastres

Os desastres são imprevisíveis, mas os datacenters e a equipe de operações da Microsoft se preparam para desastres para fornecer continuidade das operações caso ocorram eventos inesperados. A arquitetura resiliente e os planos de continuidade testados atualizados atenuam possíveis danos e promovem uma recuperação rápida de operações de datacenter. Os planos de gerenciamento de crise fornecem clareza sobre funções, responsabilidades e atividades de mitigação antes, durante e após uma crise. As funções e contatos definidos nesses planos facilitam o escalonamento efetivo da cadeia de comando durante situações de crise.

Resiliência de negócios

Em Microsoft Cloud Operations and Innovation (CO+I) Business Continuity Program, datacenters são necessários para testar a operação contínua e a resposta a eventos de crise. Cada datacenter gerenciado da Microsoft tem seu próprio plano de continuidade de negócios, criado usando a experiência de assunto principal do Centro de Resiliência co+I de Operações de Excelência e Datacenter para garantir que o contexto específico do site seja fatorado em preparação de emergência. Esses planos descrevem funções, responsabilidades, procedimentos de segurança da equipe, critérios de notificação, etapas de escalonamento e listas de verificação para diferentes cenários de desastre.

A função resiliência da organização co+I da Microsoft é governada pelo programa Enterprise Gerenciamento de Continuidade de Negócios e segue as políticas e padrões Enterprise de negócios. O desempenho do programa é revisado periodicamente pelo Conselho de Continuidade dos Negócios, pela liderança departacional e, por fim, pela Equipe de Liderança Sênior da Microsoft.

Gerenciamento de crise e resposta pandemia

O Programa de Gerenciamento de Crise é uma parte integrante da resposta da Microsoft aos principais eventos devido à sua presença global. O Plano de Gerenciamento de Crise do Datacenter da Microsoft baseia-se em práticas recomendadas do setor e inclui os componentes críticos necessários para permitir uma abordagem tática para responder aos principais eventos. Além disso, o Centro de Resiliência co+I de Excelência foi desenvolvido e continua a manter um Plano de Doença Pandemia e Contagiosa que é usado para responder a infecções que podem ter um impacto operacional. Como parte de nossa resposta pandemia, a equipe de suporte à resiliência fornece inteligência de doença local crítica e em tempo há tempo para a liderança da Microsoft baseada em Redmond para facilitar uma estratégia de mitigação abrangente.

A Microsoft estabeleceu Enterprise uma estrutura de Gerenciamento de Continuidade de Negócios (EBCM) em toda a organização que serve como uma diretriz para desenvolver o Programa de Continuidade de Negócios em toda a empresa. O programa inclui Política de Continuidade de Negócios, Diretrizes de Implementação, Análise de Impacto nos Negócios (BIA), Avaliação de Risco, Análise de Dependência e procedimentos para monitorar e melhorar o programa. Enterprise A resiliência Office gerencia o relatório de governança e desempenho na Microsoft. O programa de Resiliência CO+I é coordenado por meio do Centro de Resiliência co+I de excelência para garantir que o programa adera a uma visão e uma missão coerentes a longo prazo e é consistente com padrões, métodos, políticas e métricas do programa empresarial. O Centro de Resiliência de CO+I estabeleceu uma série de Padrões projetados para fornecer governança adicional à organização co+I.

Os Planos de Resiliência de Tecnologia CO+I (TRPs) destinam-se a vários Grupos de Engenharia no CO+I para a recuperação de incidentes de alta gravidade ou desastres para ajudar a garantir que nossa tecnologia crítica permaneça disponível.

O Plano de Resiliência empresarial (BRP) e o TRP incluem escopo e dependências aplicáveis para os serviços, procedimentos de restauração e comunicações com a equipe de Gerenciamento de Incidentes. O BRP e o TRP são revisados e aprovados pelo menos anualmente por proprietários de planos dedicados e disponibilizados para todos os usuários aplicáveis. Os planos são testados de acordo com o cronograma de testes definido como parte dos padrões aplicáveis.

Programa de Resiliência

A Microsoft definiu o BRP para servir como um guia para responder, recuperar e retomar operações durante um evento adverso grave. O BRP abrange os principais funcionários, recursos, serviços e ações necessárias para continuar processos e operações comerciais críticos. O desenvolvimento do BRP baseia-se nas diretrizes recomendadas do Enterprise resiliência Office.

No escopo desse plano estão os processos comerciais críticos da Microsoft, definidos conforme necessário dentro de 24 horas ou menos. Esses processos são determinados durante uma BIA, na qual a Microsoft estimou possíveis impactos operacionais e financeiros se não puderam executar um processo e determinaram o RTO (Objetivo de Tempo de Recuperação) e o Objetivo do Ponto de Recuperação (RPO). Após a BIA, uma Análise de Dependência Não Técnica é realizada para determinar as pessoas, aplicativos, registros vitais e requisitos de usuário específicos necessários para executar o processo.

A Microsoft testa periodicamente o BRP para avaliar sua eficácia, usabilidade e identificar áreas onde os riscos podem ser eliminados ou atenuados. Quando aplicável, terceiros estão envolvidos no teste se houver dependências associadas a eles. Os resultados do teste são documentados, validados, aprovados pela equipe apropriada. Essas informações são usadas para criar e priorizar itens de trabalho.

Programa de Resiliência do Datacenter

Como parte do programa resiliência do datacenter, a equipe do Centro de Resiliência co+I de Excelência desenvolve os métodos, políticas e métricas que abordam os requisitos de segurança de informações necessários para a continuidade dos negócios da organização. A equipe desenvolve TRPs para operações contínuas de processos críticos e recursos necessários se ocorrerem interrupções.