Lidar com a corrupção de dados no Microsoft 365

Um dos aspectos desafiadores da execução de um serviço de nuvem em larga escala é como lidar com a corrupção de dados, dado o grande volume de dados e sistemas independentes. A corrupção de dados pode ser causada por:

  • Bugs de aplicativo ou infraestrutura, corrompendo parte ou todo o estado do aplicativo
  • Problemas de hardware que resultam em dados perdidos ou uma incapacidade de ler dados
  • Erros operacionais humanos
  • Hackers mal-intencionados e funcionários descontentes
  • Incidentes em serviços externos que resultam em alguma perda de dados

Como maior resiliência na integridade de dados significa menos incidentes de corrupção de dados, a Microsoft criou mecanismos de proteção do Microsoft 365 para evitar que a corrupção aconteça, bem como sistemas e processos que nos permitem recuperar dados se isso acontecer. Existem verificações e processos nas várias etapas do processo de liberação de engenharia para aumentar a resiliência contra a corrupção de dados, incluindo:

  • Design do Sistema
  • Organização e estrutura de código
  • Revisão de código
  • Testes de unidade, testes de integração e testes de sistema
  • Testes/portões de fios de viagem

Nos ambientes de produção do Microsoft 365, a replicação por pares entre datacenters garante que sempre haja várias cópias ao vivo de qualquer dado. Imagens e scripts padrão são usados para recuperar servidores perdidos e os dados replicados são usados para restaurar dados do cliente. Em Exchange Online, cada caixa de correio é hospedada em DAGs (Grupos de Disponibilidade de Banco de Dados) e replicada para datacenters geograficamente separados na mesma região. Cada banco de dados de caixa de correio tem quatro cópias distribuídas entre datacenters dentro do DAG: uma cópia ativa, duas cópias atualizadas e uma cópia defasada de 7 dias usada no raro caso de corrupção lógica catastrófica. Para o SharePoint e o OneDrive, os arquivos são gravados simultaneamente em uma região primária e secundária do datacenter. Vários tipos de somas de verificação são armazenados em metadados em um local separado do que os arquivos correspondentes e são usados para garantir a integridade dos dados em todos os estágios do ciclo de vida dos dados.

Devido às verificações e processos internos de resiliência de dados, a Microsoft mantém backups apenas da documentação do sistema de informações do Microsoft 365 (incluindo documentação relacionada à segurança), usando a replicação interna no SharePoint Online e nossa ferramenta interna de repositório de código, Source Depot. A documentação do sistema é armazenada no SharePoint Online e o Source Depot contém imagens do sistema e do aplicativo. O SharePoint Online e o Source Depot usam versões e são replicados quase em tempo real.

Recursos