Entender a resiliência do Microsoft 365

6 minutos

A resiliência é outro princípio de design fundamental para o design de arquitetura e serviço do Microsoft 365. A Microsoft projeta e cria nossos serviços de nuvem para maximizar a confiabilidade e minimizar os efeitos negativos sobre os clientes em caso de falhas e desafios para operações normais. Em vez de depender de estratégias tradicionais de resiliência que envolvem infraestrutura física complexa, a Microsoft cria redundância diretamente no serviços online. Combinamos infraestrutura redundante com software inteligente para maximizar a resiliência de dados, evitar tempo de inatividade e atender ao nosso SLA de 99,9% de disponibilidade.

Resiliência de serviço em nuvem

A estratégia de resiliência do Microsoft 365 prioriza a resiliência do software. Isso significa que nos concentramos na criação de resiliência no design de nossos serviços, protegendo contra o tempo de inatividade do serviço, independentemente das falhas no hardware subjacente. A resiliência de serviço permite que nossos serviços se recuperem automaticamente de muitos tipos de falhas e falhas sem afetar a disponibilidade do serviço.

O serviços do Microsoft 365 implementam vários princípios de resiliência, incluindo:

Design de serviço Ativo/Ativo: sempre que possível, garantimos que nossos serviços sejam projetados e implantados com resiliência Ativa/Ativa. Isso significa que, se um componente crítico do serviço falhar, um componente idêntico estará disponível para assumir o controle sem perda de disponibilidade.
Isolamento de falha: o isolamento de falha aumenta a resiliência do serviço, impedindo que falhas em um componente causem falha em outros componentes. O Microsoft 365 trabalha continuamente para reduzir o tamanho das zonas de falha em nossos serviços para evitar que falhas se espalham e afetem outros componentes do sistema. Por exemplo, os Grupos de Disponibilidade de Banco de Dados do Exchange Online limitam o impacto de falhas dentro do serviço a grupos de disponibilidade específicos.
Monitoramento e autorrecuperação: Os serviços do Microsoft 365 empregam uma variedade de mecanismos automatizados que monitoram continuamente a integridade de nossos serviços e roteiam o tráfego para clusters de serviço ideais. Muitos de nossos serviços incluem mecanismos de autorrecuperação quando um problema é detectado. Por exemplo, o Exchange Online restaura automaticamente bancos de dados de caixa de correio se detecta uma falha de disco que afeta um grupo de disponibilidade.

Resiliência de dados

A resiliência de dados complementa a resiliência do serviço, protegendo a integridade e a disponibilidade dos dados dos serviços Microsoft 365. A resiliência de dados do Microsoft 365 se concentra em garantir que os dados críticos do cliente permaneçam disponíveis e não modificados em caso de falhas e falhas inesperadas. Para fazer isso, os serviços do Microsoft 365 implementam os seguintes princípios de resiliência de dados:

Importância dos dados: nossos serviços foram projetados para proteger dados críticos do cliente. Para fazer isso, categorizaremos os dados processados por nossos sistemas como críticos ou não críticos. Dados não críticos, como se uma mensagem foi lida, podem ser descartados em cenários de falha raras. Dados críticos, como dados do cliente, são protegidos contra perda durante cenários de falha.
Redundância de dados: nossos serviços usam redundância de armazenamento local e redundância geográfica para replicar cópias de dados do cliente em diferentes zonas de falha. Se os dados forem corrompidos ou perdidos em uma zona de falha, eles poderão ser acessados em outra zona de falha sem perda de disponibilidade.
Monitoramento granular e recuperação automatizada: nossos sistemas monitoram a integridade dos dados do cliente e restauram automaticamente os dados corrompidos. Por exemplo, o Exchange Online monitora dados corrompidos em vários níveis e restaura automaticamente bancos de dados ou caixas de correio que têm corrupção.
Proteção contra perda acidental: a maioria dos resultados de perda de dados de ações do cliente. O Microsoft 365 fornece aos clientes ferramentas para recuperar dados excluídos ou modificados acidentalmente no Exchange Online e no SharePoint Online.

Resiliência de rede

A Microsoft possui e opera uma das maiores redes de backbone do mundo, conectando centenas de datacenters em 54 regiões globais. Nossa rede tem suporte em centenas de milhares de quilômetros de Fibra Privada para fornecer disponibilidade quase perfeita, alta capacidade e flexibilidade de rede em todo o mundo.

Nossa rede de datacenters da Microsoft foi projetada com proximidade com nossos clientes em mente e utiliza centenas de nós de borda para manter a disponibilidade do serviço. A arquitetura de rede inclui interconexões diretas e vários caminhos de rede. Nossos serviços aproveitam essa redundância para rotear automaticamente o tráfego em torno de falhas para melhorar a qualidade do serviço. Além disso, nossa rede nos dá controle direto da capacidade da rede e usamos a Rede Definida pelo Software para gerenciar proativamente o tráfego de rede em escala para maximizar o desempenho e a resiliência.

Responsabilidades e dependências compartilhadas

Em ambientes de nuvem, a resiliência é uma responsabilidade compartilhada entre o provedor de nuvem e o cliente. Embora o Microsoft 365 se concentre na resiliência de seus serviços e rede, os clientes precisam estar cientes de suas responsabilidades e dependências para garantir a disponibilidade dos serviços.

As responsabilidades do cliente pela resiliência variam de acordo com o produto específico do Microsoft 365 e a configuração específica do cliente, mas geralmente incluem:

A manutenção de licenças para assinaturas do Microsoft 365.
A manutenção da conectividade de rede adequada de dispositivos do usuário final.
O treinamento dos usuários para entender as políticas de retenção e recuperação e usar os recursos de retenção.
Iniciar a recuperação de dados dentro dos tempos de retenção do serviço para serviços relevantes.
Gerenciar e manter quaisquer diretórios locais.
Revisar e resolver erros de Azure AD Sync.
Desenvolver e adotar políticas de contingência (por exemplo, configurar contas de acesso de administrador de emergência).
Gerenciar e garantir a conectividade e a funcionalidade dos HSMs do cliente

Saiba mais

Continuar