Exchange Online resiliência de dados no Microsoft 365

Artigo
05/09/2024

Importante

À medida que continuamos investindo de diferentes maneiras para preservar o conteúdo da caixa de correio, estamos anunciando a aposentadoria do In-Place Holds no Centro de Administração do Exchange (EAC) em Exchange Online. A partir de 1º de julho de 2020, você não poderá criar novas In-Place Holds. Mas você ainda poderá gerenciar In-Place Holds no EAC ou usando o cmdlet Set-MailboxSearch no Exchange Online PowerShell. No entanto, a partir de 1º de outubro de 2020, você não poderá gerenciar In-Place Holds. Você só poderá removê-los no EAC ou usando o cmdlet Remove-MailboxSearch . O uso de In-Place Holds em implantações híbridas do Exchange Server e exchange ainda terá suporte. Para obter mais informações sobre a aposentadoria do In-Place Holds em Exchange Online, consulte Aposentadoria de ferramentas de descoberta eletrônica herdadas.

Um In-Place Hold preserva todo o conteúdo da caixa de correio, incluindo itens excluídos e versões originais de itens modificados. Todos os itens da caixa de correio são retornados em uma pesquisa de Descoberta eletrônica In-loco. Quando você coloca um In-Place Segurar na caixa de correio de um usuário, o conteúdo na caixa de correio de arquivo correspondente (se estiver habilitado) também é colocado em espera e retornado em uma pesquisa de descoberta eletrônica.

Há dois tipos de corrupção que podem afetar um banco de dados do Exchange: corrupção física, que normalmente é causada por problemas de hardware (em particular hardware de armazenamento) e corrupção lógica, que ocorre devido a outros fatores. Geralmente, há dois tipos de corrupção lógica que podem ocorrer dentro de um banco de dados do Exchange:

Corrupção lógica do banco de dados – a verificação da página de banco de dados corresponde, mas os dados na página estão errados logicamente. Isso pode ocorrer quando o mecanismo de banco de dados (o ESE (Mecanismo de Armazenamento Extensível)) tenta gravar uma página de banco de dados e, mesmo que o sistema operacional retorne uma mensagem de sucesso, os dados nunca são gravados no disco ou são gravados no lugar errado. Isso é conhecido como liberação perdida. O ESE inclui vários recursos e proteções projetados para evitar a corrupção física de um banco de dados e outros cenários de perda de dados. Para evitar que as liberações perdidas percam dados, o ESE inclui um mecanismo de detecção de liberação perdida no banco de dados, juntamente com um recurso (restauração de página única) para corrigi-los.
Armazenar corrupção lógica – os dados são adicionados, excluídos ou manipulados de uma maneira que o usuário não espera. Esses casos são causados por aplicativos de terceiros. Geralmente é corrupção no sentido de que o usuário a vê como corrupção. O repositório do Exchange considera a transação que produziu o dano lógico uma série de operações MAPI válidas. Os recursos de Retenção In-Place no Exchange Online fornece proteção contra corrupção lógica do armazenamento (porque impede que o conteúdo seja excluído permanentemente por um usuário ou um aplicativo).

Exchange Online executa várias verificações de consistência em arquivos de log replicados durante a inspeção de log e a reprodução de log. Essas verificações de consistência impedem que a corrupção física seja replicada pelo sistema. Por exemplo, durante a inspeção de log, há uma integridade física marcar que verifica o arquivo de log e valida que a soma de verificação registrada no arquivo de log corresponde à soma de verificação gerada na memória. Além disso, o cabeçalho do arquivo de log é examinado para garantir que a assinatura do arquivo de log registrada no cabeçalho de log corresponda à do arquivo de log. Durante a reprodução de log, o arquivo de log passa por um novo escrutínio. Por exemplo, o cabeçalho do banco de dados também contém a assinatura de log que é comparada com a assinatura do arquivo de log para garantir que eles correspondam.

A proteção contra a corrupção de dados de caixa de correio em Exchange Online é obtida usando o Exchange Native Data Protection, uma estratégia de resiliência que aproveita a replicação no nível do aplicativo em vários servidores e vários datacenters, juntamente com outros recursos que ajudam a proteger os dados de serem perdidos devido à corrupção ou outros motivos. Esses recursos incluem recursos nativos gerenciados pela Microsoft ou pelo próprio aplicativo Exchange Online, como:

Grupos de disponibilidade de dados
Correção de bit único
Verificação de banco de dados online
Detecção de Descarga Perdida
Restauração de Página Única
Serviço de Replicação de Caixa de Correio
Verificações de arquivo de log
Implantação no Sistema de Arquivos Resilientes

Para obter mais informações sobre os recursos nativos listados anteriormente, selecione os hiperlinks e consulte o seguinte para obter informações adicionais e para obter detalhes sobre itens sem hiperlinks. Além desses recursos nativos, Exchange Online também inclui recursos de resiliência de dados que os clientes podem gerenciar, como:

Disponibilidade do banco de dados Grupos

Cada banco de dados de caixa de correio no Microsoft 365 é hospedado em um DAG (grupo de disponibilidade de banco de dados) e replicado para datacenters geograficamente separados na mesma região. A configuração mais comum é quatro cópias de banco de dados em quatro datacenters; no entanto, algumas regiões têm menos datacenters (os bancos de dados são replicados para três datacenters na Índia e dois datacenters na Austrália e no Japão). Mas, em todos os casos, cada banco de dados de caixa de correio tem quatro cópias distribuídas em vários datacenters, garantindo assim que os dados da caixa de correio sejam protegidos contra falhas de software, hardware e até datacenter.

Dessas quatro cópias, três delas são configuradas como altamente disponíveis. A quarta cópia é configurada como uma cópia de banco de dados defasada. A cópia de banco de dados defasada não se destina à recuperação individual da caixa de correio ou à recuperação de item da caixa de correio. Seu objetivo é fornecer um mecanismo de recuperação para o raro evento de corrupção lógica catastrófica em todo o sistema.

Cópias de banco de dados defasadas no Exchange Online são configuradas com um tempo de atraso de reprodução de arquivo de log de sete dias. Além disso, o Exchange Replay Lag Manager está habilitado para fornecer reprodução de arquivo de log dinâmico para cópias defasadas para permitir cópias de banco de dados defasadas para auto-reparar e gerenciar o crescimento de arquivos de log. Embora cópias de banco de dados defasadas sejam usadas em Exchange Online, é importante entender que elas não são um backup ponto a tempo garantido. Cópias de banco de dados defasadas em Exchange Online têm um limite de disponibilidade, normalmente em torno de 90%, devido a períodos em que o disco que contém uma cópia defasada é perdido devido a uma falha no disco, a cópia defasada se torna uma cópia altamente disponível (devido à reprodução automática), bem como os períodos em que a cópia de banco de dados defasada está recompilando a fila de reprodução de log.

Resiliência de transporte

Exchange Online inclui dois recursos primários de resiliência de transporte: Redundância de Sombra e Rede de Segurança. A Redundância de Sombra mantém uma cópia redundante de uma mensagem enquanto ela está em trânsito. O Safety Net mantém uma cópia redundante de uma mensagem depois que a mensagem é entregue com êxito.

Com a Redundância de Sombra, cada Exchange Online servidor de transporte faz uma cópia de cada mensagem que recebe antes de reconhecer o recebimento com êxito da mensagem para o servidor de envio. Isso torna todas as mensagens no pipeline de transporte redundantes durante o trânsito. Se Exchange Online determinar que a mensagem original foi perdida em trânsito, uma cópia redundante da mensagem será revivido.

O Safety Net é uma fila de transporte associada ao serviço de transporte em um servidor de caixa de correio. Essa fila armazena cópias de mensagens que foram processadas com êxito pelo servidor. Quando um banco de dados de caixa de correio ou falha de servidor requer a ativação de uma cópia desatualizada do banco de dados da caixa de correio, as mensagens na fila do Safety Net são automaticamente reapresentadas à nova cópia ativa do banco de dados da caixa de correio. A Rede de Segurança também é redundante, eliminando o transporte como um único ponto de falha. Ele usa o conceito de uma Rede de Segurança Primária e uma Rede de Segurança de Sombra em que, se a Rede de Segurança Primária estiver indisponível por mais de 12 horas, as solicitações de reenviamento se tornarão solicitações de reenviamento de sombras e as mensagens serão revividas da Rede de Segurança das Sombras.

As reenviações de mensagens do Safety Net são iniciadas automaticamente pelo componente do Active Manager do serviço de Replicação do Microsoft Exchange que gerencia cópias de banco de dados da caixa de correio e DAGs. Nenhuma ação manual é necessária para reenviar mensagens da Rede de Segurança.

Correção de bit único

O ESE inclui um mecanismo para detectar e resolve erros de CRC de bit único (também conhecidos como lançamentos de bit único) que são resultado de erros de hardware (e, como tal, representam corrupção física). Quando esses erros ocorrem, o ESE os corrige automaticamente e registra um evento no log de eventos.

Verificação de banco de dados online

A verificação de banco de dados online (também conhecida como soma de marcar de banco de dados) é o processo em que um ESE usa um verificador de consistência de banco de dados para ler cada página e marcar para corrupção de página. A principal finalidade é detectar corrupção física e liberações perdidas que podem não estar sendo detectadas por operações transacionais. A verificação de banco de dados também executa operações de falha pós-repositório. O espaço pode ser vazado devido a falhas e a verificação de banco de dados online encontra e recupera espaço perdido. O sistema é projetado com a expectativa de que cada banco de dados seja totalmente verificado uma vez a cada sete dias.

Detecção de Descarga Perdida

Uma liberação perdida ocorre quando uma operação de gravação de banco de dados que o subsistema/sistema operacional de disco retornou conforme concluído não foi realmente gravada em disco ou foi gravada no local errado. Incidentes de liberação perdida podem resultar em corrupção lógica de banco de dados, portanto, para evitar que liberações perdidas resultem em dados perdidos, o ESE inclui um mecanismo de detecção de liberação perdida. Como páginas de banco de dados são escritas em cópias passivas, um marcar é executado para flushes perdidos na cópia ativa. Se um flush perdido for detectado, o ESE poderá reparar o processo usando um processo de patch de página.

Restauração de Página Única

A restauração de página única, também conhecida como patching de página, é um processo automático em que páginas de banco de dados corrompidas são substituídas por cópias saudáveis de uma réplica saudável. O processo de reparo de uma página corrompida depende se a cópia do banco de dados está ativa ou passiva. Quando uma cópia de banco de dados ativo encontra uma página corrompida, ela pode copiar uma página de uma de suas réplicas, desde que a página copiada esteja atualizada. Esse processo é realizado colocando uma solicitação da página no fluxo de log, que é a base da replicação do banco de dados da caixa de correio. Assim que um réplica encontrar a solicitação de página, ele responderá enviando uma cópia da página para a cópia do banco de dados de solicitação. A restauração de página única também fornece um mecanismo de comunicação assíncrono para o ativo solicitar uma página de réplicas, mesmo que as réplicas estejam offline no momento.

No caso de corrupção em uma cópia de banco de dados passivo, incluindo uma cópia de banco de dados defasada, pois essas cópias estão sempre atrás de sua cópia ativa, é sempre seguro copiar qualquer página da cópia ativa para uma cópia passiva. Uma cópia de banco de dados passivo está por natureza altamente disponível, portanto, durante o processo de correção de página, a reprodução de logs é suspensa, mas a cópia de log continua. A cópia do banco de dados passivo recupera uma cópia da página corrompida da cópia ativa, aguarda até que o arquivo de log que atende ao requisito máximo de geração de log necessário seja copiado e inspecionado e, em seguida, remenda a página corrompida. Depois que a página foi corrigida, a reprodução de log será retomada. O processo é o mesmo para a cópia de banco de dados defasada, exceto que o banco de dados defasado reproduz primeiro todos os arquivos de log necessários para obter um estado patchable.

Serviço de Replicação de Caixa de Correio

Mover caixas de correio é uma parte fundamental do gerenciamento de um serviço de email em larga escala. Há sempre tecnologias atualizadas e atualizações de hardware e versões para lidar, portanto, ter um sistema robusto e limitado que permita que nossos engenheiros realizem esse trabalho mantendo a caixa de correio se move transparente para os usuários (certificando-se de que eles permaneçam online durante todo o processo) é fundamental e garantir que o processo se expanda graciosamente à medida que as caixas de correio ficam cada vez maiores.

O MRS (Serviço de Replicação de Caixa de Correio do Exchange) é responsável por mover caixas de correio entre bancos de dados. Durante a movimentação, a MRS executa uma marcar de consistência em todos os itens dentro da caixa de correio. Se um problema de consistência for encontrado, a MRS corrigirá o problema ou ignorará os itens corrompidos, removendo assim a corrupção da caixa de correio.

Como a MRS é um componente do Exchange Online, podemos fazer alterações em seu código para lidar com novas formas de corrupção detectadas no futuro. Por exemplo, se detectarmos um problema de consistência que a MRS não é capaz de corrigir, podemos analisar a corrupção, alterar o código MRS e corrigir a inconsistência (se entendermos como fazer).

Verificações de arquivo de log

Todos os arquivos de log de transação gerados por um banco de dados do Exchange passam por várias formas de verificação de consistência. Quando um arquivo de log é criado, a primeira coisa feita é que um padrão de bit é gravado e, em seguida, uma série de gravações de log é executada. Essa estrutura permite que Exchange Online execute uma série de verificações (liberação perdida, CRC e outras verificações) para validar cada arquivo de log conforme ele é escrito e novamente à medida que é replicado.

Implantação no Sistema de Arquivos Resilientes

Para ajudar a evitar que a corrupção ocorra no nível do sistema de arquivos, Exchange Online está sendo implantado em partições do ReFS (Sistema de Arquivos Resiliente) para fornecer recursos de recuperação aprimorados. O ReFS é um sistema de arquivos no Windows Server 2012 e posterior que foi projetado para ser mais resiliente contra a corrupção de dados, maximizando assim a disponibilidade e integridade dos dados. Especificamente, o ReFS traz melhorias na forma como os metadados são atualizados, o que oferece melhor proteção para dados e reduz casos de corrupção de dados. Ele também usa somas de verificação para verificar a integridade de dados de arquivo e metadados garantindo que a corrupção de dados seja facilmente encontrada e reparada.

Exchange Online aproveita vários benefícios do ReFS:

Mais resiliência na integridade de dados significa menos incidentes de corrupção de dados. Reduzir o número de incidentes de corrupção significa menos ressecamentos desnecessários do banco de dados.
Verificação em execução em metadados que permitem detecções de casos de corrupção mais cedo e mais deterministicamente, permitindo corrigir a corrupção de dados do cliente antes que ocorram falhas cinzentas nos volumes de dados.
Projetado para funcionar bem com conjuntos de dados grandes, petabytes e maiores, sem impacto no desempenho
Suporte para outros recursos usados por Exchange Online, como criptografia BitLocker.

Exchange Online também se beneficia de outros recursos do ReFS:

Integridade (Fluxos de Integridade) – O ReFS armazena dados de uma maneira que os protege de muitos dos erros comuns que normalmente podem causar perda de dados. O Microsoft 365 Pesquisa usa o Integrity Streams para ajudar na detecção precoce de corrupção em disco e verificações de conteúdo do arquivo. O recurso também reduz incidentes de corrupção causados por 'Gravações Rasgadas' (quando uma operação de gravação não é concluída devido a interrupções de energia, etc.).
Disponibilidade (Salvamento) – o ReFS prioriza a disponibilidade de dados. Historicamente, os sistemas de arquivos eram frequentemente suscetíveis à corrupção de dados que exigiria que o sistema fosse retirado offline para reparo. Embora raro, se a corrupção ocorrer, o ReFS implementará o salvamento, um recurso que remove os dados corrompidos do namespace em um volume dinâmico e garante que bons dados não sejam afetados negativamente por dados corruptos não reparados. Aplicar o recurso Salvar e isolar a corrupção de dados a volumes de banco de dados Exchange Online significa que podemos manter os bancos de dados não afetados em um volume corrompido íntegro entre o tempo de corrupção e a ação de reparo. Essa estrutura aumenta a disponibilidade de bancos de dados que normalmente seriam afetados por esses problemas de corrupção em disco.