Executar um teste de recuperação após desastre

Concluído

Nesta unidade, você aprenderá sobre os exercícios de desastre do Site Recovery: o que você precisa considerar e como executar um teste para verificar se a configuração está correta.

Você pode usar exercícios de recuperação de desastres (DR) para testar a capacidade da sua organização de se recuperar de uma interrupção sem afetar nenhum serviço de produção.

No exercício anterior, você concluiu a configuração do Azure Site Recovery e agora precisa testar sua replicação de infraestrutura. Teste a configuração ao executar um teste de DR. O Azure Site Recovery permite que você execute esses exercícios com segurança, para que isso não afete seu ambiente de produção. Você também executará alguns testes de garantia de qualidade na configuração para garantir que sua solução de DR esteja funcionando.

O que é um teste de recuperação após desastre?

O teste de recuperação após desastre é uma forma de verificar se configurou corretamente a solução. O exercício deve dar a você e à sua empresa a confiança de que seus dados e serviços estão disponíveis mesmo se um desastre acontecer. Normalmente, as organizações definem um RTO (Recovery Time Objetive, objetivo de tempo de recuperação), que indica quanto tempo levará para recuperar a infraestrutura. Sua empresa também deve definir um RPO (Recovery Point Objetive, objetivo de ponto de recuperação), que determina a quantidade de perda de dados aceitável em função do tempo. Por exemplo, se o RPO da sua empresa for um dia, você precisará criar um backup de todos os seus dados todos os dias. Você também precisará garantir que leva menos de um dia para restaurar esse backup.

A screenshot that shows the breakdown of failover tests that have been run.

Para garantir que executamos os nossos testes de recuperação após desastre, o Site Recovery indica-nos para os executar no dashboard do Site Recovery.

Porque é que deve executar um teste de DR?

Um drill de DR é vital para garantir que a solução implementada atenda aos requisitos de continuidade de negócios e recuperação de desastres (BCDR) e para garantir que a replicação funcione adequadamente. Seu drill de DR, combinado com RTO e RPO, deve ser testado minuciosamente para garantir que a replicação, o failover e a recuperação ocorram no período de tempo necessário.

Por exemplo, vamos supor que seu RTO seja de uma hora e o RPO de seis horas. Se for feita uma cópia de segurança dos sistemas a cada hora, trata-se de uma hora de perda de dados mais uma hora para recuperar os sistemas.

Imagine que o tempo de recuperação real é de cinco horas. Seus sistemas estão agora perto de estar mais de seis horas desatualizados, o que significa que você estará violando o objetivo de RPO BCDR. Testar o tempo real que se leva a recuperar de falhas pode dar-lhe a confiança de que os sistemas seguem os planos de BCDR.

Ativação pós-falha de teste de máquinas virtuais individuais

Um teste de failover permite simular um desastre e ver seus efeitos. Você pode iniciar um teste de failover no painel Recuperação de Site ou diretamente no menu de recuperação de desastres em uma VM específica. Vai começar por escolher um ponto de recuperação. Pode escolher o último ponto processado, o ponto mais recente consistente com a aplicação ou um ponto de recuperação personalizado.

Criar um teste de failover

Crie uma rede virtual isolada para que sua infraestrutura de produção não seja afetada. Para o fazer, siga estes passos:

  1. Abra a VM de destino denominada registros de pacientes. Uma maneira fácil de encontrar isso é filtrar todos os recursos para mostrar apenas Tipo == Máquina virtual. Selecione os registros dos pacientes na lista de resultados.

  2. No menu de recursos, role até Operações e selecione Recuperação de desastres.

    Screenshot that shows the Operations' disaster recovery option for a selected VM.

  3. É apresentado um novo painel Itens replicados. Selecione Atualizar até ver Protegido no campo de status. Em seguida, na barra de menu superior, selecione Test Failover.

    Screenshot that shows the test failover button for a selected VM.

  4. Quando a validação for bem-sucedida, selecione sua rede virtual no menu suspenso Rede virtual do Azure e selecione o botão Testar failover. Essa opção executa um failover de teste da VM e permite acompanhar seu progresso através da página de trabalhos de Recuperação de Site selecionando o ícone Notificações e selecionando o link Iniciando a tarefa para executar failover de teste de máquina virtual.

  5. Após a conclusão, a VM com failover aparece no portal em Máquinas Virtuais na região de recuperação. Em seguida, pode verificar se a VM está em execução, se está dimensionada e ligada corretamente, e se está a espelhar a VM de origem, mas numa região diferente do Azure.

  6. Depois de validar que tudo funcionou conforme o esperado, você pode excluir a VM replicada selecionando Failover de teste de limpeza no painel Recuperação de desastres . Neste ponto, recomendamos adicionar notas sobre o resultado do teste. Marque a caixa ao lado de Teste concluído para excluir a máquina virtual de failover de teste e selecione OK.

Ativação pós-falha flexível de várias máquinas virtuais

O Site Recovery dá-lhe a flexibilidade de executar um cenário de teste de recuperação após desastre completo para todas as nossas VMs. Pode criar planos de recuperação que incluam uma ou mais das VMs. As ativações pós-falha são executáveis quantas vezes desejar e permitem que uma política flexível teste diferentes combinações de infraestrutura.

Screenshot that shows a test failover dashboard used to track the failover job execution.

Assim como o teste das VMs únicas, a mesma limpeza de teste está disponível para todos os elementos incluídos no plano de recuperação.

Screenshot that shows the option to clean up a test failover.

Diferença entre uma ativação pós-falha de teste e de produção

Executar uma ativação pós-falha de produção no Site Recovery é semelhante a uma ativação pós-falha de teste. Há algumas exceções, sendo a primeira o facto de a opção Ativação pós-falha estar selecionada, em vez de Ativação pós-falha de teste. Pode optar por encerrar a VM de origem antes de iniciar a ativação pós-falha para que não se perca nenhum dado durante a troca. O Site Recovery não limpa o ambiente de origem após a conclusão da ativação pós-falha.

Quando a ativação pós-falha for concluída, verifique se a VM está a funcionar como esperado. A Recuperação de Site permite alterar o ponto de recuperação neste estágio. Se estiver satisfeito com o funcionamento da ativação pós-falha, irá Consolidar a ativação pós-falha. O Site Recovery exclui todos os pontos de recuperação da VM de origem e conclui o failover. Com a infraestrutura e dados replicados na região secundária, tem de ter em atenção que a nova VM na região secundária também precisa de proteção.

Verifique o seu conhecimento

1.

Como é que o Site Recovery dá suporte ao agrupamento de máquinas e cargas de trabalho?