Configurar a recuperação de desastre em escala para VMs VMware/servidores físicos

Artigo
08/31/2023

Este artigo descreve como configurar a recuperação de desastres do Azure para números grandes (> 1000) de VMs VMware locais ou servidores físicos em seu ambiente de produção, usando o serviço Azure Site Recovery.

Definir sua estratégia BCDR

Como parte de sua estratégia de BCDR (Continuidade de Negócios e Recuperação de Desastres), você define RPOs (Objetivos de Ponto de Recuperação) e RTOs (Objetivos de Tempo de Recuperação) para seus aplicativos de negócios e cargas de trabalho. O RTO mede a duração de tempo e o nível de serviço dentro dos quais um processo ou aplicativo de negócios deve ser restaurado e estar disponível para evitar problemas de continuidade.

O Azure Site Recovery fornece replicação contínua para VMs VMware e servidores físicos e um SLA para RTO.
Ao planejar a recuperação de desastre em larga escala para VMs VMware e calcular os recursos do Azure de que você precisa, você pode especificar um valor de RTO que será usado para os cálculos de capacidade.

Práticas recomendadas

Algumas práticas recomendadas gerais para a recuperação de desastre em larga escala. Essas práticas recomendadas são discutidas mais detalhadamente nas próximas seções do documento.

Identificar requisitos de destino: estime as necessidades de capacidade e recursos no Azure antes de configurar a recuperação de desastre.
Planejar os componentes do Azure Site Recovery: descubra quais componentes do Azure Site Recovery (servidor de configuração, servidores de processo) você precisa para atender à sua capacidade estimada.
Configurar um ou mais servidores de processo para expansão: não use o servidor de processo que está executando por padrão no servidor de configuração.
Executar as atualizações mais recentes: a equipe do Azure Site Recovery lança regularmente novas versões de componentes do Azure Site Recovery, e você deve verificar se está executando as versões mais recentes. Para ajudar, acompanhe as novidades sobre as atualizações e habilite e instale as atualizações à medida que são lançadas.
Monitorar de forma proativa: quando a recuperação de desastre estiver em funcionamento, você deve monitorar proativamente o status e a integridade dos computadores replicados e dos recursos de infraestrutura.
Simulações de recuperação de desastres: você deve fazer simulações de recuperação de desastre regularmente. Isso não afeta o ambiente de produção, mas ajuda a garantir que o failover para o Azure funcione conforme o esperado quando for necessário.

Coletar informações de planejamento de capacidade

Reúna informações sobre seu ambiente local para ajudar a avaliar e estimar suas necessidades de capacidade do destino (Azure).

Para o VMware, execute o Planejador de Implantações para VMs VMware.
Para servidores físicos, reúna as informações manualmente.

Executar o Planejador de Implantações para VMs VMware

O Planejador de Implantações ajuda a coletar informações sobre seu ambiente local do VMware.

Execute o Planejador de Implantações durante um período que represente a rotatividade típica para suas VMs. Isso gera estimativas e recomendações mais precisas.
Recomendamos que você execute o Planejador de Implantações no computador do servidor de configuração, já que o planejador calcula a taxa de transferência do servidor no qual ele está sendo executado. Saiba mais sobre como medir a taxa de transferência.
Se você ainda não tiver um servidor de configuração configurado:
- Dê uma olhada nos componentes do Azure Site Recovery.
- Configure um servidor de configuração para executar o Planejador de Implantações nele.

Em seguida, execute o Planejador da seguinte maneira:

Saiba mais sobre o Planejador de Implantações. Você pode fazer o download da versão mais recente no portal ou fazer o download diretamente.
Examine os pré-requisitos e as atualizações mais recentes para o Planejador de Implantações e faça o download e extraia a ferramenta.
Execute o Planejador de Implantações no servidor de configuração.
Gere um relatório para resumir estimativas e recomendações.
Analise as recomendações de relatório e as estimativas de custo.

Observação

Por padrão, a ferramenta é configurada para analisar o perfil e gerar relatórios para até 1.000 VMs. Você pode alterar este limite, aumentando o valor da chave MaxVMsSupported no arquivo ASRDeploymentPlanner.exe.config.

Requisitos e capacidade do plano do destino (Azure)

Usando suas estimativas e recomendações coletadas, você pode planejar os recursos e a capacidade do destino. Se você executou o Planejador de Implantações para VMs VMware, pode usar várias recomendações de relatório para ajudá-lo.

VMs compatíveis: use este número para identificar o número de VMs que estão prontas para recuperação de desastre para o Azure. As recomendações sobre largura de banda de rede e núcleos do Azure se baseiam neste número.
Largura de banda de rede necessária: observe a largura de banda necessária para a replicação das diferenças de VMs compatíveis.
- Ao executar o planejador, você especifica o RPO desejado em minutos. As recomendações mostram a largura de banda necessária para atender 100% desse RPO e 90% do tempo.
- As recomendações de largura de banda de rede levam em consideração a largura de banda necessária para o número total de servidores de configuração e servidores de processo recomendados no Planejador.
Núcleos do Azure necessários: observe o número de núcleos de que você precisa na região de destino do Azure, com base no número de VMs compatíveis. Se não tiver núcleos suficientes, no failover, o Azure Site Recovery não conseguirá criar as VMs necessárias do Azure.
Tamanho de lote de VM recomendado: por padrão, o tamanho de lote recomendado é baseado na capacidade de concluir a replicação inicial para o lote em 72 horas, ao mesmo tempo que atende a um RPO de 100%. O valor da hora pode ser modificado.

Você pode usar essas recomendações para planejar os recursos do Azure, a largura de banda de rede e o envio em lote da VM.

Planejar assinaturas e cotas do Azure

Queremos garantir que as cotas disponíveis na assinatura de destino sejam suficientes para tratar o failover.

Tarefa	Detalhes	Ação
Verificar núcleos	Se os núcleos na cota disponível não forem iguais ou excederem o número total do destino no momento do failover, ocorrerá falhas nos failovers.	Para VMs VMware, verifique se você tem núcleos suficientes na assinatura de destino para atender à recomendação de núcleos do Planejador de Implantações. Para servidores físicos, verifique se os núcleos do Azure atendem às suas estimativas manuais. Para verificar as cotas, no portal do Azure>Assinatura clique em Uso + cotas. Siba mais sobre aumento de cotas.
Verificar limites de failover	O número de failovers não deve excede os limites de failover do Azure Site Recovery.	Se os failovers excederem os limites, você pode adicionar assinaturas e fazer failover para várias assinaturas ou aumentar a cota de uma assinatura.

Limites de failover

Os limites indicam o número de failovers que são suportados pelo Azure Site Recovery em uma hora, supondo que haja três discos por computador.

O que significa conformidade? Para iniciar uma VM do Azure, o Azure exige alguns drivers para entrar no estado de inicialização de boot, e serviços como DHCP a serem definidos para iniciar automaticamente.

Os computadores que estão em conformidade já terão essas configurações definidas.
Para computadores que executam o Windows, você pode verificar a conformidade de forma proativa e torná-los conformes, se necessário. Saiba mais.
Os computadores Linux são colocados em conformidade apenas no momento do failover.

O computador está em conformidade com o Azure?	Limites de VM do Azure (failover de disco gerenciado)
Sim	2000
Não	1000

Os limites pressupõem que outros trabalhos mínimos estão em andamento na região do destino da assinatura.
Algumas regiões do Azure são menores e podem ter limites ligeiramente mais baixos.

Planejar a infraestrutura e a conectividade da VM

Após o failover para o Azure, você precisa que suas cargas de trabalho operem como fizeram localmente, e permitir que os usuários acessem as cargas de trabalho em execução nas VMs do Azure.

Saiba mais sobre como fazer failover do seu Active Directory Domain Services ou da infraestrutura local do DNS para o Azure.
Saiba mais sobre como se preparar para se conectar às VMs do Azure após o failover.

Planejar a capacidade e os requisitos de origem

É importante que você tenha servidores de configuração suficientes e servidores de processo de expansão para atender aos requisitos de capacidade. Ao começar sua implantação em larga escala, comece com um único servidor de configuração e um único servidor de processo de expansão. À medida que você atinge os limites indicados, adicione mais servidores.

Observação

Para VMs VMware, o Planejador de Implantações faz algumas recomendações sobre os servidores de configuração e de processo necessários. Recomenda-se o uso das tabelas incluídas nos procedimentos a seguir, em vez de seguir a recomendação do Planejador de Implantações.

Configurar o servidor de configuração

A capacidade do servidor de configuração é afetada pelo número de computadores replicando, e não pela rotatividade dos dados. Para descobrir se precisa de servidores de configuração adicionais, use esses limites de VM definidos.

CPU	Memória	Cache de disco	Limite de computador replicado
8 vCPUs 2 soquetes * 4 núcleos de 2,5 GHz	16 GB	600 GB	Até 550 computadores Pressupõe que cada computador tenha três discos de 100 GB cada.

Esses limites se baseiam em um servidor de configuração configurado usando um modelo OVF.
Os limites pressupõem que você não está usando o servidor de processo que está executando (por padrão) no servidor de configuração.

Se precisar adicionar um novo servidor de configuração, siga estas instruções:

Configure um servidor de configuração para a recuperação de desastre de VM VMware usando um modelo OVF.
Configure um servidor de configuração manualmente para servidores físicos ou para implantações VMware que não podem usar um modelo OVF.

Ao configurar um servidor de configuração, observe que:

Ao definir um servidor de configuração, é importante considerar a assinatura e o cofre em que ele reside, uma vez que não devem ser alterados após a configuração. Se precisar alterar o cofre, será necessário desassociar o servidor de configuração do cofre e registrá-lo novamente. Isso interrompe a replicação de VMs no cofre.
Se quiser configurar um servidor de configuração com vários adaptadores de rede, você deve fazer isso durante a configuração. Você não pode fazer isso depois de registrar o servidor de configuração no cofre.

Configurar um servidor de processo

A capacidade do servidor de processo é afetada pela rotatividade de dados e não pelo número de computadores habilitados para replicação.

Para implantações grandes, sempre tenha pelo menos um servidor de processo de expansão.
Para descobrir se precisa de servidores adicionais, use a tabela a seguir.
Recomendamos que você adicione um servidor com a especificação mais alta.

CPU	Memória	Cache de disco	Rotatividade
12 vCPUs 2 soquetes * 6 núcleos de 2,5 GHz	24 GB	1 TB	Até 2 TB por dia

Configure o servidor de processos da seguinte forma:

Analise os pré-requisitos.
Instale o servidor no portal ou na linha de comando.
Configure os computadores replicados para usar o novo servidor. Se você já tiver computadores replicando:
- Você pode mover uma carga de trabalho inteira de servidor de processo para o novo servidor de processo.
- Como alternativa, você pode mover VMs específicas para o novo servidor de processo.

Habilitar replicação em larga escala

Após planejar a capacidade e implantar os componentes e a infraestrutura necessários, habilite a replicação para um grande número de VMs.

Classifique os computadores em lotes. Você habilita a replicação para VMs dentro de um lote, e passa para o próximo lote.
- Para VMs VMware, você pode usar o tamanho de lote de VM recomendado no relatório do Planejador de Implantações.
- Para computadores físicos, recomendamos que identifique os lotes com base nos computadores com tamanho e quantidade de dados semelhantes e na taxa de transferência de rede disponível. O objetivo é criar lotes de computadores que provavelmente concluirão sua replicação inicial no mesmo período de tempo.
Se a rotatividade de disco de um computador estiver alta ou exceder os limites do Planejador de Implantações, mova arquivos não críticos que não precisem ser replicados (como despejos de log ou arquivos temporários) para fora do computador. Para VMs VMware, mova esses arquivos para um disco separado e, em seguida, exclua esse disco da replicação.
Antes de habilitar a replicação, verifique se os computadores atendem aos requisitos de replicação.
Configure uma política de replicação para VMs VMware ou servidores físicos.
Habilite a replicação para VMs VMware ou servidores físicos. Isso aciona a replicação inicial para os computadores selecionados.

Monitorar a implantação

Depois de iniciar a replicação para o primeiro lote de VMs, comece a monitorar sua implantação da seguinte maneira:

Atribua um administrador de recuperação de desastre para monitorar o status de integridade dos computadores replicados.
Monitore eventos de itens replicados e da infraestrutura.
Monitore a integridade de seus servidores de processo de expansão.
Inscreva-se para receber notificações por email dos eventos, para facilitar o monitoramento.
Realize simulações de recuperação de desastres de forma periódica para garantir que tudo está funcionando conforme o esperado.

Planejar failovers em larga escala

Em caso de desastre, talvez seja necessário fazer failover de um grande número de computadores/cargas de trabalho para o Azure. Prepare-se para esse tipo de evento conforme abaixo.

Você pode se preparar com antecedência para failover da seguinte maneira:

Prepare sua infraestrutura e as VMs para que suas cargas de trabalho estejam disponíveis após o failover e para que os usuários possam acessar as VMs do Azure.
Observe os limites de failover descritos anteriormente neste documento. Verifique se os failovers se enquadram dentro desses limites.
Execute periodicamente as simulações de recuperação de desastre. As simulações ajudam a:
- Localizar lacunas em sua implantação antes do failover.
- Estimar o RTO de ponta a ponta para seus aplicativos.
- Estimar o RPO de ponta a ponta para suas cargas de trabalho.
- Identificar conflitos no intervalo de endereços IP.
- À medida que você executa as simulações, recomendamos que não use redes de produção para as simulações e exclua os failovers de teste após cada simulação.

Para executar um failover em larga escala, recomendamos o seguinte:

Crie planos de recuperação para failover de carga de trabalho.
- Cada plano de recuperação pode disparar o failover de até 100 computadores.
- Saiba mais sobre planos de recuperação.
Adicione scripts de passo a passo da Automação do Azure aos planos de recuperação para automatizar qualquer tarefa manual no Azure. As tarefas típicas incluem a configuração de balanceadores de carga, a atualização de DNS etc. Saiba mais
Antes do failover, prepare os computadores do Windows para que estejam em conformidade com o ambiente do Azure. Os limites de failover são mais altos para computadores que estão em conformidade. Saiba mais sobre os script de passo a passo.
Dispare o failover com o cmdlet Start-AzRecoveryServicesAsrPlannedFailoverJob do PowerShell, junto com um plano de recuperação.

Próximas etapas

Monitorar Site Recovery