Backup e recuperação de desastre para aplicativos do AzureBackup and disaster recovery for Azure applications

A recuperação de desastre é o processo de restaurar a funcionalidade do aplicativo na ativação de uma perda catastrófica.Disaster recovery is the process of restoring application functionality in the wake of a catastrophic loss.

Sua tolerância para reduzir a funcionalidade durante um desastre é uma decisão de negócios que varia de um aplicativo para o outro.Your tolerance for reduced functionality during a disaster is a business decision that varies from one application to the next. Pode ser aceitável que alguns aplicativos estejam indisponíveis ou estejam parcialmente disponíveis com funcionalidade reduzida ou processamento atrasado por um período de tempo.It might be acceptable for some applications to be unavailable or to be partially available with reduced functionality or delayed processing for a period of time. Para outros aplicativos, qualquer funcionalidade reduzida é inaceitável.For other applications, any reduced functionality is unacceptable.

Interrupção do serviço dependenteDependent service outage

Para cada serviço dependente, você deve entender as implicações da interrupção do serviço e a forma como o aplicativo responderá.For each dependent service, you should understand the implications of service disruption and the way that the application will respond. Muitos serviços incluem recursos que dão suporte à resiliência e à disponibilidade, portanto, a avaliação de cada serviço de forma independente provavelmente melhorará seu plano de recuperação de desastres.Many services include features that support resiliency and availability, so evaluating each service independently is likely to improve your disaster recovery plan. Por exemplo, os hubs de eventos do Azure dão suporte ao failover para o namespace secundário.For example, Azure Event Hubs supports failing over to the secondary namespace.

Interrupção de redeNetwork outage

Quando partes da rede do Azure estiverem inacessíveis, talvez você não consiga acessar seu aplicativo ou dados.When parts of the Azure network are inaccessible, you might not be able to access your application or data. Nessa situação, é recomendável projetar a estratégia de recuperação de desastre para executar a maioria dos aplicativos com funcionalidade reduzida.In this situation, we recommend designing the disaster recovery strategy to run most applications with reduced functionality.

Se a redução da funcionalidade não for uma opção, as opções restantes serão o tempo de inatividade do aplicativo ou o failover para uma região alternativa.If reducing functionality isn't an option, the remaining options are application downtime or failover to an alternate region.

Em um cenário de funcionalidade reduzida:In a reduced functionality scenario:

  • Se seu aplicativo não puder acessar seus dados devido a uma interrupção da rede do Azure, você poderá executar localmente com a funcionalidade reduzida do aplicativo usando dados armazenados em cache.If your application can't access its data because of an Azure network outage, you might be able to run locally with reduced application functionality by using cached data.
  • Talvez seja possível armazenar dados em um local alternativo até que a conectividade seja restaurada.You might be able to store data in an alternate location until connectivity is restored.

Respostas manuaisManual responses

Embora a automação seja ideal, algumas estratégias para recuperação de desastres exigem respostas manuais.Although automation is ideal, some strategies for disaster recovery require manual responses.

AlertasAlerts

Monitore seu aplicativo, observando sinais de aviso que podem exigir intervenção proativa.Monitor your application for warning signs that may require proactive intervention. Por exemplo, se o banco de dados SQL do Azure ou Azure Cosmos DB restringir consistentemente seu aplicativo, talvez seja necessário aumentar a capacidade do banco de dados ou otimizar suas consultas.For example, if Azure SQL Database or Azure Cosmos DB consistently throttles your application, you might need to increase your database capacity or optimize your queries. Embora o aplicativo possa lidar com os erros de limitação de forma transparente, sua telemetria ainda deve gerar um alerta para que você possa acompanhá-lo.Even though the application might handle the throttling errors transparently, your telemetry should still raise an alert so that you can follow up.

Para limites de serviço e limites de cota, é recomendável configurar alertas em métricas de recursos do Azure e logs de diagnóstico.For service limits and quota thresholds, we recommend configuring alerts on Azure resources metrics and diagnostics logs. Quando possível, configure alertas em métricas, que são menor latência que os logs de diagnóstico.When possible, set up alerts on metrics, which are lower latency than diagnostics logs.

Por meio do Resource Health, o Azure fornece algumas verificações de status de integridade internas que podem ajudá-lo a diagnosticar problemas de limitação de serviço do Azure.Through Resource Health, Azure provides some built-in health status checks that can help you diagnose Azure service throttling issues.

FailoverFailover

Configure uma estratégia de recuperação de desastre para cada aplicativo do Azure e seus serviços do Azure.Configure a disaster recovery strategy for each Azure application and its Azure services. Estratégias de implantação aceitáveis para dar suporte à recuperação de desastres podem variar com base nos SLAs necessários para todos os componentes de cada aplicativo.Acceptable deployment strategies to support disaster recovery may vary based on the SLAs required for all components of each application.

O Azure fornece recursos diferentes em vários serviços do Azure para permitir o failover manual, como réplicas geográficas de cache Redisou para failover automatizado, como grupos de failover automático do SQL.Azure provides different features within many Azure services to allow for manual failover, such as redis cache geo-replicas, or for automated failover, such as SQL auto-failover groups. Por exemplo:For example:

  • Para um aplicativo que usa principalmente máquinas virtuais, você pode usar Azure Site Recovery para as camadas Web e lógica.For an application that mainly uses virtual machines, you can use Azure Site Recovery for the web and logic tiers. Para obter mais informações, consulte arquitetura de recuperação de desastre do Azure para o Azure.For more information, see Azure to Azure disaster recovery architecture. Para SQL Server em VMs, use SQL Server grupos de disponibilidade Always on.For SQL Server on VMs, use SQL Server Always On availability groups.
  • Para um aplicativo que usa o serviço de aplicativo e o banco de dados SQL do Azure, você pode usar um plano de serviço de aplicativo de camada menor configurado na região secundária, que dimensiona automaticamente quando ocorre um failover.For an application that uses App Service and Azure SQL Database, you can use a smaller tier App Service plan configured in the secondary region, which auto-scales when a failover occurs. Use grupos de failover para a camada de banco de dados.Use failover groups for the database tier.

Em qualquer cenário, um perfil do Gerenciador de tráfego do Azure fornece o failover automatizado entre regiões.In either scenario, an Azure Traffic Manager profile provides for the automated failover across regions. Balanceadores de carga ou gateways de aplicativo devem ser configurados na região secundária para dar suporte à disponibilidade mais rápida no failover.Load balancers or application gateways should be set up in the secondary region to support faster availability on failover.

Teste de preparação operacionalOperational readiness testing

Execute um teste de preparação operacional para failover para a região secundária e para failback para a região primária.Perform an operational readiness test for failover to the secondary region and for failback to the primary region. Muitos serviços do Azure são compatíveis com failover manual ou failover de teste para exercícios de recuperação de desastre.Many Azure services support manual failover or test failover for disaster recovery drills. Como alternativa, você pode simular uma interrupção desligando ou removendo os serviços do Azure.Alternatively, you can simulate an outage by shutting down or removing Azure services.

Corrupção e restauração de dadosData corruption and restoration

Se um armazenamento de dados falhar, poderá haver inconsistências de dados quando ele ficar disponível novamente, especialmente se os dados tiverem sido replicados.If a data store fails, there might be data inconsistencies when it becomes available again, especially if the data was replicated. Entender o RTO (objetivo de tempo de recuperação) e o RPO (objetivo de ponto de recuperação) de armazenamentos de dados replicados pode ajudá-lo a prever a quantidade de perda de dados.Understanding the recovery time objective (RTO) and recovery point objective (RPO) of replicated data stores can help you predict the amount of data loss.

Para entender se o failover entre regiões é iniciado manualmente ou pela Microsoft, examine os SLAs de serviço do Azure.To understand whether the cross-regional failover is started manually or by Microsoft, review the Azure service SLAs. Para serviços sem SLAs para failover entre regiões, a Microsoft normalmente decide quando fazer failover e geralmente prioriza a recuperação de dados na região primária.For services with no SLAs for cross-regional failover, Microsoft typically decides when to fail over and usually prioritizes recovery of data in the primary region. Se os dados na região primária forem considerados irrecuperáveis, a Microsoft fará failover para a região secundária.If data in the primary region is deemed unrecoverable, Microsoft fails over to the secondary region.

Restaurando dados de backupsRestoring data from backups

Os backups protegem contra a perda de um componente do aplicativo devido à exclusão acidental ou à corrupção de dados.Backups protect you from losing a component of the application because of accidental deletion or data corruption. Eles preservam uma versão funcional do componente de um momento anterior, que você pode usar para restaurá-lo.They preserve a functional version of the component from an earlier time, which you can use to restore it.

As estratégias de recuperação de desastre não são uma substituição para backups, mas backups regulares de dados de aplicativos dão suporte a alguns cenários de recuperação de desastres.Disaster recovery strategies are not a replacement for backups, but regular backups of application data support some disaster recovery scenarios. Suas opções de armazenamento de backup devem ser baseadas em sua estratégia de recuperação de desastre.Your backup storage choices should be based on your disaster recovery strategy.

A frequência de execução do processo de backup determina o RPO.The frequency of running the backup process determines your RPO. Por exemplo, se você executar backups por hora e um desastre ocorrer dois minutos antes do backup, você perderá 58 minutos de dados.For example, if you perform hourly backups and a disaster occurs two minutes before the backup, you will lose 58 minutes of data. Seu plano de recuperação de desastre deve incluir como você abordará os dados perdidos.Your disaster recovery plan should include how you will address lost data.

É comum que os dados em um armazenamento de dados façam referência a dados em outro repositório.It's common for data in one data store to reference data in another store. Por exemplo, considere um banco de dados SQL com uma coluna que se vincula a um blob no armazenamento do Azure.For example, consider a SQL Database with a column that links to a blob in Azure Storage. Se os backups não ocorrerem simultaneamente, o banco de dados poderá ter um ponteiro para um blob que não tenha sido submetido a backup antes da falha.If backups don't happen simultaneously, the database might have a pointer to a blob that wasn't backed up before the failure. O aplicativo ou o plano de recuperação de desastre deve implementar processos para lidar com essa inconsistência após uma recuperação.The application or the disaster recovery plan must implement processes to handle this inconsistency after a recovery.

Observação

Em alguns cenários, como a das VMs com backup usando o backup do Azure, você pode restaurar somente de um backup na mesma região.In some scenarios, such as that of VMs backed up using Azure Backup, you can restore only from a backup in the same region. Outros serviços do Azure, como o cache do Azure para Redis, fornecem backups replicados geograficamente, que podem ser usados para restaurar serviços entre regiões.Other Azure services, such as Azure Cache for Redis, provide geo-replicated backups, which you can use to restore services across regions.

Armazenamento do Azure e banco de dados SQL do AzureAzure Storage and Azure SQL Database

O Azure armazena automaticamente os dados do armazenamento do Azure e do banco de dados SQL três vezes em diferentes domínios de falha na mesma região.Azure automatically stores Azure Storage and SQL Database data three times within different fault domains in the same region. Se você usar a replicação geográfica, os dados serão armazenados mais três vezes em uma região diferente.If you use geo-replication, the data is stored three additional times in a different region. No entanto, se os dados forem corrompidos ou excluídos na cópia primária (por exemplo, devido ao erro do usuário), as alterações serão replicadas para outras cópias.However, if the data is corrupted or deleted in the primary copy (for example, because of user error), the changes replicate to the other copies.

Você tem duas opções para gerenciar a possível corrupção ou exclusão de dados:You have two options for managing potential data corruption or deletion:

  • Crie uma estratégia de backup personalizada.Create a custom backup strategy. Você pode armazenar seus backups no Azure ou no local, dependendo de seus requisitos de negócios e regulamentos de governança.You can store your backups in Azure or on-premises, depending on your business requirements and governance regulations.
  • Use a opção de restauração pontual para recuperar um banco de dados SQL.Use the point-in-time restore option to recover a SQL Database.

Recuperação do armazenamento do AzureAzure Storage recovery

Você pode desenvolver um processo de backup personalizado para o armazenamento do Azure ou usar uma das muitas ferramentas de backup de terceiros.You can develop a custom backup process for Azure Storage or use one of many third-party backup tools.

O armazenamento do Azure fornece resiliência de dados por meio de réplicas automatizadas, mas não impede que o código do aplicativo ou os usuários corrompam dados.Azure Storage provides data resiliency through automated replicas, but it doesn't prevent application code or users from corrupting data. Manter a fidelidade de dados após o erro do aplicativo ou do usuário requer técnicas mais avançadas, como copiar os dados para um local de armazenamento secundário com um log de auditoria.Maintaining data fidelity after application or user error requires more advanced techniques, such as copying the data to a secondary storage location with an audit log. Você tem várias opções:You have several options:

  • Blobs de blocos.Block blobs. Crie um instantâneo pontual de cada blob de blocos.Create a point-in-time snapshot of each block blob. Para cada instantâneo, você será cobrado apenas pelo armazenamento necessário para armazenar as diferenças no blob desde o estado anterior do instantâneo.For each snapshot, you are charged only for the storage required to store the differences within the blob since the previous snapshot state. Os instantâneos são dependentes do blob original, portanto, é recomendável copiar para outro BLOB ou até mesmo para outra conta de armazenamento.The snapshots are dependent on the original blob, so we recommend copying to another blob or even to another storage account. Essa abordagem garante que os dados de backup sejam protegidos contra exclusão acidental.This approach ensures that backup data is protected against accidental deletion. Use AzCopy ou Azure PowerShell para copiar os BLOBs para outra conta de armazenamento.Use AzCopy or Azure PowerShell to copy the blobs to another storage account.

    Para saber mais, consulte Criando um instantâneo de um blob.For more information, see Creating a Snapshot of a Blob.

  • Arquivos do Azure.Azure Files. Use instantâneos de compartilhamento, AzCopy ou PowerShell para copiar os arquivos para outra conta de armazenamento.Use share snapshots, AzCopy, or PowerShell to copy your files to another storage account.

  • Armazenamento de tabelas do Azure.Azure Table storage. Use AzCopy para exportar os dados da tabela para outra conta de armazenamento em outra região.Use AzCopy to export the table data into another storage account in another region.

Recuperação do banco de dados SQLSQL Database recovery

Para proteger seu negócio contra a perda de dados, o banco de dados SQL executa automaticamente uma combinação de backups de banco de dados completos semanalmente, backups de banco de dados diferenciais por hora e backups de log de transações a cada 5 eTo protect your business from data loss, SQL Database automatically performs a combination of full database backups weekly, differential database backups hourly, and transaction log backups every 5 to 10 minutes. Para as camadas de banco de dados SQL Basic, Standard e Premium, use a restauração pontual para restaurar um banco de dados para um momento anterior.For the Basic, Standard, and Premium SQL Database tiers, use point-in-time restore to restore a database to an earlier time. Examine os artigos a seguir para obter mais informações:Review the following articles for more information:

Outra opção é usar a replicação geográfica ativa para o banco de dados SQL, que replica automaticamente as alterações do banco de dados para bancos de dados secundários na mesma região do Azure ou em outra.Another option is to use active geo-replication for SQL Database, which automatically replicates database changes to secondary databases in the same or different Azure region. Para obter mais informações, consulte criando e usando a replicação geográfica ativa.For more information, see Creating and using active geo-replication.

Você também pode usar uma abordagem mais manual para backup e restauração:You can also use a more manual approach for backup and restore:

  • Use a funcionalidade de cópia de banco de dados para criar uma cópia de backup do banco de dados com consistência transacional.Use the Database Copy capability to create a backup copy of the database with transactional consistency.
  • Use o serviço de importação/exportação do banco de dados SQL do Azure, que dá suporte à exportação de bancos de dados para arquivos BACPAC (arquivos compactados que contêm o esquema do banco de dados e os seus associados) armazenados no armazenamento de BLOBs do Azure.Use the Azure SQL Database Import/Export Service, which supports exporting databases to BACPAC files (compressed files containing your database schema and associated data) that are stored in Azure Blob storage. Para proteger contra uma interrupção de serviço em toda a região, copie os arquivos BACPAC para uma região alternativa.To protect against a region-wide service disruption, copy the BACPAC files to an alternate region.

SQL Server em VMsSQL Server on VMs

Para SQL Server em execução em VMs, você tem duas opções: backups tradicionais e envio de logs.For SQL Server running on VMs, you have two options: traditional backups and log shipping.

  • Com backups tradicionais, você pode restaurar para um ponto específico no tempo, mas o processo de recuperação é lento.With traditional backups, you can restore to a specific point in time, but the recovery process is slow. A restauração de backups tradicionais exige que você inicie com um backup completo inicial e, em seguida, aplique qualquer backup incremental.Restoring traditional backups requires that you start with an initial full backup and then apply any incremental backups.
  • Você pode configurar uma sessão de envio de logs para atrasar a restauração de backups de log.You can configure a log shipping session to delay the restore of log backups. Isso fornece uma janela para se recuperar de erros feitos na réplica primária.This provides a window to recover from errors made on the primary replica.

Banco de dados do Azure para MySQL e banco de dados do Azure para PostgreSQLAzure Database for MySQL and Azure Database for PostgreSQL

No banco de dados do Azure para MySQL e no banco de dados do Azure para PostgreSQL, o serviço de banco de dados faz automaticamente um backup a cada cinco minutos.In Azure Database for MySQL and Azure Database for PostgreSQL, the database service automatically makes a backup every five minutes. Você pode usar esses backups automatizados para restaurar o servidor e seus bancos de dados de um ponto anterior no tempo para um novo servidor.You can use these automated backups to restore the server and its databases from an earlier point in time to a new server. Para obter mais informações, consulte:For more information, see:

Azure Cosmos DBAzure Cosmos DB

Cosmos DB faz um backup automaticamente em intervalos regulares.Cosmos DB automatically makes a backup at regular intervals. Os backups são armazenados separadamente em outro serviço de armazenamento e são replicados globalmente para proteger contra desastres regionais.Backups are stored separately in another storage service and are replicated globally to protect against regional disasters. Caso exclua seu banco de dados ou coleção acidentalmente, é possível criar um tíquete de suporte ou ligar para o suporte do Azure a fim de restaurar os dados usando o último backup automático.If you accidentally delete your database or collection, you can file a support ticket or call Azure support to restore the data from the last automatic backup. Para obter mais informações, consulte backup online e restauração sob demanda no Azure Cosmos DB.For more information, see Online backup and on-demand restore in Azure Cosmos DB.

Máquinas Virtuais do AzureAzure Virtual Machines

Para proteger as máquinas virtuais do Azure contra erros de aplicativo ou exclusão acidental, use o backup do Azure.To protect Azure Virtual Machines from application errors or accidental deletion, use Azure Backup. Os backups criados são consistentes em vários discos de VM.The created backups are consistent across multiple VM disks. Além disso, o cofre de backup do Azure pode ser replicado entre regiões para dar suporte à recuperação de uma perda regional.In addition, the Azure Backup vault can be replicated across regions to support recovery from a regional loss.

Plano de recuperação de desastreDisaster recovery plan

Comece criando um plano de recuperação.Start by creating a recovery plan. O plano é considerado concluído após ser totalmente testado.The plan is considered complete after it has been fully tested. Inclua as pessoas, os processos e os aplicativos necessários para restaurar a funcionalidade no contrato de nível de serviço (SLA) que você definiu para seus clientes.Include the people, processes, and applications needed to restore functionality within the service-level agreement (SLA) you've defined for your customers.

Considere as seguintes sugestões ao criar e testar seu plano de recuperação de desastre:Consider the following suggestions when creating and testing your disaster recovery plan:

  • Em seu plano, inclua o processo de contato com o suporte e para escalonar problemas.In your plan, include the process for contacting support and for escalating issues. Essas informações ajudarão a evitar tempo de inatividade prolongado enquanto você trabalha no processo de recuperação pela primeira vez.This information will help to avoid prolonged downtime as you work out the recovery process for the first time.
  • Avalie o impacto das falhas de aplicativos sobre os negócios.Evaluate the business impact of application failures.
  • Escolha uma arquitetura de recuperação entre regiões para aplicativos de missão crítica.Choose a cross-region recovery architecture for mission-critical applications.
  • Identifique um proprietário específico do plano de recuperação de desastres, incluindo automação e testes.Identify a specific owner of the disaster recovery plan, including automation and testing.
  • Documente o processo, especialmente qualquer etapa manual.Document the process, especially any manual steps.
  • Automatize o processo o máximo possível.Automate the process as much as possible.
  • Estabeleça uma estratégia de backup para todos os dados de referência e transacionais e teste a restauração de backup regularmente.Establish a backup strategy for all reference and transactional data, and test backup restoration regularly.
  • Configure alertas para a pilha dos serviços do Azure consumidos pelo seu aplicativo.Set up alerts for the stack of the Azure services consumed by your application.
  • Treinar a equipe de operações para executar o plano.Train operations staff to execute the plan.
  • Execute simulações regulares de desastres para validar e aprimorar o plano.Perform regular disaster simulations to validate and improve the plan.

Se você estiver usando Azure site Recovery para replicar máquinas virtuais (VMS), crie um plano de recuperação totalmente automatizado para fazer failover de todo o aplicativo.If you're using Azure Site Recovery to replicate virtual machines (VMs), create a fully automated recovery plan to fail over the entire application.

Automação de recuperaçãoRecovery automation

As etapas necessárias para recuperar ou fazer failover do aplicativo para uma região secundária do Azure em situações de falha devem ser codificados, preferencialmente de maneira automatizada, para garantir que existam recursos para responder efetivamente a uma interrupção de forma a limitar o impacto.The steps required to recover or failover the application to a secondary Azure region in failure situations should be codified, preferably in an automated manner, to ensure capabilities exist to effectively respond to an outage in a way that limits impact. As etapas de codificados semelhantes também devem existir para capturar o processo necessário para executar o failback do aplicativo para a região primária quando um problema de disparo de failover tiver sido resolvido.Similar codified steps should also exist to capture the process required to failback the application to the primary region once a failover triggering issue has been addressed.

Estratégia de backupBackup strategy

Muitas estratégias alternativas estão disponíveis para implementação de computação distribuída entre regiões.Many alternative strategies are available for implementing distributed compute across regions. Essas estratégias devem ser personalizadas segundo os requisitos específicos de negócios e as circunstâncias do aplicativo.These must be tailored to the specific business requirements and circumstances of the application. Em um nível elevado, as abordagens podem ser divididas nas seguintes categorias:At a high level, the approaches can be divided into the following categories:

  • Reimplantar em caso de desastre: nessa abordagem, o aplicativo é reimplantado do zero no momento do desastre.Redeploy on disaster: In this approach, the application is redeployed from scratch at the time of disaster. Isso é adequado para aplicativos não críticos, que não exigem um tempo de recuperação garantido.This is appropriate for non-critical applications that don’t require a guaranteed recovery time. Reimplantar em uma nova regiãoRedeploy to a new region

  • Reposição morna (ativo/passivo): um serviço hospedado secundário é criado em uma região alternativa e funções são implantadas para garantir a capacidade mínima; no entanto, as funções não recebem tráfego de produção.Warm Spare (Active/Passive): A secondary hosted service is created in an alternate region, and roles are deployed to guarantee minimal capacity; however, the roles don’t receive production traffic. Essa abordagem é útil para aplicativos que não foram projetados para distribuir tráfego entre regiões.This approach is useful for applications that have not been designed to distribute traffic across regions. Exemplo de aplicativo Web básico, replicar VM para outra regiãoBasic Web Application example, Replicate VM to another region

  • Reposição quente (ativo/ativo): o aplicativo foi projetado para receber a carga de produção em várias regiões.Hot Spare (Active/Active): The application is designed to receive production load in multiple regions. Os serviços de nuvem em cada região podem ser configurados para capacidade maior do que o necessário para fins de recuperação de desastre.The cloud services in each region might be configured for higher capacity than required for disaster recovery purposes. Como alternativa, os serviços de nuvem podem ser expandidos conforme necessário no momento de um desastre e um failover.Alternatively, the cloud services might scale-out as necessary at the time of a disaster and failover. Essa abordagem exige um investimento substancial no design do aplicativo, mas tem benefícios significativos.This approach requires substantial investment in application design, but it has significant benefits. Isso inclui tempo de recuperação baixo e garantido, testes contínuos de todos os locais de recuperação e uso eficiente da capacidade.These include low and guaranteed recovery time, continuous testing of all recovery locations, and efficient usage of capacity. Exemplo de DR de várias camadasMulti tier DR example

Gerenciamento de recursosResource management

Você pode distribuir instâncias de computação entre regiões criando um serviço de nuvem separado em cada região de destino e, em seguida, publicando o pacote de implantação em cada serviço de nuvem.You can distribute compute instances across regions by creating a separate cloud service in each target region and then publishing the deployment package to each cloud service. No entanto, a distribuição de tráfego entre serviços de nuvem em regiões diferentes deve ser implementada pelo desenvolvedor de aplicativos ou por um serviço de gerenciamento de tráfego.However, distributing traffic across cloud services in different regions must be implemented by the application developer or with a traffic management service.

Determinar o número de instâncias de função de reposição a implantar com antecedência para recuperação de desastre é um aspecto importante do planejamento de capacidade.Determining the number of spare role instances to deploy in advance for disaster recovery is an important aspect of capacity planning. Ter uma implantação secundária completa garante que a capacidade esteja disponível quando necessário; no entanto, isso dobra efetivamente o custo.Having a full-scale secondary deployment ensures that capacity is already available when needed; however, this effectively doubles the cost. Um padrão comum é ter uma implantação secundária pequena, mas grande o suficiente para executar serviços críticos.A common pattern is to have a small, secondary deployment, just large enough to run critical services. Essa pequena implantação secundária é uma boa ideia, tanto para reservar capacidade quanto para testar a configuração do ambiente secundário.This small secondary deployment is a good idea, both to reserve capacity and to test the secondary environment's configuration.

Observação

A cota da assinatura não é uma garantia de capacidade.The subscription quota is not a capacity guarantee. A cota é simplesmente um limite de crédito.The quota is simply a credit limit. Para garantir a capacidade, o número necessário de funções deve ser definido no modelo de serviço, e as funções devem ser implantadas.To guarantee capacity, the required number of roles must be defined in the service model, and the roles must be deployed.

Classificação de failoverFailover classification

Uma interrupção do serviço de plataforma em uma região específica provavelmente exigirá um failover para outra região, enquanto a alteração acidental de uma regra de firewall pode ser atenuada por um processo de recuperação.A platform service outage in a specific region will likely require a failover to another region, whereas the accidental change of a firewall rule can be mitigated by a recovery process. O modelo de integridade e todos os dados subjacentes devem ser usados para interpretar quais procedimentos operacionais devem ser disparados.The health model and all underlying data should be used to interpret which operational procedures should be triggered.

Teste de failover e failbackFailover and failback testing

Failover de teste e failback para verificar se os serviços dependentes de seu aplicativo são revertidos de maneira sincronizada durante a recuperação de desastre.Test failover and failback to verify that your application's dependent services come back up in a synchronized manner during disaster recovery. As alterações em sistemas e operações podem afetar as funções de failover e failback, mas o impacto pode não ser detectado até que o sistema principal falhe ou fique sobrecarregado.Changes to systems and operations may affect failover and failback functions, but the impact may not be detected until the main system fails or becomes overloaded. Os recursos de failover de teste antes são necessários para compensar um problema ao vivo.Test failover capabilities before they are required to compensate for a live problem. Além disso, certifique-se de que os serviços dependentes failover e failback na ordem correta.Also, be sure that dependent services failover and failback in the correct order.

Se você estiver usando Azure site Recovery para replicar VMS, execute as análises de recuperação de desastre periodicamente testando failovers para validar sua estratégia de replicação.If you are using Azure Site Recovery to replicate VMs, run disaster recovery drills periodically by testing failovers to validate your replication strategy. Um failover de teste não afeta a replicação de VM em andamento nem o ambiente de produção.A test failover does not affect the ongoing VM replication or your production environment. Para saber mais, confira Realizar uma análise detalhada da recuperação de desastre para o Azure.For more information, see Run a disaster recovery drill to Azure.

Teste de recuperação automatizadoAutomated recovery testing

As respostas operacionais automatizadas devem ser testadas com frequência como parte do ciclo de vida normal do aplicativo para garantir a eficácia operacional.Automated operational responses should be tested frequently as part of the normal application lifecycle to ensure operational effectiveness.

Validando backupsValidating backups

Verifique regularmente que os dados de backup são o que você espera ao executar um script para validar o esquema, as consultas e a integridade dos dados.Regularly verify that your backup data is what you expect by running a script to validate data integrity, schema, and queries. Não há nenhum ponto em ter um backup se não for útil restaurar suas fontes de dados.There's no point in having a backup if it's not useful to restore your data sources. Registre em log e relate as inconsistências de modo que o serviço de backup possa ser reparado.Log and report any inconsistencies so the backup service can be repaired.

Armazenamento de backupBackup Storage

Os backups são sobre a proteção de dados, aplicativos e sistemas que são importantes para a organização.Backups are about protecting data, applications, and systems that are important to the organization. É fácil fornecer backups em ambientes de operações: escolha a carga de trabalho que precisa de Hyper-Availability e faça o backup.It's easy to provide backups in operations environments: pick the workload that needs hyper-availability and back it up. Os ambientes de operações são relativamente estáticos – nesse caso, os sistemas e aplicativos usados permanecem relativamente consistentes, com apenas os dados sendo alterados diariamente.Operations environments are relatively static – in that, the systems and applications used remain relatively consistent, with only the data changing daily.

Arquivos mortos do aplicativoApplication archives

É importante lembrar que um plano de DR é mais do que apenas uma restauração ordenada do processo de backup e validação.It's important to remember that a DR plan is more than just an ordered restoration from backup and validation process. Os aplicativos podem exigir configuração após a restauração devido a alterações no site, ou a reinstalação pode ser necessária com os dados restaurados importados após.Applications may require post-restoration configuration due to site changes, or reinstallation may be necessary with restored data imported after.

Retrospectivas de interrupçãoOutage retrospectives

Nenhuma proteção ou preparação pode impedir todos os incidentes possíveis e, às vezes, um erro humano simples pode ter consequências significativas em um projeto de desenvolvimento.No amount of safeguards or preparation can prevent every possible incident, and sometimes simple human error can have significant consequences to a development project. Você não pode evitá-lo, mas pode aprender com ele e tomar medidas para minimizar as chances de um incidente semelhante no futuro.You can't avoid it, but you can learn from it and take steps to minimize the chances of a similar incident in the future. A pergunta é como as organizações de software podem conhecer melhor o aprendizado de erros com o Agile postmortems.The question is how software organizations can best go about learning from mistakes with agile postmortems.

Planejando falhas regionaisPlanning for regional failures

O Azure é dividido fisicamente e logicamente em unidades chamadas de regiões.Azure is divided physically and logically into units called regions. Uma região consiste em um ou mais data centers em proximidade.A region consists of one or more data centers in close proximity.

Em raras circunstâncias, é possível que as instalações em uma região inteira possam se tornar inacessíveis, por exemplo, devido a falhas de rede.Under rare circumstances, it is possible that facilities in an entire region can become inaccessible, for example, due to network failures. Ou os recursos podem ser totalmente perdidos, por exemplo, devido a um desastre natural.Or facilities can be lost entirely, for example, due to a natural disaster. Esta seção explica os recursos do Azure para criar aplicativos que são distribuídos entre regiões.This section explains the capabilities of Azure for creating applications that are distributed across regions. Essa distribuição ajuda a minimizar a possibilidade de que uma falha em uma região afete outras regiões.Such distribution helps to minimize the possibility that a failure in one region could affect other regions.

Examine a recuperação da perda de uma região do Azure para obter orientação sobre serviços específicos do Azure.Review Recover from loss of an Azure region for guidance on specific Azure services.

Diretriz específica do serviçoService-specific guidance

Os artigos a seguir descrevem a recuperação de desastre para serviços específicos do Azure:The following articles describe disaster recovery for specific Azure services:

ServiçoService ArtigoArticle
Banco de Dados do Azure para MySQLAzure Database for MySQL Visão geral da continuidade dos negócios com o Banco de Dados do Azure para MySQLOverview of business continuity with Azure Database for MySQL
Banco de Dados do Azure para PostgreSQLAzure Database for PostgreSQL Visão geral da continuidade dos negócios com o Banco de Dados do Azure para PostgreSQLOverview of business continuity with Azure Database for PostgreSQL
Serviços de nuvem do AzureAzure Cloud Services O que fazer no caso de uma interrupção de serviço do Azure que afete os Serviços de Nuvem do AzureWhat to do in the event of an Azure service disruption that impacts Azure Cloud Services
Cosmos DBCosmos DB Alta disponibilidade com o Azure Cosmos DBHigh availability with Azure Cosmos DB
Cofre de Chave do AzureAzure Key Vault Redundância e disponibilidade de Cofre de Chaves do AzureAzure Key Vault availability and redundancy
Armazenamento do AzureAzure Storage Recuperação de desastre e failover de conta de armazenamento (versão prévia) no Armazenamento do AzureDisaster recovery and storage account failover (preview) in Azure Storage
Banco de Dados SQLSQL Database Restaurar um banco de dados SQL do Azure ou fazer failover para uma região secundáriaRestore an Azure SQL Database or failover to a secondary region
Máquinas VirtuaisVirtual Machines O que fazer no caso de uma interrupção do serviço do Azure afeta a nuvem do AzureWhat to do in the event of an Azure service disruption impacts Azure Cloud
Rede Virtual do AzureAzure Virtual Network Rede Virtual – Continuidade de NegóciosVirtual Network – Business Continuity

Próximas etapasNext steps