Recuperação após desastre para aplicações do AzureDisaster recovery for Azure applications

Recuperação após desastre (DR) se concentra em recuperar de uma perda catastrófica de funcionalidade do aplicativo.Disaster recovery (DR) is focused on recovering from a catastrophic loss of application functionality. Por exemplo, se uma região do Azure que aloja a aplicação ficar indisponível, terá de um plano de execução da sua aplicação ou aceder aos seus dados noutra região.For example, if an Azure region hosting your application becomes unavailable, you need a plan for running your application or accessing your data in another region.

Os proprietários de negócios e tecnologia tem de determinar quanta funcionalidade é necessária durante um desastre.Business and technology owners must determine how much functionality is required during a disaster. Este nível de funcionalidade pode demorar alguns formulários: completamente indisponível, parcialmente disponível por meio de funcionalidade reduzida ou processamento atrasado ou estão totalmente disponíveis.This level of functionality can take a few forms: completely unavailable, partially available via reduced functionality or delayed processing, or fully available.

Resiliência e estratégias de elevada disponibilidade destinam-se para a manipulação de condições de falha temporária.Resiliency and high availability strategies are intended for handling temporary failure conditions. Este plano em execução envolve as pessoas, processos e aplicativos de apoio que permitem que o sistema para continuar a funcionar.Executing this plan involves people, processes, and supporting applications that allow the system to continue functioning. Seu plano deve incluir rehearsing falhas e a recuperação de bases de dados para garantir que o plano de teste é som.Your plan should include rehearsing failures and testing the recovery of databases to ensure the plan is sound.

Recursos de recuperação após desastre do AzureAzure disaster recovery features

Como com considerações de disponibilidade, o Azure fornece orientações técnicas sobre resiliência concebida para suportar a recuperação após desastre.As with availability considerations, Azure provides resiliency technical guidance designed to support disaster recovery. Também existe uma relação entre os recursos de disponibilidade do Azure e recuperação após desastre.There is also a relationship between availability features of Azure and disaster recovery. Por exemplo, o gerenciamento de funções em domínios de falha aumenta a disponibilidade de um aplicativo.For example, the management of roles across fault domains increases the availability of an application. Sem que o gerenciamento, se uma falha de hardware não processada tornaria um cenário de "desastre".Without that management, an unhandled hardware failure would become a “disaster” scenario. Tirar partido destas funcionalidades de disponibilidade e estratégias é uma parte importante de protegendo contra desastres a sua aplicação.Leveraging these availability features and strategies is an important part of disaster-proofing your application. No entanto, este artigo vai além de problemas de disponibilidade geral para eventos de desastre mais sério (e mais raros).However, this article goes beyond general availability issues to more serious (and rarer) disaster events.

Várias regiões de datacenterMultiple datacenter regions

O Azure mantém os datacenters em muitas regiões em todo o mundo.Azure maintains datacenters in many regions around the world. Esta infraestrutura suporta vários cenários de recuperação após desastre, como fornecidos pelo sistema georreplicação do armazenamento do Azure para regiões secundárias.This infrastructure supports several disaster recovery scenarios, such as system-provided geo-replication of Azure Storage to secondary regions. Pode também facilmente e econômica implementar um serviço em nuvem em várias localizações em todo o mundo.You can also easily and inexpensively deploy a cloud service to multiple locations around the world. Compare isso com o custo e a dificuldade de criar e manter os seus próprios datacenters em várias regiões.Compare this with the cost and difficulty of building and maintaining your own datacenters in multiple regions. Implementar serviços e dados em várias regiões ajuda a proteger a sua aplicação de uma grande falha numa única região.Deploying data and services to multiple regions helps protect your application from a major outage in a single region. À medida que concebe seu plano de recuperação após desastre, é importante compreender o conceito de regiões emparelhadas.As you design your disaster recovery plan, it’s important to understand the concept of paired regions. Para obter mais informações, consulte Business continuidade e recuperação após desastre (BCDR): Regiões emparelhadas do Azure.For more information, see Business continuity and disaster recovery (BCDR): Azure Paired Regions.

Azure Site RecoveryAzure Site Recovery

O Azure Site Recovery fornece uma forma simples de replicar VMs do Azure entre regiões.Azure Site Recovery provides a simple way to replicate Azure VMs between regions. Ele tem sobrecarga de gerenciamento de mínimo, uma vez que não precisa de aprovisionar recursos adicionais na região secundária.It has minimal management overhead, because you don't need to provision any additional resources in the secondary region. Quando ativa a replicação, recuperação de sites cria automaticamente os recursos necessários na região de destino, com base nas definições de VM de origem.When you enable replication, Site Recovery automatically creates the required resources in the target region, based on the source VM settings. Ele fornece replicação contínua e permite-lhe executar failover de aplicativos com um único clique.It provides automated continuous replication, and enables you to perform application failover with a single click. Também pode executar após desastre testes de recuperação, teste de ativação pós-falha, sem afetar as suas cargas de trabalho de produção ou os replicação em curso.You can also run disaster recovery drills by testing failover, without affecting your production workloads or ongoing replication.

Traffic Manager do AzureAzure Traffic Manager

Quando ocorre uma falha de região específicos, tem de redirecionar o tráfego para serviços ou implementações noutra região.When a region-specific failure occurs, you must redirect traffic to services or deployments in another region. É mais eficiente de lidar com isso por meio de serviços, como o Azure Traffic Manager, que automatiza a ativação pós-falha de tráfego de utilizador para outra região, se a região primária falhar.It is most effective to handle this via services such as Azure Traffic Manager, which automates the failover of user traffic to another region if the primary region fails. Compreender os conceitos básicos do Gestor de tráfego é importante ao conceber uma estratégia eficaz de DR.Understanding the fundamentals of Traffic Manager is important when designing an effective DR strategy.

O Gestor de tráfego utiliza o sistema de nomes de domínio (DNS) para direcionar os pedidos de cliente para o ponto de final mais adequado com base num método de encaminhamento de tráfego e o estado de funcionamento dos pontos finais.Traffic Manager uses the Domain Name System (DNS) to direct client requests to the most appropriate endpoint based on a traffic-routing method and the health of the endpoints. No diagrama seguinte, os utilizadores ligar a um URL do Gestor de tráfego (http://myATMURL.trafficmanager.net) que abstrai os URLs do site real (http://app1URL.cloudapp.net e http://app2URL.cloudapp.net).In the following diagram, users connect to a Traffic Manager URL (http://myATMURL.trafficmanager.net) which abstracts the actual site URLs (http://app1URL.cloudapp.net and http://app2URL.cloudapp.net). Pedidos de utilizador são encaminhados para a URL subjacente adequada com base na sua configurado método de encaminhamento do Gestor de tráfego.User requests are routed to the proper underlying URL based on your configured Traffic Manager routing method. Neste artigo, iremos irá se preocupar com apenas a opção de ativação pós-falha.For the sake of this article, we will be concerned with only the failover option.

Encaminhamento através do Gestor de tráfego do Azure

Ao configurar o Gestor de tráfego, é fornecer um novo prefixo de DNS do Gestor de tráfego, os utilizadores que irão utilizar para aceder ao seu serviço.When configuring Traffic Manager, you provide a new Traffic Manager DNS prefix, which users will use to access your service. Gestor de tráfego agora resumos balanceamento de um nível superior que o nível regional.Traffic Manager now abstracts load balancing one level higher that the regional level. O DNS do Gestor de tráfego é mapeado para um CNAME para todas as implementações que gerencia.The Traffic Manager DNS maps to a CNAME for all the deployments that it manages.

No Gestor de tráfego, especificar uma lista prioritária de implementações que os utilizadores serão encaminhados para quando ocorre uma falha.Within Traffic Manager, you specify a prioritized list of deployments that users will be routed to when failure occurs. O Gestor de tráfego monitoriza os pontos de extremidade de implementação.Traffic Manager monitors the deployment endpoints. Se a implementação principal ficar indisponível, o Gestor de tráfego encaminha os utilizadores para a implementação próxima da lista de prioridade.If the primary deployment becomes unavailable, Traffic Manager routes users to the next deployment on the priority list.

Embora o Gestor de tráfego decide onde ir durante uma ativação pós-falha, pode decidir se o domínio de ativação pós-falha está ativo ou inativo enquanto não está no modo de ativação pós-falha (que não está relacionado para o Gestor de tráfego).Although Traffic Manager decides where to go during a failover, you can decide whether your failover domain is dormant or active while you're not in failover mode (which is unrelated to Traffic Manager). O Gestor de tráfego detetar uma falha no site primário e passa para o site de ativação pós-falha, independentemente se esse site está atualmente a funcionar os utilizadores.Traffic Manager detects a failure in the primary site and rolls over to the failover site, regardless of whether that site is currently serving users.

Para obter mais informações sobre como funciona o Gestor de tráfego do Azure, consulte:For more information on how Azure Traffic Manager works, refer to:

Cenários de desastre do AzureAzure disaster scenarios

As secções seguintes abrangem vários tipos diferentes de cenários de desastre.The following sections cover several different types of disaster scenarios. As interrupções do serviço de toda a região não são a única causa de falhas de toda a aplicação.Region-wide service disruptions are not the only cause of application-wide failures. Um design deficiente e erros administrativos, também podem levar a falhas.Poor design and administrative errors can also lead to outages. É importante considerar as possíveis causas de uma falha durante o design e fases de teste do seu plano de recuperação.It's important to consider the possible causes of a failure during both the design and testing phases of your recovery plan. Um bom plano tira partido das funcionalidades do Azure e aumenta-los com estratégias específicas da aplicação.A good plan takes advantage of Azure features and augments them with application-specific strategies. A resposta escolhida é determinada pela importância do aplicativo, o objetivo de ponto de recuperação (RPO) e o objetivo de tempo de recuperação (RTO).The chosen response is determined by the importance of the application, the recovery point objective (RPO), and the recovery time objective (RTO).

Falha da aplicaçãoApplication failure

O Gestor de tráfego do Azure lida automaticamente com falhas resultantes do software de hardware ou sistema operativo subjacente na máquina virtual do anfitrião.Azure Traffic Manager automatically handles failures that result from the underlying hardware or operating system software in the host virtual machine. O Azure cria uma nova instância de função e adiciona-o para o conjunto disponível.Azure creates a new role instance and adds it to the available pool. Se mais do que uma instância de função já estava em execução, o Azure passa processamento para as outras instâncias de função em execução enquanto que substituir o nó com falha.If more than one role instance was already running, Azure shifts processing to the other running role instances while replacing the failed node.

Podem ocorrer erros de aplicativos séria sem qualquer falha subjacente do sistema operativo ou hardware.Serious application errors can occur without any underlying failure of the hardware or operating system. A aplicação poderá falhar devido a exceções catastróficas causadas por lógica incorreta ou problemas de integridade de dados.The application might fail due to catastrophic exceptions caused by bad logic or data integrity issues. Tem de incluir telemetria suficiente no código da aplicação para que um sistema de monitorização pode detectar condições de falha e notificar um administrador da aplicação.You must include sufficient telemetry in the application code so that a monitoring system can detect failure conditions and notify an application administrator. Um administrador que tem conhecimento completo dos processos de recuperação após desastre pode decidir se pretende acionar um processo de ativação pós-falha ou aceitar uma interrupção de disponibilidade ao resolver os erros críticos.An administrator who has full knowledge of the disaster recovery processes can decide whether to trigger a failover process or accept an availability outage while resolving the critical errors.

Danos em dadosData corruption

Azure armazena automaticamente dados de base de dados do Azure SQL e armazenamento do Azure três vezes adquiria dentro de domínios de falha diferentes na mesma região.Azure automatically stores Azure SQL Database and Azure Storage data three times redundantly within different fault domains in the same region. Se utilizar a georreplicação, os dados são armazenados três vezes adicionais numa região diferente.If you use geo-replication, the data is stored three additional times in a different region. No entanto, se os utilizadores ou de seu aplicativo ficarão corrompidos esses dados na cópia principal, os dados replica rapidamente para as outras cópias.However, if your users or your application corrupts that data in the primary copy, the data quickly replicates to the other copies. Infelizmente, isso resulta em várias cópias dos dados danificados.Unfortunately, this results in multiple copies of corrupt data.

Para gerir o dano potencial dos seus dados, tem duas opções.To manage potential corruption of your data, you have two options. Em primeiro lugar, pode gerir uma estratégia de cópia de segurança personalizada.First, you can manage a custom backup strategy. Pode armazenar as cópias de segurança no Azure ou no local, consoante as suas necessidades comerciais ou normas de governação.You can store your backups in Azure or on-premises, depending on your business requirements or governance regulations. Outra opção consiste em utilizar a opção de restauro de ponto no tempo para recuperar uma base de dados do SQL.Another option is to use the point-in-time restore option to recover a SQL database. Para obter mais informações, consulte a estratégias de dados para recuperação após desastre secção abaixo.For more information, see the data strategies for disaster recovery section below.

Falha de redeNetwork outage

Quando as partes da rede do Azure estão inacessíveis, pode não ser possível aceder à sua aplicação ou os dados.When parts of the Azure network are inaccessible, you may be unable to access your application or data. Se uma ou mais instâncias de função não estão disponíveis devido a problemas de rede, o Azure utiliza as instâncias disponíveis restantes da sua aplicação.If one or more role instances are unavailable due to network issues, Azure uses the remaining available instances of your application. Se seu aplicativo não é possível acessar seus dados devido a uma indisponibilidade de rede do Azure, pode executar potencialmente com funcionalidade de aplicativos reduzidos localmente ao utilizar dados em cache.If your application cannot access its data because of an Azure network outage, you can potentially run with reduced application functionality locally by using cached data. Terá de criar a estratégia de recuperação após desastre para executar com funcionalidade reduzida no seu aplicativo.You need to design the disaster recovery strategy to run with reduced functionality in your application. Para alguns aplicativos, isso pode não ser prático.For some applications, this might not be practical.

Outra opção é armazenar dados numa localização alternativa até que a conectividade é restaurada.Another option is to store data in an alternate location until connectivity is restored. Se reduzir a funcionalidade não é uma opção, as opções restantes são período de indisponibilidade de aplicação ou a ativação pós-falha para uma região alternativa.If reducing functionality is not an option, the remaining options are application downtime or failover to an alternate region. O design de uma aplicação em execução com funcionalidade reduzida é tanto uma decisão comercial como uma técnica.The design of an application running with reduced functionality is as much a business decision as a technical one. Isso é discutido com mais na seção sobre reduzida a funcionalidade do aplicativo.This is discussed further in the section on reduced application functionality.

Falha de um serviço dependenteFailure of a dependent service

O Azure fornece vários serviços que podem experimentar o tempo de inatividade periódico.Azure provides many services that can experience periodic downtime. Por exemplo, a Cache de Redis do Azure é um serviço de multi-inquilino, que fornece recursos de colocação em cache para seu aplicativo.For example, Azure Redis Cache is a multi-tenant service which provides caching capabilities to your application. É importante considerar o que acontece em seu aplicativo se o serviço dependente está indisponível.It's important to consider what happens in your application if the dependent service is unavailable. Em muitos aspectos, esse cenário é semelhante ao cenário de indisponibilidade de rede.In many ways, this scenario is similar to the network outage scenario. No entanto, Considerando a cada serviço de forma independente resulta em possíveis aprimoramentos ao seu plano geral.However, considering each service independently results in potential improvements to your overall plan.

A Cache de Redis do Azure fornece a colocação em cache para a sua aplicação a partir de sua implementação do serviço cloud, que fornece benefícios de recuperação de desastres.Azure Redis Cache provides caching to your application from within your cloud service deployment, which provides disaster recovery benefits. Em primeiro lugar, o serviço agora é executado nas funções que são locais para a sua implementação.First, the service now runs on roles that are local to your deployment. Portanto, está mais capaz de monitorizar e gerir o estado da cache como parte dos seus processos de gestão geral para o serviço cloud.Therefore, you're better able to monitor and manage the status of the cache as part of your overall management processes for the cloud service. Este tipo de colocação em cache também apresenta novos recursos, como elevada disponibilidade para dados em cache, que preserva os dados em cache se a um único nó falhar, mantendo cópias duplicadas nos outros nós.This type of caching also exposes new features such as high availability for cached data, which preserves cached data if a single node fails by maintaining duplicate copies on other nodes.

Tenha em atenção que a elevada disponibilidade diminui o débito e aumenta a latência, porque as operações de escrita também tem upedate quaisquer cópias secundárias.Note that high availability decreases throughput and increases latency because write operations must also upedate any secondary copies. A quantidade de memória necessária para armazenar os dados em cache é efetivamente dobrada, que devem ser levado em consideração durante o planejamento de capacidade.The amount of memory required to store the cached data is effectively doubled, which must be taken into account during capacity planning. Este exemplo demonstra que a cada serviço dependente pode ter capacidades que melhoram a sua disponibilidade geral e resistência a falhas catastróficas.This example demonstrates that each dependent service might have capabilities that improve your overall availability and resistance to catastrophic failures.

Com cada serviço dependente, deve compreender as implicações de uma interrupção do serviço.With each dependent service, you should understand the implications of a service disruption. No exemplo a colocação em cache, é possível acessar os dados diretamente a partir de uma base de dados até que restaura a sua cache.In the caching example, it might be possible to access the data directly from a database until you restore your cache. Isso resultaria em queda de desempenho, fornecendo acesso total aos dados da aplicação.This would result in reduced performance while providing full access to application data.

Interrupção do serviço de toda a regiãoRegion-wide service disruption

As falhas anteriores foram principalmente falhas que podem ser geridas na mesma região do Azure.The previous failures have primarily been failures that can be managed within the same Azure region. No entanto, tem também de preparar para a possibilidade de que existe uma interrupção do serviço de toda a região.However, you must also prepare for the possibility that there is a service disruption of the entire region. Se ocorrer uma interrupção do serviço de toda a região, as cópias localmente redundantes dos seus dados não estão disponíveis.If a region-wide service disruption occurs, the locally redundant copies of your data are not available. Se tiver ativado os replicação geográfica, isso significa que existem três cópias adicionais dos seus blobs e tabelas numa região diferente.If you have enabled geo-replication, there are three additional copies of your blobs and tables in a different region. Se o Microsoft declara a região perdida, o Azure remapeamentos dos todas as entradas de DNS para a região georreplicado.If Microsoft declares the region lost, Azure remaps all of the DNS entries to the geo-replicated region.

Nota

Lembre-se de que não tem nenhum controle sobre este processo, e ele ocorrerá apenas para interrupção do serviço de toda a região.Be aware that you don't have any control over this process, and it will occur only for region-wide service disruption. Considere a utilização do Azure Site Recovery para alcançar melhor RPO e RTO.Consider using Azure Site Recovery to achieve better RPO and RTO. Recuperação de sites permite que o aplicativo decidir o que é um período de indisponibilidade aceitável e quando a ativação pós-falha para as VMs replicadas.Site Recovery allows application to decide what is an acceptable outage, and when to fail over to the replicated VMs.

Interrupção do serviço de todo o AzureAzure-wide service disruption

No planejamento de desastre, deve considerar o intervalo completo de desastres possíveis.In disaster planning, you must consider the entire range of possible disasters. Uma das interrupções de serviço mais graves envolveria a todas as regiões do Azure em simultâneo.One of the most severe service disruptions would involve all Azure regions simultaneously. Tal como acontece com outras interrupções de serviço, pode optar por aceitar o risco de períodos de indisponibilidade temporária de ou eventos.As with other service disruptions, you might decide to accept the risk of temporary downtime in that event. As interrupções de serviço ampla que abrangem regiões são muito mais raros que as interrupções de serviço isolado que envolvem serviços dependentes ou regiões únicos.Widespread service disruptions that span regions are much rarer than isolated service disruptions involving dependent services or single regions.

No entanto, pode decidir que determinados aplicativos de missão crítica requerem um plano de cópia de segurança para uma interrupção do serviço de várias regiões.However, you may decide that certain mission-critical applications require a backup plan for a multi-region service disruption. Este plano pode incluir fazer failover para serviços numa cloud alternativa ou uma híbrida no local e solução na cloud.This plan might include failing over to services in an alternative cloud or a hybrid on-premises and cloud solution.

Funcionalidade de aplicativos reduzidosReduced application functionality

Um aplicativo bem projetado, normalmente, utiliza os serviços comunicam entre si, no entanto, a implementação de padrões de troca de informações de menos rígida.A well-designed application typically uses services that communicate with each other though the implementation of loosely coupled information-interchange patterns. Um aplicativo de amigável de DR requer separação de responsabilidades no nível de serviço.A DR-friendly application requires separation of responsibilities at the service level. Isto impede que a interrupção de um serviço dependente interrupções em todo o aplicativo.This prevents the disruption of a dependent service from bringing down the entire application. Por exemplo, considere um aplicativo de comércio de web para a empresa Y. Os seguintes módulos poderão constituem o aplicativo:For example, consider a web commerce application for Company Y. The following modules might constitute the application:

  • Catálogo de produtos permite aos usuários navegar produtos.Product Catalog allows users to browse products.
  • O carrinho de compras permite aos utilizadores adicionar/remover produtos no seu carrinho de compras.Shopping Cart allows users to add/remove products in their shopping cart.
  • ORDER Status mostra o estado de envio de pedidos de utilizador.Order Status shows the shipping status of user orders.
  • Solicitar a submissão finaliza a sessão de compra ao submeter o pedido com o pagamento.Order Submission finalizes the shopping session by submitting the order with payment.
  • Ordem de processamento valida a ordem para a integridade dos dados e efetua uma verificação de disponibilidade de quantidade.Order Processing validates the order for data integrity and performs a quantity availability check.

Quando uma dependência de serviço neste aplicativo fica indisponível, como o serviço de função até que a dependência recupera?When a service dependency in this application becomes unavailable, how does the service function until the dependency recovers? Um sistema bem projetado implementa os limites de isolamento através da separação de responsabilidades, em tempo de design e no tempo de execução.A well-designed system implements isolation boundaries through separation of responsibilities, both at design time and at runtime. Pode categorizar cada falha como recuperáveis e não recuperável.You can categorize every failure as recoverable and non-recoverable. Erros não recuperáveis serão prejudique o serviço, mas pode mitigar a um erro recuperável por meio de alternativas.Non-recoverable errors will bring down the service, but you can mitigate a recoverable error through alternatives. Determinados problemas resolvidos pelo processamento de falhas e realizar ações alternativas automaticamente são transparentes ao usuário.Certain problems addressed by automatically handling faults and taking alternate actions are transparent to the user. Durante uma interrupção de serviço mais grave, a aplicação pode ser completamente indisponível.During a more serious service disruption, the application might be completely unavailable. Uma terceira opção é para continuar a processar os pedidos de utilizador com funcionalidade reduzida.A third option is to continue handling user requests with reduced functionality.

Por exemplo, se a base de dados para o alojamento de ordens de ficar inativo, o serviço de processamento de ordem perde a capacidade para processar transações de vendas.For instance, if the database for hosting orders goes down, the Order Processing service loses its ability to process sales transactions. Consoante a arquitetura, poderá ser difícil ou impossível para os serviços de submissão de pedido e a ordem de processamento da aplicação para continuar.Depending on the architecture, it might be difficult or impossible for the Order Submission and Order Processing services of the application to continue. Se a aplicação não foi concebida para processar este cenário, todo o aplicativo poderá ficar offline.If the application is not designed to handle this scenario, the entire application might go offline. No entanto, se os dados de produto são armazenados numa localização diferente, em seguida, o módulo do catálogo de produtos pode ainda ser usado para a visualização de produtos.However, if the product data is stored in a different location, then the Product Catalog module can still be used for viewing products. No entanto, outras partes do aplicativo não estão disponíveis, como consultas de ordenação ou inventário.However, other parts of the application are unavailable, such as ordering or inventory queries.

Decidir qual funcionalidade de aplicativos reduzidos está disponível é uma decisão de negócios e uma decisão técnica.Deciding what reduced application functionality is available is both a business decision and a technical decision. Deve decidir como a aplicação irá informar os utilizadores de qualquer problema temporário.You must decide how the application will inform the users of any temporary problems. No exemplo acima, o aplicativo poderá permitir a visualização de produtos e adicioná-las para um carrinho de compras.In the example above, the application might allow viewing products and adding them to a shopping cart. No entanto, quando o utilizador tenta fazer uma compra, o aplicativo notifica o utilizador que a funcionalidade de ordenação está temporariamente indisponível.However, when the user attempts to make a purchase, the application notifies the user that the ordering functionality is temporarily unavailable. Não é a ideal para o cliente, mas ele impede uma interrupção do serviço de toda a aplicação.This isn't ideal for the customer, but it does prevent an application-wide service disruption.

Estratégias de dados para recuperação após desastreData strategies for disaster recovery

Manipulação de dados apropriada é um aspecto desafiador de um plano de recuperação após desastre.Proper data handling is a challenging aspect of a disaster recovery plan. Durante o processo de recuperação, o restauro de dados normalmente demora mais tempo.During the recovery process, data restoration typically takes the most time. Opções diferentes para reduzir a funcionalidade resultam em desafios difíceis para a recuperação de dados de falha e consistência após falha.Different choices for reducing functionality result in difficult challenges for data recovery from failure and consistency after failure.

Uma consideração é a necessidade de restaurar ou manter uma cópia de dados da aplicação.One consideration is the need to restore or maintain a copy of the application’s data. Irá utilizar estes dados de referência e efeitos transacionais num site secundário.You will use this data for reference and transactional purposes at a secondary site. Uma implementação no local requer um processo Caro e demorado planeamento para implementar uma estratégia de recuperação após desastre de várias regiões.An on-premises deployment requires an expensive and lengthy planning process to implement a multiple-region disaster recovery strategy. Convenientemente, a maioria dos fornecedores de cloud, incluindo o Azure, prontamente permitem a implementação de aplicações para várias regiões.Conveniently, most cloud providers, including Azure, readily allow the deployment of applications to multiple regions. Estas regiões estão distribuídas geograficamente de forma que a interrupção do serviço de várias regiões deve ser extremamente rara.These regions are geographically distributed in such a way that multiple-region service disruption should be extremely rare. A estratégia de tratamento de dados em várias regiões é um dos fatores coadjuvantes para o sucesso de qualquer plano de recuperação após desastre.The strategy for handling data across regions is one of the contributing factors for the success of any disaster recovery plan.

As secções seguintes abordam técnicas de recuperação após desastre relacionados com cópias de segurança de dados, dados de referência e dados transacionais.The following sections discuss disaster recovery techniques related to data backups, reference data, and transactional data.

Cópia de segurança e restauroBackup and restore

Cópias de segurança regulares dos dados de aplicação podem suportar alguns cenários de recuperação após desastre.Regular backups of application data can support some disaster recovery scenarios. Recursos de armazenamento diferentes exigem técnicas diferentes.Different storage resources require different techniques.

SQL DatabaseSQL Database

Para os escalões básico, Standard e Premium base de dados SQL, pode tirar partido do restauro de ponto no tempo para recuperar a base de dados.For the Basic, Standard, and Premium SQL Database tiers, you can take advantage of point-in-time restore to recover your database. Para obter mais informações, consulte descrição geral: Cloud de recuperação de desastres de continuidade e a base de dados empresariais com base de dados SQL.For more information, see Overview: Cloud business continuity and database disaster recovery with SQL Database. Outra opção consiste em utilizar a Georreplicação ativa para base de dados SQL.Another option is to use Active Geo-Replication for SQL Database. Isso replica automaticamente as alterações de base de dados para bases de dados secundárias na mesma região do Azure ou até mesmo numa região do Azure diferente.This automatically replicates database changes to secondary databases in the same Azure region or even in a different Azure region. Isso fornece uma alternativa potencial para algumas das técnicas de sincronização de dados mais manuais apresentadas neste artigo.This provides a potential alternative to some of the more manual data synchronization techniques presented in this article. Para obter mais informações, consulte descrição geral: SQL da base de dados-Georreplicação ativa.For more information, see Overview: SQL Database Active Geo-Replication.

Também pode utilizar uma abordagem mais manual para cópia de segurança e restaurar.You can also use a more manual approach for backup and restore. Utilize o comando de cópia da base de dados para criar uma cópia de segurança da base de dados com consistência transacional.Use the DATABASE COPY command to create a backup copy of the database with transactional consistency. Também pode utilizar o serviço importar/exportar do Azure SQL Database, que suporta bases de dados exportar ficheiros BACPAC (arquivos compactados, que contém o esquema de base de dados e os dados associados) que estão armazenados no armazenamento de Blobs do Azure.You can also use the import/export service of Azure SQL Database, which supports exporting databases to BACPAC files (compressed files containing your database schema and associated data) that are stored in Azure Blob storage.

A redundância incorporada do armazenamento do Azure cria duas réplicas do arquivo de backup na mesma região.The built-in redundancy of Azure Storage creates two replicas of the backup file in the same region. No entanto, a frequência de execução do processo de cópia de segurança determina o RPO, que é a quantidade de dados que poderá perder em cenários de desastre.However, the frequency of running the backup process determines your RPO, which is the amount of data you might lose in disaster scenarios. Por exemplo, imagine que efetue uma cópia de segurança na parte superior de cada hora, e dois minutos antes do início da hora de ocorrer um desastre.For example, imagine that you perform a backup at the top of each hour, and a disaster occurs two minutes before the top of the hour. Perde 58 minutos de dados registados após o último backup foi executado.You lose 58 minutes of data recorded after the last backup was performed. Além disso, para proteger contra uma interrupção do serviço de toda a região, deve copiar os ficheiros BACPAC para uma região alternativa.Also, to protect against a region-wide service disruption, you should copy the BACPAC files to an alternate region. Em seguida, tem a opção de restaurar essas cópias de segurança na região alternativo.You then have the option of restoring those backups in the alternate region. Para obter mais detalhes, consulte descrição geral: Cloud de recuperação de desastres de continuidade e a base de dados empresariais com base de dados SQL.For more details, see Overview: Cloud business continuity and database disaster recovery with SQL Database.

SQL Data WarehouseSQL Data Warehouse

Para o SQL Data Warehouse, utilize cópias de segurança geo para restaurar para uma região emparelhada para recuperação após desastre.For SQL Data Warehouse, use geo-backups to restore to a paired region for disaster recovery. Estas cópias de segurança direcionadas a cada 24 horas e podem ser restauro dentro de 20 minutos na região associada.These backups are taken every 24 hours and can be restore within 20 minutes in the paired region. Esta funcionalidade está ativada por predefinição para todos os armazéns de dados SQL.This feature is on by default for all SQL data warehouses. Para obter mais informações sobre como restaurar o seu armazém de dados, consulte restaurar a partir de uma região geográfica do Azure com o PowerShell.For more information on how to restore your data warehouse, see Restore from an Azure geographical region using PowerShell.

Storage do AzureAzure Storage

Armazenamento do Azure, pode desenvolver um processo de cópia de segurança personalizado ou utilizar uma das muitas ferramentas de cópia de segurança de terceiros.For Azure Storage, you can develop a custom backup process or use one of many third-party backup tools. Tenha em atenção que a maioria das estruturas de aplicação têm complexidades adicionais em que os recursos de armazenamento referenciar uns aos outros.Note that most application designs have additional complexities where storage resources reference each other. Por exemplo, considere uma base de dados do SQL que tem uma coluna que liga para um blob no armazenamento do Azure.For example, consider a SQL database that has a column that links to a blob in Azure Storage. Se as cópias de segurança não aconteçam em simultâneo, a base de dados pode ter um ponteiro para um blob que não foi feito backup antes da falha.If the backups do not happen simultaneously, the database might have a pointer to a blob that was not backed up before the failure. A aplicação ou o plano de recuperação após desastre, deve implementar processos para lidar com essa inconsistência após uma recuperação.The application or disaster recovery plan must implement processes to handle this inconsistency after a recovery.

Outras plataformas de dadosOther data platforms

Outro infraestrutura-como-serviço (IaaS) alojados em plataformas de dados, como o Elasticsearch ou MongoDB, tem suas próprias capacidades e considerações ao criar um processo de restauro e cópia de segurança integrada.Other infrastructure-as-a-service (IaaS) hosted data platforms, such as Elasticsearch or MongoDB, have their own capabilities and considerations when creating an integrated backup and restore process. Para estas plataformas de dados, a recomendação geral é usar qualquer replicação nativa ou disponível, com base na integração ou a capacidades de instantâneos.For these data platforms, the general recommendation is to use any native or available integration-based replication or snapshotting capabilities. Se esses recursos não existe ou não são adequados, considere utilizar o serviço de cópia de segurança do Azure ou instantâneos de disco kombinace spravovaného a nespravovaného para criar uma cópia de ponto no tempo dos dados de aplicação.If those capabilities do not exist or are not suitable, then consider using Azure Backup Service or managed/unmanaged disk snapshots to create a point-in-time copy of application data. Em todos os casos, é importante determinar como atingir as cópias de segurança, especialmente quando os dados da aplicação abranjam vários sistemas de ficheiros, ou quando múltiplas unidades são combinadas num sistema de ficheiro único usando gestores de volume ou RAID baseado em software.In all cases, it’s important to determine how to achieve consistent backups, especially when application data spans multiple files systems, or when multiple drives are combined into a single file system using volume managers or software-based RAID.

Padrão de dados de referência para a recuperação após desastreReference data pattern for disaster recovery

Os dados de referência são dados só de leitura que suporta a funcionalidade do aplicativo.Reference data is read-only data that supports application functionality. Normalmente, não é alterada com frequência.It typically does not change frequently. Embora o backup e restauração é um método para lidar com interrupções ao serviço de toda a região, o RTO é relativamente longo.Although backup and restore is one method to handle region-wide service disruptions, the RTO is relatively long. Ao implementar a aplicação para uma região secundária, algumas estratégias podem melhorar o RTO para dados de referência.When you deploy the application to a secondary region, some strategies can improve the RTO for reference data.

Uma vez que as alterações de dados de referência com pouca frequência, pode melhorar o RTO ao manter uma cópia permanente dos dados de referência na região secundária.Because reference data changes infrequently, you can improve the RTO by maintaining a permanent copy of the reference data in the secondary region. Isso elimina o tempo necessário para restaurar cópias de segurança em caso de desastre.This eliminates the time required to restore backups in the event of a disaster. Para cumprir os requisitos de recuperação após desastre de várias regiões, terá de implementar a aplicação e os dados de referência em conjunto em várias regiões.To meet the multiple-region disaster recovery requirements, you must deploy the application and the reference data together in multiple regions. Pode implementar dados de referência para a função em si, para armazenamento externo, ou uma combinação de ambos.You can deploy reference data to the role itself, to external storage, or to a combination of both.

O modelo de implementação de dados de referência em nós de computação implicitamente satisfaz os requisitos de recuperação após desastre.The reference data deployment model within compute nodes implicitly satisfies the disaster recovery requirements. Implementação de dados de referência para a base de dados SQL exige que implemente uma cópia dos dados de referência para cada região.Reference data deployment to SQL Database requires that you deploy a copy of the reference data to each region. A mesma estratégia aplica-se ao armazenamento do Azure.The same strategy applies to Azure Storage. Tem de implementar uma cópia de quaisquer dados de referência que são armazenados no armazenamento do Azure para as regiões primárias e secundárias.You must deploy a copy of any reference data that's stored in Azure Storage to the primary and secondary regions.

Publicação de dados de referência para regiões primária e secundária

Deve implementar seu próprio rotinas de cópia de segurança específicas do aplicativo para todos os dados, incluindo dados de referência.You must implement your own application-specific backup routines for all data, including reference data. Cópias de georreplicação entre regiões são utilizadas apenas numa interrupção do serviço de toda a região.Geo-replicated copies across regions are used only in a region-wide service disruption. Para impedir que o tempo de inatividade prolongado, implemente as partes críticas de dados da aplicação para a região secundária.To prevent extended downtime, deploy the mission-critical parts of the application’s data to the secondary region. Para obter um exemplo desta topologia, consulte a modelo de ativo-passivo.For an example of this topology, see the active-passive model.

Padrão de dados transacionais para recuperação após desastreTransactional data pattern for disaster recovery

Implementação de uma estratégia de modo totalmente funcional desastre requer a replicação assíncrona dos dados transacionais para a região secundária.Implementation of a fully functional disaster mode strategy requires asynchronous replication of the transactional data to the secondary region. As janelas de práticas de tempo em que pode ocorrer a replicação irão determinar as características RPO da aplicação.The practical time windows within which the replication can occur will determine the RPO characteristics of the application. Ainda poderá recuperar os dados que foram perdidos da região primária durante a janela de replicação.You might still recover the data that was lost from the primary region during the replication window. Também poderá conseguir intercalar com a região secundária, mais tarde.You might also be able to merge with the secondary region later.

Os exemplos de arquitetura seguintes mostram algumas idéias sobre as diferentes formas de manipulação de dados transacionais num cenário de ativação pós-falha.The following architecture examples provide some ideas on different ways of handling transactional data in a failover scenario. É importante ter em atenção que estes exemplos não são exaustivos.It's important to note that these examples are not exhaustive. Por exemplo, localizações de armazenamento intermediário como filas podem ser substituídas pela base de dados do Azure SQL.For example, intermediate storage locations such as queues might be replaced with Azure SQL Database. As próprias filas podem ser filas de armazenamento do Azure ou do Azure Service Bus (consulte filas do Azure e filas do Service Bus - comparação e contraste).The queues themselves might be either Azure Storage or Azure Service Bus queues (see Azure queues and Service Bus queues - compared and contrasted). Destinos de armazenamento do servidor podem também variar, tais como tabelas do Azure em vez de base de dados SQL.Server storage destinations might also vary, such as Azure tables instead of SQL Database. Além disso, as funções de trabalho poderão ser inseridas como intermediários em várias etapas.In addition, worker roles might be inserted as intermediaries in various steps. A intenção não é exatamente a emular essas arquiteturas, mas a ter em consideração várias alternativas na recuperação de dados transacionais e módulos relacionados.The intent is not to emulate these architectures exactly, but to consider various alternatives in the recovery of transactional data and related modules.

Replicação de dados transacionais em preparação para a recuperação após desastreReplication of transactional data in preparation for disaster recovery

Considere um aplicativo que usa filas de armazenamento do Azure para armazenar dados transacionais.Consider an application that uses Azure Storage queues to hold transactional data. Isso permite que as funções de trabalho processar os dados transacionais para a base de dados do servidor numa arquitetura dissociada.This allows worker roles to process the transactional data to the server database in a decoupled architecture. Isto requer que as transações usar alguma forma de um cache temporário se as funções do front-end requerem a consulta de imediato desses dados.This requires the transactions to use some form of temporary caching if the front-end roles require the immediate query of that data. Dependendo do nível de tolerância de perda de dados, pode optar por replicar as filas, a base de dados ou todos os recursos de armazenamento.Depending on the level of data-loss tolerance, you might choose to replicate the queues, the database, or all of the storage resources. Apenas os replicação de base de dados, se a região primária ficar inativo, pode continuar a recuperar os dados em filas quando volta a região primária.With only database replication, if the primary region goes down, you can still recover the data in the queues when the primary region comes back.

O diagrama seguinte mostra uma arquitetura onde a base de dados do servidor é sincronizada em várias regiões.The following diagram shows an architecture where the server database is synchronized across regions.

Replicação de dados transacionais em preparação para a recuperação após desastre

O maior desafio para implementar esta arquitetura é a estratégia de replicação entre regiões.The biggest challenge to implementing this architecture is the replication strategy between regions. O sincronização de dados SQL do Azure serviço permite esse tipo de replicação.The Azure SQL Data Sync service enables this type of replication. No momento da elaboração deste artigo, o serviço está em pré-visualização e ainda não é recomendado para ambientes de produção.As of this writing, the service is in preview and is not yet recommended for production environments. Para obter mais informações, consulte descrição geral: Cloud de recuperação de desastres de continuidade e a base de dados empresariais com base de dados SQL.For more information, see Overview: Cloud business continuity and database disaster recovery with SQL Database. Para aplicações de produção, tem de investir numa solução de terceiros ou criar sua própria lógica de replicação no código.For production applications, you must invest in a third-party solution or create your own replication logic in code. Consoante a arquitetura, a replicação pode ser bidirecional, que é mais complexo.Depending on the architecture, the replication might be bidirectional, which is more complex.

Uma implementação potencial pode tornar a utilização de fila intermediária no exemplo anterior.One potential implementation might make use of the intermediate queue in the previous example. A função de trabalho que processa os dados para o destino de armazenamento final poderá fazer a alteração na região primária e a região secundária.The worker role that processes the data to the final storage destination might make the change in both the primary region and the secondary region. Estes não são tarefas Triviais e diretrizes completas de código de replicação estão além do escopo deste artigo.These are not trivial tasks, and complete guidance for replication code is beyond the scope of this article. Investir tempo significativo e de teste para a abordagem para replicar dados para a região secundária.Invest significant time and testing into the approach for replicating data to the secondary region. Adicionais e de teste podem ajudar a garantir que os processos de ativação pós-falha e recuperação processam corretamente quaisquer inconsistências de dados ou transações duplicadas.Additional processing and testing can help ensure that the failover and recovery processes correctly handle any possible data inconsistencies or duplicate transactions.

Nota

A maior parte deste documento se concentra na plataforma como serviço (PaaS).Most of this paper focuses on platform as a service (PaaS). No entanto, as opções adicionais de replicação e a disponibilidade para aplicações híbridas utilizam máquinas virtuais do Azure.However, additional replication and availability options for hybrid applications use Azure Virtual Machines. Estas aplicações híbridas utilizam a infraestrutura como serviço (IaaS) para alojar o SQL Server em máquinas virtuais no Azure.These hybrid applications use infrastructure as a service (IaaS) to host SQL Server on virtual machines in Azure. Isso permite que abordagens tradicionais de disponibilidade no SQL Server, tais como grupos de Disponibilidade AlwaysOn ou envio de registo.This allows traditional availability approaches in SQL Server, such as AlwaysOn Availability Groups or Log Shipping. Algumas técnicas, tais como o AlwaysOn, trabalham apenas entre instâncias do SQL Server no local e máquinas virtuais do Azure.Some techniques, such as AlwaysOn, work only between on-premises SQL Server instances and Azure virtual machines. Para obter mais informações, consulte elevada disponibilidade e recuperação após desastre para o SQL Server em máquinas de virtuais do Azure.For more information, see High availability and disaster recovery for SQL Server in Azure Virtual Machines.

Funcionalidade de aplicativos reduzidos para captura de transaçãoReduced application functionality for transaction capture

Considere uma arquitetura de segundo que opera com funcionalidade reduzida.Consider a second architecture that operates with reduced functionality. A aplicação na região secundária desativa todas as funcionalidades, como relatórios de (BI business intelligence), ou filas a ser drenado.The application in the secondary region deactivates all the functionality, such as reporting, business intelligence (BI), or draining queues. Ela aceita apenas os tipos mais importantes dos fluxos de trabalho transacionais, como definido pelos requisitos comerciais.It accepts only the most important types of transactional workflows, as defined by business requirements. O sistema captura as transações e escreve-as filas.The system captures the transactions and writes them to queues. O sistema pode adiar a processar os dados durante a fase inicial da interrupção do serviço.The system might postpone processing the data during the initial stage of the service disruption. Se o sistema na região principal for reativado dentro da janela de tempo esperado, as funções de trabalho na região primária podem drenar as filas.If the system on the primary region is reactivated within the expected time window, the worker roles in the primary region can drain the queues. Este processo elimina a necessidade de mesclagem de base de dados.This process eliminates the need for database merging. Se a interrupção do serviço de região primária vai além da janela tolerável, a aplicação pode começar a processar as filas.If the primary region service disruption goes beyond the tolerable window, the application can start processing the queues.

Neste cenário, a base de dados na região secundária contém dados transacionais incrementais que tem de ser intercalados após o principal for reativado.In this scenario, the database in the secondary region contains incremental transactional data that must be merged after the primary is reactivated. O diagrama seguinte mostra esta estratégia para armazenar temporariamente dados transacionais até que a região primária é restaurada.The following diagram shows this strategy for temporarily storing transactional data until the primary region is restored.

Funcionalidade de aplicativos reduzidos para captura de transação

Para obter mais discussões de técnicas de gerenciamento de dados para aplicações do Azure resilientes, consulte contra falhas: Documentação de orientação para arquiteturas de nuvem Resiliente.For more discussion of data management techniques for resilient Azure applications, see Failsafe: Guidance for Resilient Cloud Architectures.

Topologias de implementação para recuperação após desastreDeployment topologies for disaster recovery

Tem de preparar aplicativos de missão crítica para lidar com interrupções ao serviço de toda a região.You must prepare mission-critical applications to handle region-wide service disruptions. Incorpore o planeamento operacional de uma estratégia de implementação em várias regiões.Incorporate a multiple-region deployment strategy into the operational planning.

Implementações de várias regiões podem envolver a processos de TI para publicar os dados de aplicativo e de referência para a região secundária após um desastre.Multiple-region deployments might involve IT processes to publish the application and reference data to the secondary region after a disaster. Se a aplicação requer a ativação pós-falha instantânea, o processo de implantação pode envolver uma configuração de ativo/passivo ou uma configuração de ativo/ativo.If the application requires instant failover, the deployment process might involve an active/passive setup or an active/active setup. Este tipo de implementação tem instâncias existentes da aplicação em execução na região alternativo.This type of deployment has existing instances of the application running in the alternate region. Um serviço de encaminhamento, como o Gestor de tráfego do Azure fornece serviços de balanceamento de carga ao nível do DNS.A routing service such as Azure Traffic Manager provides load-balancing services at the DNS level. Ele pode detectar as interrupções de serviço e encaminhar os utilizadores para diferentes regiões, quando necessário.It can detect service disruptions and route the users to different regions when needed.

Uma recuperação após desastre do Azure inclui a criação desse recuperação para a solução desde o início.A successful Azure disaster recovery includes building that recovery into the solution from the start. A nuvem oferece opções adicionais para recuperar de falhas durante um desastre que não estão disponíveis no fornecedor de alojamento tradicional.The cloud provides additional options for recovering from failures during a disaster that are not available in a traditional hosting provider. Especificamente, pode rapidamente e dinamicamente alocar recursos numa região diferente, evitando o custo dos recursos de inatividade antes de uma falha.Specifically, you can dynamically and quickly allocate resources in a different region, avoiding the cost of idle resources prior to a failure.

As secções seguintes abrangem topologias de implementação diferentes para recuperação após desastre.The following sections cover different deployment topologies for disaster recovery. Normalmente, há uma compensação no custo de aumento ou complexidade para disponibilidade adicional.Typically, there's a tradeoff in increased cost or complexity for additional availability.

Implementação numa única regiãoSingle-region deployment

Uma implementação numa única região não é realmente uma topologia de recuperação após desastre, mas tem o objetivo de contraste com as outras arquiteturas.A single-region deployment is not really a disaster recovery topology, but is meant to contrast with the other architectures. As implementações de única região são comuns para aplicações no Azure; No entanto, eles não cumprem os requisitos de uma topologia de recuperação após desastre.Single-region deployments are common for applications in Azure; however, they do not meet the requirements of a disaster recovery topology.

O diagrama seguinte ilustra uma aplicação em execução numa única região do Azure.The following diagram depicts an application running in a single Azure region. O Gestor de tráfego do Azure e o uso de domínios de atualização e de falha de aumentam a disponibilidade da aplicação dentro da região.Azure Traffic Manager and the use of fault and upgrade domains increase availability of the application within the region.

Implementação numa única região

Neste cenário, a base de dados é um ponto único de falha.In this scenario, the database is a single point of failure. Embora o Azure replica os dados em diferentes domínios de falha para réplicas internos, essa replicação ocorre apenas na mesma região.Though Azure replicates the data across different fault domains to internal replicas, this replication occurs only within the same region. A aplicação não é possível suportar uma falha catastrófica.The application cannot withstand a catastrophic failure. Se a região ficar indisponível, em seguida, então, fazer os domínios de falha, incluindo todas as instâncias de serviço e recursos de armazenamento.If the region becomes unavailable, then so do the fault domains, including all service instances and storage resources.

Para todos, mas os aplicativos menos críticos, tem de formar um plano para implantar seus aplicativos em várias regiões.For all but the least critical applications, you must devise a plan to deploy your applications across multiple regions. Também deve considerar o RTO e as restrições em considerar que topologia de implementação a utilizar de custos.You should also consider RTO and cost constraints in considering which deployment topology to use.

Vamos dar uma olhada agora em abordagens específicas para suporte de ativação pós-falha em diferentes regiões.Let's take a look now at specific approaches to supporting failover across different regions. Estes exemplos todos os utilizam duas regiões para descrever o processo.These examples all use two regions to describe the process.

Ativação pós-falha com o Azure Site RecoveryFailover using Azure Site Recovery

Quando ativa a replicação de VM do Azure com o Azure Site Recovery, ele cria vários recursos na região secundária:When you enable Azure VM replication using Azure Site Recovery, it creates several resources in the secondary region:

  • Grupo de recursos.Resource group.
  • Rede virtual (VNet).Virtual network (VNet).
  • Conta de armazenamento.Storage account.
  • Conjuntos de disponibilidade para manter as VMs após a ativação pós-falha.Availability sets to hold VMs after failover.

Escritas de dados nos discos de VM na região primária continuamente são transferidas para a conta de armazenamento na região secundária.Data writes on the VM disks in the primary region are continuously transferred to the storage account in the secondary region. Pontos de recuperação são gerados, a conta de armazenamento de destino, intervalos de poucos minutos.Recovery points are generated in the target storage account every few minutes. Quando iniciar uma ativação pós-falha, as VMs recuperadas são criadas no conjunto de grupo, a VNet e a disponibilidade de recursos do destino.When you initiate a failover, the recovered VMs are created in the target resource group, VNet, and availability set. Durante uma ativação pós-falha, pode escolher qualquer ponto de recuperação disponíveis.During a failover, you can choose any available recovery point.

Nova implementação para uma região secundária do AzureRedeployment to a secondary Azure region

Para que a abordagem de reimplementação para uma região secundária, apenas a região primária tem aplicações e bases de dados em execução.For the approach of redeployment to a secondary region, only the primary region has applications and databases running. A região secundária não está configurada para uma ativação pós-falha automática.The secondary region is not set up for an automatic failover. Então, quando ocorrer um desastre, devem acelerar todas as partes do serviço na nova região.So when a disaster occurs, you must spin up all the parts of the service in the new region. Isto inclui o carregamento de um serviço em nuvem para o Azure, implementar o serviço de nuvem, restaurar os dados e alteração de DNS para redirecionar o tráfego.This includes uploading a cloud service to Azure, deploying the cloud service, restoring the data, and changing DNS to reroute the traffic.

Embora isso seja mais económica das opções de várias regiões, tem as pior características RTO.Although this is the most affordable of the multiple-region options, it has the worst RTO characteristics. Nesse modelo, são armazenadas as cópias de segurança do pacote e a base de dados do serviço no local ou na instância de armazenamento de Blobs do Azure da região secundária.In this model, the service package and database backups are stored either on-premises or in the Azure Blob storage instance of the secondary region. No entanto, tem de implementar um novo serviço e restaurar os dados antes de ele reinicia a operação.However, you must deploy a new service and restore the data before it resumes operation. Mesmo com Automação total de transferência de dados do armazenamento de cópia de segurança, um novo ambiente de base de dados de aprovisionamento consome muito tempo.Even with full automation of the data transfer from backup storage, provisioning a new database environment consumes a lot of time. Mover dados do armazenamento de cópia de segurança de disco para a base de dados vazia na região secundária é a parte mais cara do processo de restauração.Moving data from the backup disk storage to the empty database on the secondary region is the most expensive part of the restore process. Tem de o fazer, no entanto, para trazer a nova base de dados para um Estado de funcionamento operacional porque não é replicado.You must do this, however, to bring the new database to an operational state because it isn't replicated.

É a melhor abordagem armazenar os pacotes de serviço no armazenamento de BLOBs na região secundária.The best approach is to store the service packages in Blob storage in the secondary region. Isso elimina a necessidade de carregar o pacote para o Azure, o que é o que acontece quando implementar a partir de uma máquina de desenvolvimento no local.This eliminates the need to upload the package to Azure, which is what happens when you deploy from an on-premises development machine. Pode implementar rapidamente os pacotes de serviço para um novo serviço cloud do armazenamento de Blobs com scripts do PowerShell.You can quickly deploy the service packages to a new cloud service from Blob storage by using PowerShell scripts.

Esta opção é prática apenas para aplicações não críticas que podem tolerar um RTO elevado.This option is practical only for non-critical applications that can tolerate a high RTO. Por exemplo, isso possa funcionar para uma aplicação que pode ficar indisponíveis durante várias horas, mas é necessário para estar disponíveis dentro de 24 horas.For instance, this might work for an application that can be down for several hours but is required to be available within 24 hours.

Nova implementação para uma região secundária do Azure

Ativo-passivoActive-passive

Uma topologia de ativo-passivo é a opção que muitas empresas de favorece.An active-passive topology is the choice that many companies favor. Esta topologia fornece aprimoramentos para o RTO com um aumento relativamente pequeno de custo relativamente a abordagem de reimplementação.This topology provides improvements to the RTO with a relatively small increase in cost over the redeployment approach. Neste cenário, há novamente um site primário e uma região secundária do Azure.In this scenario, there is again a primary and a secondary Azure region. Todo o tráfego vai para a implementação do Active Directory na região primária.All of the traffic goes to the active deployment on the primary region. A região secundária é melhor preparada para recuperação após desastre, porque a base de dados está em execução em ambas as regiões.The secondary region is better prepared for disaster recovery because the database is running on both regions. Além disso, um mecanismo de sincronização está em vigor entre eles.Additionally, a synchronization mechanism is in place between them. Essa abordagem em modo de espera pode envolver duas variações: uma abordagem somente de base de dados ou de uma implantação completa na região secundária.This standby approach can involve two variations: a database-only approach or a complete deployment in the secondary region.

Apenas base de dadosDatabase only

A primeira variação da topologia ativa-passiva, apenas a região primária tem uma aplicação de serviço cloud implementado.In the first variation of the active-passive topology, only the primary region has a deployed cloud service application. No entanto, ao contrário da abordagem de reimplementação, ambas as regiões são sincronizadas com os conteúdos da base de dados.However, unlike the redeployment approach, both regions are synchronized with the contents of the database. (Para obter mais informações, consulte a secção sobre padrão de dados transacionais para recuperação após desastre.) Quando ocorrer um desastre, existem menos requisitos de ativação.(For more information, see the section on transactional data pattern for disaster recovery.) When a disaster occurs, there are fewer activation requirements. Iniciar a aplicação na região secundária, alterar cadeias de ligação para a nova base de dados e alterar as entradas de DNS para redirecionar o tráfego.You start the application in the secondary region, change connection strings to the new database, and change the DNS entries to reroute traffic.

Como a abordagem de reimplementação, deve já armazenou os pacotes de serviço no armazenamento de Blobs do Azure na região secundária para a implantação mais rápida.Like the redeployment approach, you should have already stored the service packages in Azure Blob storage in the secondary region for faster deployment. No entanto, que não incorra a maioria da sobrecarga que requeira a operação de restauro de base de dados, porque a base de dados está pronto e em execução.However, you don’t incur the majority of the overhead that database restore operation requires, because the database is ready and running. Isso economiza uma quantidade significativa de tempo, fazer isso, um padrão de DR acessível (e mais frequentemente utilizada).This saves a significant amount of time, making this an affordable DR pattern (and the one most frequently used).

Apenas base de dados de ativo-passivo

Réplica completaFull replica

Na variação segundo da topologia ativa-passiva, a região primária e a região secundária tem uma implementação completa.In the second variation of the active-passive topology, both the primary region and the secondary region have a full deployment. Esta implementação inclui os serviços cloud e uma base de dados sincronizada.This deployment includes the cloud services and a synchronized database. No entanto, apenas a região primária está ativamente a processar pedidos de rede dos utilizadores.However, only the primary region is actively handling network requests from the users. A região secundária é ativada apenas quando a região primária sofre uma interrupção do serviço.The secondary region becomes active only when the primary region experiences a service disruption. Nesse caso, todos os novos pedidos de rede encaminham para a região secundária.In that case, all new network requests route to the secondary region. O Gestor de tráfego do Azure pode gerir esta ativação pós-falha automaticamente.Azure Traffic Manager can manage this failover automatically.

Ativação pós-falha mais rapidamente do que a variação de só de base de dados ocorre porque os serviços já estão implementados.Failover occurs faster than the database-only variation because the services are already deployed. Esta topologia oferece um RTO muito baixo.This topology provides a very low RTO. A região de ativação pós-falha secundário tem de ser pronta para começar imediatamente após a falha da região primária.The secondary failover region must be ready to go immediately after failure of the primary region.

Juntamente com um tempo de resposta mais rápido, essa topologia previamente aloca e implementa os serviços de cópia de segurança, evitando a possibilidade de uma falta de espaço para alocar novas instâncias durante um desastre.Along with a quicker response time, this topology pre-allocates and deploys backup services, avoiding the possibility of a lack of space to allocate new instances during a disaster. Isso é importante se a região secundária do Azure está prestes a capacidade.This is important if your secondary Azure region is nearing capacity. Nenhum contrato de nível de serviço (SLA) garante que pode implementar instantaneamente um ou mais novos serviços em nuvem em qualquer região.No service-level agreement (SLA) guarantees that you can instantly deploy one or more new cloud services in any region.

Para o tempo de resposta mais rápido com esse modelo, tem de ter escala similar (número de instâncias de função) nas regiões primárias e secundárias.For the fastest response time with this model, you must have similar scale (number of role instances) in the primary and secondary regions. Apesar das vantagens, pagando para instâncias de computação não utilizado é dispendiosa e não pode ser a escolha de financeira mais prudente.Despite the advantages, paying for unused compute instances is costly, and this might not be the most prudent financial choice. Por este motivo, é mais comum para utilizar uma versão ligeiramente diminuída dos serviços cloud na região secundária.Because of this, it's more common to use a slightly scaled-down version of cloud services on the secondary region. Em seguida, pode rapidamente a ativação pós-falha e aumentar horizontalmente a implementação do secundária, se necessário.Then you can quickly fail over and scale out the secondary deployment if necessary. Pode automatizar o processo de ativação pós-falha, para que depois da região primária não está acessível, ativar instâncias adicionais, dependendo da carga.You should automate the failover process so that after the primary region is inaccessible, you activate additional instances, depending on the load. Isto pode envolver o uso de um mecanismo de dimensionamento automático, como conjuntos de dimensionamento de máquinas virtuais.This might involve the use of an autoscaling mechanism like virtual machine scale sets.

O diagrama seguinte mostra o modelo em que as regiões primárias e secundárias contenham um serviço cloud totalmente implementado numa topologia de ativo-passivo.The following diagram shows the model where the primary and secondary regions contain a fully deployed cloud service in an active-passive topology.

Réplica ativa-passiva, completa

Ativo-ativoActive-active

Numa topologia de ativo-ativo, os serviços cloud e a base de dados estão completamente implantadas em ambas as regiões.In an active-active topology, the cloud services and database are fully deployed in both regions. Ao contrário do modelo de ativo-passivo, ambas as regiões recebem tráfego de utilizador.Unlike the active-passive model, both regions receive user traffic. Esta opção produz o tempo de recuperação mais rápido.This option yields the quickest recovery time. Os serviços já são dimensionados para lidar com uma parte da carga em cada região.The services are already scaled to handle a portion of the load at each region. DNS já está ativado para utilizar a região secundária.DNS is already enabled to use the secondary region. Há complexidade adicional determinar como encaminhar os utilizadores para a região adequada.There's additional complexity in determining how to route users to the appropriate region. Pode ser possível agendamento round robin.Round-robin scheduling might be possible. É mais provável que determinados utilizadores, utilizaria uma região específica, onde reside a cópia principal dos seus dados.It's more likely that certain users would use a specific region where the primary copy of their data resides.

Em caso de ativação pós-falha, basta desative o DNS para a região primária.In case of failover, simply disable DNS to the primary region. Isso encaminha todo o tráfego para a região secundária.This routes all traffic to the secondary region.

Mesmo neste modelo, existem algumas variações.Even in this model, there are some variations. Por exemplo, o diagrama seguinte ilustra uma região primária, que é proprietário a cópia principal da base de dados.For example, the following diagram depicts a primary region which owns the master copy of the database. Os serviços em nuvem em ambas as regiões de escrita para essa base de dados primário.The cloud services in both regions write to that primary database. A implementação secundária pode ler a partir da base de dados primária ou replicado.The secondary deployment can read from the primary or replicated database. Neste exemplo, a replicação é unidirecional.Replication in this example is one-way.

Ativo-ativo

Há uma desvantagem da arquitetura de ativo-ativo no diagrama anterior.There is a downside to the active-active architecture in the preceding diagram. Da segunda região deve acessar o banco de dados na primeira região, porque a cópia principal reside aqui.The second region must access the database in the first region because the master copy resides there. O desempenho significativamente será desativada quando acede a dados a partir de fora de uma região.Performance significantly drops off when you access data from outside a region. Em chamadas de base de dados entre regiões, deve considerar algum tipo de estratégia para melhorar o desempenho dessas chamadas de criação de batches.In cross-region database calls, you should consider some type of batching strategy to improve the performance of these calls. Para obter mais informações, consulte como utilizar a criação de batches de mensagens em fila para melhorar o desempenho de aplicações de base de dados SQL.For more information, see How to use batching to improve SQL Database application performance.

Uma arquitetura alternativa pode envolver a cada região acessar diretamente o seu próprio banco de dados.An alternative architecture might involve each region accessing its own database directly. Esse modelo, algum tipo de replicação bidirecional é necessário para sincronizar as bases de dados em cada região.In that model, some type of bidirectional replication is required to synchronize the databases in each region.

Com as topologias anteriores, diminuir o RTO geralmente aumenta os custos e complexidade.With the previous topologies, decreasing RTO generally increases costs and complexity. A topologia de ativo-ativo desvia deste padrão de custo.The active-active topology deviates from this cost pattern. A topologia de ativo-ativo, não poderá ser necessário como muitas instâncias na região primária, tal como faria na topologia ativa-passiva.In the active-active topology, you might not need as many instances on the primary region as you would in the active-passive topology. Se tiver 10 instâncias na região principal numa arquitetura ativa-passiva, poderá ter apenas 5 em cada região numa arquitetura de ativo-ativo.If you have 10 instances on the primary region in an active-passive architecture, you might need only 5 in each region in an active-active architecture. Ambas as regiões agora partilham a carga.Both regions now share the load. Isso pode ser uma economia de custo sobre a topologia de ativo-passivo se mantiver um ativo em espera na região passiva com 10 instâncias à espera de ativação pós-falha.This might be a cost savings over the active-passive topology if you keep a warm standby on the passive region with 10 instances waiting for failover.

Tenha em atenção que, até que a restaurar a região primária, a região secundária pode receber um aumento repentino de novos utilizadores.Realize that until you restore the primary region, the secondary region might receive a sudden surge of new users. Se existirem 10 000 utilizadores em cada servidor quando a região primária sofre uma interrupção de serviço, a região secundária, de repente, tem de lidar com 20.000 utilizadores.If there are 10,000 users on each server when the primary region experiences a service disruption, the secondary region suddenly has to handle 20,000 users. Regras na região secundária de monitorização tem de detetar este aumento e double as instâncias na região secundária.Monitoring rules on the secondary region must detect this increase and double the instances in the secondary region. Para obter mais informações sobre isso, consulte a secção sobre deteção de falhas.For more information on this, see the section on failure detection.

Híbrida no local e solução na cloudHybrid on-premises and cloud solution

Uma estratégia de adicional para recuperação após desastre é arquitetar uma aplicação híbrida que é executado no local e na cloud.One additional strategy for disaster recovery is to architect a hybrid application that runs on-premises and in the cloud. Dependendo do aplicativo, a região primária pode ser ambos os locais.Depending on the application, the primary region might be either location. Considere as arquiteturas anteriores e imagine a região primária ou secundária, como uma localização no local.Consider the previous architectures and imagine the primary or secondary region as an on-premises location.

Existem alguns desafios estas arquiteturas híbridas.There are some challenges in these hybrid architectures. Em primeiro lugar, a maior parte deste artigo encarou padrões de arquitetura PaaS.First, most of this article has addressed PaaS architecture patterns. Aplicativos típicos de PaaS no Azure contam com construções de específicos do Azure, como funções, serviços cloud e o Gestor de tráfego.Typical PaaS applications in Azure rely on Azure-specific constructs such as roles, cloud services, and Traffic Manager. Criação de uma solução no local para este tipo de aplicativo de PaaS exigiria uma arquitetura consideravelmente diferente.Creating an on-premises solution for this type of PaaS application would require a significantly different architecture. Tal pode não ser viável de uma gestão ou de uma perspectiva de custo.This might not be feasible from a management or cost perspective.

No entanto, uma solução híbrida para recuperação após desastre tem menos desafios para arquiteturas tradicionais que foram migrados para a cloud, como arquiteturas baseadas em IaaS.However, a hybrid solution for disaster recovery has fewer challenges for traditional architectures that have been migrated to the cloud, such as IaaS-based architectures. Aplicações de IaaS utilizar máquinas virtuais na cloud que pode ter equivalentes em direto no local.IaaS applications use virtual machines in the cloud that can have direct on-premises equivalents. Também pode utilizar redes virtuais para ligar as máquinas na cloud com recursos de rede no local.You can also use virtual networks to connect machines in the cloud with on-premises network resources. Isso permite que várias possibilidades que não são possíveis com aplicativos apenas para PaaS.This allows several possibilities that are not possible with PaaS-only applications. Por exemplo, o SQL Server pode tirar partido de soluções de recuperação após desastre, como grupos de Disponibilidade AlwaysOn e espelhamento de banco de dados.For example, SQL Server can take advantage of disaster recovery solutions such as AlwaysOn Availability Groups and database mirroring. Para obter detalhes, consulte elevada disponibilidade e recuperação após desastre para o SQL Server em máquinas virtuais do Azure.For details, see High availability and disaster recovery for SQL Server in Azure virtual machines.

Soluções IaaS também fornecem um caminho mais fácil para aplicações no local utilizar o Azure como a opção de ativação pós-falha.IaaS solutions also provide an easier path for on-premises applications to use Azure as the failover option. Poderá ter um aplicativo totalmente funcional numa região no local existente.You might have a fully functioning application in an existing on-premises region. No entanto, e se não contam com recursos para manter uma região geograficamente separada para a ativação pós-falha?However, what if you lack the resources to maintain a geographically separate region for failover? Pode optar por utilizar máquinas virtuais e redes virtuais para colocar a sua aplicação em execução no Azure.You might decide to use virtual machines and virtual networks to get your application running in Azure. Nesse caso, defina processos que sincronizam os dados para a cloud.In that case, define processes that synchronize data to the cloud. A implementação do Azure, em seguida, torna-se a região secundária a utilizar para ativação pós-falha.The Azure deployment then becomes the secondary region to use for failover. A região primária permanece o aplicativo no local.The primary region remains the on-premises application. Para obter mais informações sobre as arquiteturas de IaaS e capacidades, consulte a documentação das máquinas virtuais.For more information about IaaS architectures and capabilities, see the Virtual Machines documentation.

Cloud alternativaAlternative cloud

Existem situações em que os recursos abrangentes do Microsoft Azure ainda talvez não atendam aos regras internas de conformidade ou políticas necessárias pela sua organização.There are situations where the broad capabilities of Microsoft Azure still may not meet internal compliance rules or policies required by your organization. Até mesmo a preparação e design para implementar sistemas de cópia de segurança durante um desastre melhor são inadequados durante uma interrupção de serviço global de um fornecedor de serviços cloud.Even the best preparation and design to implement backup systems during a disaster are inadequate during a global service disruption of a cloud service provider.

Deve comparar os requisitos de disponibilidade com o custo e a complexidade de maior disponibilidade.You should compare availability requirements with the cost and complexity of increased availability. Executar uma análise de riscos e definir o RTO e RPO para a sua solução.Perform a risk analysis, and define the RTO and RPO for your solution. Se seu aplicativo não pode tolerar qualquer período de inatividade, considere utilizar uma solução de nuvem adicional.If your application cannot tolerate any downtime, you might consider using an additional cloud solution. A menos que toda a Internet fica inativo, outra solução de cloud poderá estar ainda disponível se o Azure torna-se globalmente inacessível.Unless the entire Internet goes down, another cloud solution might still be available if Azure becomes globally inaccessible.

Tal como acontece com o cenário híbrido, as implementações de ativação pós-falha nas arquiteturas de recuperação após desastre anterior também podem existir dentro de outra solução de cloud.As with the hybrid scenario, the failover deployments in the previous disaster recovery architectures can also exist within another cloud solution. Sites de cloud alternativo DR devem ser usados apenas para soluções cujo RTO permite muito pouco, se houver, tempo de inatividade.Alternative cloud DR sites should be used only for solutions whose RTO allows very little, if any, downtime. Tenha em atenção que uma solução que utiliza um site de DR fora do Azure exigirá mais trabalho para configurar, desenvolver, implantar e manter.Note that a solution that uses a DR site outside Azure will require more work to configure, develop, deploy, and maintain. Também é mais difícil implementar práticas comprovadas numa arquitetura de entre Clouds.It's also more difficult to implement proven practices in a cross-cloud architecture. Apesar de plataformas em nuvem têm conceitos de alto nível semelhante, as APIs e arquiteturas são diferentes.Although cloud platforms have similar high-level concepts, the APIs and architectures are different.

Se a sua estratégia de DR depende de várias plataformas de cloud, é valioso para incluir as camadas de abstração no design da solução.If your DR strategy relies upon multiple cloud platforms, it's valuable to include abstraction layers in the design of the solution. Isso elimina a necessidade de desenvolver e manter as duas versões diferentes do mesmo aplicativo para plataformas de cloud diferente em caso de desastre.This eliminates the need to develop and maintain two different versions of the same application for different cloud platforms in case of disaster. Como com o cenário híbrido, a utilização de máquinas virtuais do Azure ou Azure Container Service pode ser mais fácil nestes casos do que a utilização de designs de PaaS específicas da nuvem.As with the hybrid scenario, the use of Azure Virtual Machines or Azure Container Service might be easier in these cases than the use of cloud-specific PaaS designs.

AutomatizaçãoAutomation

Alguns dos padrões que acabamos de falar requerem ativação rápida de implementações offline, bem como a restauração das partes específicas de um sistema.Some of the patterns that we just discussed require quick activation of offline deployments as well as restoration of specific parts of a system. Scripts de automação podem ativar recursos sob demanda e implementar soluções rapidamente.Automation scripts can activate resources on demand and deploy solutions rapidly. Os exemplos de automatização relacionadas a DR abaixo utilizam do Azure PowerShell, mas utilizando o CLI do Azure ou o API de REST de gestão do serviço também são boas opções.The DR-related automation examples below use Azure PowerShell, but using the Azure CLI or the Service Management REST API are also good options.

Scripts de automatização gerir aspetos do DR não de forma transparente processada pelo Azure.Automation scripts manage aspects of DR not transparently handled by Azure. Isso produz resultados repetíveis e consistentes, minimizando o erro humano.This produces consistent and repeatable results, minimizing human error. Scripts de DR predefinidos também reduzem o tempo para recompilar um sistema e suas partes constituintes durante um desastre.Predefined DR scripts also reduce the time to rebuild a system and its constituent parts during a disaster. Não deve tentar manualmente, Descubra como restaurar seu site, embora seja baixo e perdedora dinheiro a cada minuto.You don’t want to try to manually figure out how to restore your site while it's down and losing money every minute.

Teste seus scripts repetidamente do início ao fim.Test your scripts repeatedly from start to finish. Depois de verificar sua funcionalidade básica, certifique-se de testá-los no simulação de desastre.After verifying their basic functionality, make sure to test them in disaster simulation. Isto ajuda a desvendar defeitos nos scripts ou processos.This helps uncover defects in the scripts or processes.

É melhor prática, com a automatização criar um repositório de scripts do PowerShell ou scripts de interface de linha de comandos (CLI) para a recuperação após desastre do Azure.A best practice with automation is to create a repository of PowerShell scripts or command-line interface (CLI) scripts for Azure disaster recovery. Claramente, marcar e categorize-as para acesso rápido.Clearly mark and categorize them for quick access. Designe uma pessoa primária para gerir o repositório e o controle de versão dos scripts.Designate a primary person to manage the repository and versioning of the scripts. Documente-los bem com explicações de parâmetros e exemplos de uso do script.Document them well with explanations of parameters and examples of script use. Certifique-se também de que mantenha esta documentação em sincronia com as suas implementações do Azure.Also ensure that you keep this documentation in sync with your Azure deployments. Isso ressalta a finalidade de ter uma pessoa principal responsável por todas as partes do repositório.This underscores the purpose of having a primary person in charge of all parts of the repository.

Deteção de falhasFailure detection

Para lidar corretamente com problemas de disponibilidade e recuperação após desastre, tem de ser capaz de detetar e diagnosticar falhas.To correctly handle problems with availability and disaster recovery, you must be able to detect and diagnose failures. Execute servidor avançada e monitorização para reconhecer rapidamente quando um sistema ou de seus componentes se tornam indisponíveis repentinamente da implementação.Perform advanced server and deployment monitoring to quickly recognize when a system or its components suddenly become unavailable. Ferramentas que avaliam o estado de funcionamento geral do serviço em nuvem e suas dependências de monitorização pode fazer parte desse trabalho.Monitoring tools that assess the overall health of the cloud service and its dependencies can perform part of this work. É uma ferramenta de Microsoft adequada System Center 2016.One suitable Microsoft tool is System Center 2016. Ferramentas de terceiros também podem fornecer capacidades de monitorização.Third-party tools can also provide monitoring capabilities. A maioria das soluções de monitorização controlar principais contadores de desempenho e a disponibilidade do serviço.Most monitoring solutions track key performance counters and service availability.

Embora essas ferramentas são vitais, terá de planear a deteção de falhas e de relatórios num serviço cloud.Although these tools are vital, you must plan for fault detection and reporting within a cloud service. Também deve planejar usar adequadamente o diagnóstico do Azure.You must also plan to properly use Azure Diagnostics. Contadores de desempenho personalizados ou entradas de registo de eventos também podem ser parte da estratégia geral.Custom performance counters or event-log entries can also be part of the overall strategy. Isso proporciona mais dados durante falhas para diagnosticar o problema e restaurar todos os recursos rapidamente.This provides more data during failures to quickly diagnose the problem and restore full capabilities. Ele também fornece métricas adicionais que as ferramentas de monitorização podem utilizar para determinar o estado de funcionamento do aplicativo.It also provides additional metrics that the monitoring tools can use to determine application health. Para obter mais informações, consulte ativar diagnósticos do Azure no Azure Cloud Services.For more information, see Enabling Azure Diagnostics in Azure Cloud Services. Para uma discussão sobre como planejar um "modelo de estado de funcionamento" de geral, consulte contra falhas: Documentação de orientação para arquiteturas de nuvem Resiliente.For a discussion of how to plan for an overall “health model,” see Failsafe: Guidance for Resilient Cloud Architectures.

Simulação de desastreDisaster simulation

Testes de simulação envolve a criação de pequenas situações da vida real no chão de trabalho para observar como reagem os membros da equipe.Simulation testing involves creating small real-life situations on the work floor to observe how the team members react. Simulações também mostram a eficiência que as soluções são no plano de recuperação.Simulations also show how effective the solutions are in the recovery plan. Execute simulações, para que os cenários criados não interromper comercial propriamente dito, enquanto ainda se sente como situações reais.Execute simulations so that the created scenarios don't disrupt actual business, while still feeling like real situations.

Considere a arquitetura de um tipo de "menu de controle" no aplicativo para simular manualmente problemas de disponibilidade.Consider architecting a type of “switchboard” in the application to manually simulate availability issues. Por exemplo, através de um comutador de forma recuperável, acione exceções de acesso de base de dados de um módulo de ordenação, fazendo com que ele funcione incorretamente.For instance, through a soft switch, trigger database access exceptions for an ordering module by causing it to malfunction. Pode tirar abordagens simples semelhantes para outros módulos no nível da interface de rede.You can take similar lightweight approaches for other modules at the network interface level.

A simulação destaca os problemas que foram resolvidos inadequados.The simulation highlights any issues that were inadequately addressed. Os cenários simulados tem de ser completamente controláveis.The simulated scenarios must be completely controllable. Isso significa que, mesmo que o plano de recuperação parece estar a falhar, é possível restaurar a situação ao normal sem causar danos significativo.This means that, even if the recovery plan seems to be failing, you can restore the situation back to normal without causing any significant damage. Também é importante que informe à gerência de nível superior sobre o quando e como os exercícios de simulação serão executados.It’s also important that you inform higher-level management about when and how the simulation exercises will be executed. Este plano deve detalhar o tempo ou recursos afetados durante a simulação.This plan should detail the time or resources affected during the simulation. Também deve defina as medidas de sucesso ao testar o seu plano de recuperação após desastre.Also define the measures of success when testing your disaster recovery plan.

Se estiver a utilizar o Azure Site Recovery, pode executar uma ativação pós-falha de teste para o Azure, para validar a sua estratégia de replicação ou executar um teste de recuperação após desastre sem qualquer perda de dados ou de indisponibilidade.If you are using Azure Site Recovery, you can execute a test failover to Azure, to validate your replication strategy or perform a disaster recovery drill without any data loss or downtime. Uma ativação pós-falha de teste não afeta a replicação de VM contínua ou o seu ambiente de produção.A test failover does not affect on the ongoing VM replication or your production environment.

Várias outras técnicas podem testar os planos de recuperação após desastre.Several other techniques can test disaster recovery plans. No entanto, a maioria delas é simplesmente variações dessas técnicas básicas.However, most of them are simply variations of these basic techniques. A intenção deste teste consiste em avaliar a viabilidade de plano de recuperação.The intent of this testing is to evaluate the feasibility of the recovery plan. Teste de recuperação após desastre enfoca os detalhes para detetar falhas no plano de recuperação básica.Disaster recovery testing focuses on the details to discover gaps in the basic recovery plan.

Orientações específicas de serviçoService-specific guidance

Os tópicos seguintes descrevem os serviços do Azure específicos recuperação após desastre:The following topics describe disaster recovery specific Azure services:

ServiçoService TópicoTopic
Base de Dados do Azure para MySQLAzure Database for MySQL Descrição geral da continuidade comercial com a base de dados do Azure para MySQLOverview of business continuity with Azure Database for MySQL
Base de Dados do Azure para PostgreSQLAzure Database for PostgreSQL Descrição geral da continuidade comercial com a base de dados do Azure para PostgreSQLOverview of business continuity with Azure Database for PostgreSQL
Serviços CloudCloud Services O que fazer em caso de interrupção de serviço Azure que afetas os Serviços Cloud do AzureWhat to do in the event of an Azure service disruption that impacts Azure Cloud Services
BD do CosmosCosmos DB Ativação pós-falha automática regional para continuidade de negócio no Azure Cosmos DBAutomatic regional failover for business continuity in Azure Cosmos DB
Cofre de ChavesKey Vault Redundância e disponibilidade de Cofre de chaves do AzureAzure Key Vault availability and redundancy
ArmazenamentoStorage O que fazer se ocorrer uma falha de armazenamento do AzureWhat to do if an Azure Storage outage occurs
SQL DatabaseSQL Database Restaurar uma base de dados do Azure SQL ou a ativação pós-falha para uma secundáriaRestore an Azure SQL Database or failover to a secondary
Máquinas virtuaisVirtual machines O que fazer no caso de uma interrupção do serviço do Azure tem impacto sobre máquinas virtuais do AzureWhat to do in the event that an Azure service disruption impacts Azure virtual machines
Redes virtuaisVirtual networks Rede virtual – continuidade do negócioVirtual Network – Business Continuity