Lista de verificação de disponibilidadeAvailability checklist

Disponibilidade é a proporção de tempo que um sistema está funcional e em funcionamento, e é uma da pilares de qualidade de software.Availability is the proportion of time that a system is functional and working, and is one of the pillars of software quality. Utilize esta lista de verificação para rever a arquitetura de seu aplicativo de um ponto de vista de disponibilidade.Use this checklist to review your application architecture from an availability standpoint.

Design do aplicativoApplication design

Evite qualquer ponto único de falha.Avoid any single point of failure. Todos os componentes, serviços, recursos e instâncias de computação devem ser implementadas como várias instâncias para impedir que um ponto único de falha que afeta a disponibilidade.All components, services, resources, and compute instances should be deployed as multiple instances to prevent a single point of failure from affecting availability. Isto inclui mecanismos de autenticação.This includes authentication mechanisms. Projetar o aplicativo para ser configurável para utilizar várias instâncias e para detectar falhas e redirecionar pedidos para instâncias não falhou em que a plataforma não faz isso automaticamente.Design the application to be configurable to use multiple instances, and to automatically detect failures and redirect requests to non-failed instances where the platform does not do this automatically.

Decomponha as cargas de trabalho por objetivo de nível de serviço.Decompose workloads by service-level objective. Se um serviço é composto de cargas de trabalho críticas e menos crítico, geri-los de forma diferente e especificar os recursos de serviço e o número de instâncias para satisfazer os seus requisitos de disponibilidade.If a service is composed of critical and less-critical workloads, manage them differently and specify the service features and number of instances to meet their availability requirements.

Minimizar e compreender as dependências do serviço.Minimize and understand service dependencies. Minimizar o número de diferentes serviços utilizados sempre que possível e certifique-se de que compreende todas as dependências de recurso e o serviço existem no sistema.Minimize the number of different services used where possible, and ensure you understand all of the feature and service dependencies that exist in the system. Isto inclui a natureza dessas dependências e o impacto da falha ou reduzida desempenho em cada uma no aplicativo global.This includes the nature of these dependencies, and the impact of failure or reduced performance in each one on the overall application.

Criar tarefas e as mensagens sejam idempotentes, sempre que possível.Design tasks and messages to be idempotent where possible. Uma operação é idempotente se ele pode ser repetida várias vezes e produzem o mesmo resultado.An operation is idempotent if it can be repeated multiple times and produce the same result. Idempotência pode certificar-se de que os pedidos de duplicados não causam problemas.Idempotency can ensure that duplicated requests don't cause problems. Consumidores de mensagens e as operações que realizar devem ser idempotentes para que repetir uma operação executada anteriormente não processa os resultados inválido.Message consumers and the operations they carry out should be idempotent so that repeating a previously executed operation does not render the results invalid. Isso pode significar que detectar duplicados mensagens ou, garantindo a consistência com uma abordagem otimista para lidar com conflitos.This may mean detecting duplicated messages, or ensuring consistency by using an optimistic approach to handling conflicts.

Utilize um mediador de mensagens que implementa a elevada disponibilidade para transações críticas.Use a message broker that implements high availability for critical transactions. Muitas aplicações de cloud utilizam mensagens para iniciar tarefas que são executadas de forma assíncrona.Many cloud applications use messaging to initiate tasks that are performed asynchronously. Para garantir a entrega de mensagens, o sistema de mensagens deve fornecer elevada disponibilidade.To guarantee delivery of messages, the messaging system should provide high availability. Mensagens do Azure Service Bus implementa , pelo menos, uma vez semântica.Azure Service Bus Messaging implements at least once semantics. Isso significa que uma mensagem publicada a uma fila não serão perdida, embora cópias duplicadas poderão ser entregue em determinadas circunstâncias.This means that a message posted to a queue will not be lost, although duplicate copies may be delivered under certain circumstances. Se o processamento de mensagens é idempotente (consulte o item anterior), repetido de entrega não deve ser um problema.If message processing is idempotent (see the previous item), repeated delivery should not be a problem.

Crie aplicativos para reduzir gradualmente.Design applications to gracefully degrade. A carga num aplicativo pode exceder a capacidade de um ou mais partes, fazendo com que disponibilidade reduzida e ligações falhadas.The load on an application may exceed the capacity of one or more parts, causing reduced availability and failed connections. Dimensionamento pode ajudar a minimizar esse problema, mas será possível atingir um limite imposto por outros fatores, como disponibilidade de recursos ou custo.Scaling can help to alleviate this, but it may reach a limit imposed by other factors, such as resource availability or cost. Quando um aplicativo atinge um limite de recursos, deve levar as medidas adequadas para minimizar o impacto para o utilizador.When an application reaches a resource limit, it should take appropriate action to minimize the impact for the user. Por exemplo, num sistema de comércio eletrónico, se o subsistema de processamento de pedidos está sob a sobrecarga de falhar, ele pode ser temporariamente desativado, permitindo que outras funcionalidades, como o catálogo de produtos de navegação.For example, in an ecommerce system, if the order-processing subsystem is under strain or fails, it can be temporarily disabled while allowing other functionality, such as browsing the product catalog. Pode ser adequado adiar pedidos para um subsistema falhar, por exemplo ainda permitindo aos clientes submeter pedidos mas salvá-los para processamento posterior, quando o subsistema de pedidos estiver novamente disponível.It might be appropriate to postpone requests to a failing subsystem, for example still enabling customers to submit orders but saving them for later processing, when the orders subsystem is available again.

Normalmente, manipular eventos de rajada rápida.Gracefully handle rapid burst events. A maioria dos aplicativos precisa lidar com diferentes cargas de trabalho ao longo do tempo.Most applications need to handle varying workloads over time. Dimensionamento automático pode ajudar a lidar com a carga, mas poderá demorar algum tempo para instâncias adicionais ficar online e processar pedidos.Auto-scaling can help to handle the load, but it may take some time for additional instances to come online and handle requests. Impedir que os picos repentinos e inesperados de atividade do remetente de sobrecarregar a aplicação: projetá-lo a pedidos de fila para os serviços que utiliza e degradar-se sem quando as filas são próximo da capacidade total.Prevent sudden and unexpected bursts of activity from overwhelming the application: design it to queue requests to the services it uses and degrade gracefully when queues are near to full capacity. Certifique-se de que existe suficiente capacidade e desempenho disponível sob condições não rajada para drenar as filas e processar pedidos pendentes.Ensure that there is sufficient performance and capacity available under non-burst conditions to drain the queues and handle outstanding requests. Para obter mais informações, consulte a padrão de nivelamento de carga baseada na fila de.For more information, see the Queue-Based Load Leveling pattern.

Implantação e manutençãoDeployment and maintenance

Implemente várias instâncias de serviços.Deploy multiple instances of services. Se seu aplicativo depende de uma única instância de um serviço, ele cria um ponto único de falha.If your application depends on a single instance of a service, it creates a single point of failure. Várias instâncias de aprovisionamento melhora a resiliência e escalabilidade.Provisioning multiple instances improves both resiliency and scalability. Para App Service do Azure, selecione um plano do serviço de aplicações que oferece várias instâncias.For Azure App Service, select an App Service Plan that offers multiple instances. Serviços Cloud do Azure, configure cada uma das suas funções para utilizar várias instâncias.For Azure Cloud Services, configure each of your roles to use multiple instances. Para máquinas de virtuais (VMs) do Azure, certifique-se de que a sua arquitetura VM inclui mais de uma VM e que cada VM está incluído num conjunto de disponibilidade.For Azure Virtual Machines (VMs), ensure that your VM architecture includes more than one VM and that each VM is included in an availability set.

Considere a implementação da aplicação em várias regiões.Consider deploying your application across multiple regions. Se a aplicação é implementada para uma única região, na rara eventualidade de toda a região fica indisponível, a aplicação também ficará indisponível.If your application is deployed to a single region, in the rare event the entire region becomes unavailable, your application will also be unavailable. Isto poderá ser inaceitável, de acordo com os termos de SLA de seu aplicativo.This may be unacceptable under the terms of your application's SLA. Se assim for, considere implementar seu aplicativo e seus serviços em várias regiões.If so, consider deploying your application and its services across multiple regions.

Automatizar e tarefas de implantação e manutenção de teste.Automate and test deployment and maintenance tasks. Aplicações distribuídas consistem em várias partes que devem funcionar juntos.Distributed applications consist of multiple parts that must work together. Implementação deve ser automatizada, usando mecanismos testados e aprovados, como scripts.Deployment should be automated, using tested and proven mechanisms such as scripts. Estes podem atualizar e validar a configuração e automatizar o processo de implantação.These can update and validate configuration, and automate the deployment process. Uso modelos Azure Resource Manager para aprovisionar os recursos do Azure.Use Azure Resource Manager templates to provision Azure resource. Também uso automatizado técnicas para efetuar atualizações de aplicativos.Also use automated techniques to perform application updates. É fundamental para testar todos estes processos completamente para garantir que os erros de não causar tempo de inatividade adicional.It is vital to test all of these processes fully to ensure that errors do not cause additional downtime. Todas as ferramentas de implementação tem de ter restrições de segurança adequadas para proteger a aplicação implementada; definir e impor políticas de implementação com cuidado e minimizar a necessidade de intervenção humana.All deployment tools must have suitable security restrictions to protect the deployed application; define and enforce deployment policies carefully and minimize the need for human intervention.

Utilize recursos de teste e produção da plataforma. .Use staging and production features of the platform.. Por exemplo, o serviço de aplicações do Azure suporta blocos de implementação, que pode utilizar para testar uma implementação antes de a colocar em produção.For example, Azure App Service supports deployment slots, which you can use to stage a deployment before swapping it to production. O Azure Service Fabric suporta atualizações sem interrupção aos serviços de aplicativos.Azure Service Fabric supports rolling upgrades to application services.

Colocar máquinas virtuais (VMs) num conjunto de disponibilidade.Place virtual machines (VMs) in an availability set. Para maximizar a disponibilidade, criar várias instâncias de cada função VM e coloque essas instâncias no mesmo conjunto de disponibilidade.To maximize availability, create multiple instances of each VM role and place these instances in the same availability set. Se tiver várias VMs que atendem a diferentes funções, tais como camadas da aplicação diferente, criar um conjunto de disponibilidade para cada função VM.If you have multiple VMs that serve different roles, such as different application tiers, create an availability set for each VM role. Por exemplo, crie um conjunto de disponibilidade para a camada web e outro para a camada de dados.For example, create an availability set for the web tier and another for the data tier.

Replicar VMs com o Azure Site Recovery.Replicate VMs using Azure Site Recovery. Para maximizar a disponibilidade, replicar todas as suas máquinas virtuais em outra região do Azure por meio Site Recovery.To maximize availability, replicate all your virtual machines into another Azure region using Site Recovery. Certifique-se de que todas as VMs em todas as camadas de seu aplicativo são replicadas.Ensure that all the VMs across all the tiers of your application are replicated. Se houver uma interrupção na região de origem, pode efetuar a ativação pós-falha as VMs para a outra região dentro de minutos.If there is a disruption in the source region, you can fail over the VMs into the other region within minutes.

Gestão de dadosData management

Georreplicação de dados no armazenamento do Azure.Geo-replicate data in Azure Storage. Dados no armazenamento do Azure são replicados automaticamente dentro de um datacenter.Data in Azure Storage is automatically replicated within in a datacenter. Para obter ainda mais elevada disponibilidade, utilize o armazenamento georredundante com acesso de leitura (-RAGRS), que replica os dados para uma região secundária e fornece acesso só de leitura aos dados na localização secundária.For even higher availability, use Read-access geo-redundant storage (-RAGRS), which replicates your data to a secondary region and provides read-only access to the data in the secondary location. Os dados são duráveis, mesmo em caso de uma falha regional completa ou um desastre.The data is durable even in the case of a complete regional outage or a disaster. Para obter mais informações, consulte replicação de armazenamento do Azure.For more information, see Azure Storage replication.

Bases de dados de georreplicação.Geo-replicate databases. Base de dados SQL do Azure e o Cosmos DB suportam a georreplicação, que permite-lhe configurar réplicas de base de dados secundária noutras regiões.Azure SQL Database and Cosmos DB both support geo-replication, which enables you to configure secondary database replicas in other regions. Bases de dados secundárias estão disponíveis para consulta e para ativação pós-falha no caso de uma indisponibilidade do Centro de dados ou a incapacidade de ligar à base de dados primária.Secondary databases are available for querying and for failover in the case of a data center outage or the inability to connect to the primary database. Para obter mais informações, consulte ativação pós-falha de grupos e a georreplicação ativa (base de dados SQL) e como distribuir dados globalmente com o Azure Cosmos DB.For more information, see Failover groups and active geo-replication (SQL Database) and How to distribute data globally with Azure Cosmos DB.

Utilize a simultaneidade otimista e consistência eventual.Use optimistic concurrency and eventual consistency. Transações que bloqueiam o acesso aos recursos através de bloqueio (simultaneidade pessimista) pode provocar um mau desempenho e reduzir consideravelmente a disponibilidade.Transactions that block access to resources through locking (pessimistic concurrency) can cause poor performance and considerably reduce availability. Esses problemas podem tornar-se especialmente importante em sistemas distribuídos.These problems can become especially acute in distributed systems. Em muitos casos, uma conceção cuidadosa e técnicas, como a criação de partições podem minimizar as chances de conflitos de atualizações a ocorrer.In many cases, careful design and techniques such as partitioning can minimize the chances of conflicting updates occurring. Em que os dados são replicados ou são lidos a partir de um armazenamento em separado, atualizado, os dados só pode ser eventualmente consistentes.Where data is replicated, or is read from a separately updated store, the data will only be eventually consistent. Mas as vantagens geralmente superam em muito o impacto na disponibilidade do uso de transações para garantir a consistência imediata.But the advantages usually far outweigh the impact on availability of using transactions to ensure immediate consistency.

Utilize a cópia de segurança periódica e restauro de ponto no tempo.Use periodic backup and point-in-time restore. Regularmente automaticamente cópias de segurança que não é mantido noutro local e certifique-se de que pode fiável restaurar os dados e o próprio aplicativo caso ocorra uma falha.Regularly and automatically back up data that is not preserved elsewhere, and verify you can reliably restore both the data and the application itself should a failure occur. Certifique-se de que as cópias de segurança cumprem o objetivo de ponto de recuperação (RPO).Ensure that backups meet your Recovery Point Objective (RPO). Replicação de dados não é uma funcionalidade de cópia de segurança, devido a erro humano ou operações mal-intencionadas podem corromper dados em todas as réplicas.Data replication is not a backup feature, because human error or malicious operations can corrupt data across all the replicas. O processo de cópia de segurança tem de ser seguro para proteger os dados em trânsito e no armazenamento.The backup process must be secure to protect the data in transit and in storage. Bases de dados ou partes de um arquivo de dados podem normalmente ser recuperadas para um ponto anterior no tempo ao utilizar registos de transações.Databases or parts of a data store can usually be recovered to a previous point in time by using transaction logs. Para obter mais informações, consulte recuperar de danos em dados ou eliminação acidentalFor more information, see Recover from data corruption or accidental deletion

Replicar os discos VM com o Azure Site Recovery.Replicate VM disks using Azure Site Recovery. Quando replicar VMs do Azure com Site Recovery, todos os discos VM continuamente são replicados para a região de destino forma assíncrona.When you replicate Azure VMs using Site Recovery, all the VM disks are continuously replicated to the target region asynchronously. Os pontos de recuperação são criados os intervalos de poucos minutos.The recovery points are created every few minutes. Isto dá-lhe um RPO por ordem de minutos.This gives you an RPO in the order of minutes.

Erros e falhasErrors and failures

Configure tempos limite de pedido.Configure request timeouts. Serviços e recursos podem ficar indisponíveis, o que faz com que os pedidos a falhar.Services and resources may become unavailable, causing requests to fail. Certifique-se de que os tempos limite que aplicar são adequados para cada serviço ou recurso, bem como o cliente que está a aceder.Ensure that the timeouts you apply are appropriate for each service or resource as well as the client that is accessing them. Em alguns casos, pode permitir um tempo limite mais tempo para uma instância específica de um cliente, consoante o contexto e outras ações que o cliente está a efetuar.In some cases, you might allow a longer timeout for a particular instance of a client, depending on the context and other actions that the client is performing. Tempos limite muito curto pode fazer com que operações de repetição excessivo para serviços e recursos que tenham latência considerável.Very short timeouts may cause excessive retry operations for services and resources that have considerable latency. Tempos limite muito longo pode causar bloqueio se um grande número de pedidos é colocados em fila, aguardando para um serviço ou recurso para responder.Very long timeouts can cause blocking if a large number of requests are queued, waiting for a service or resource to respond.

Repita as operações com falhas causadas por falhas transitórias.Retry failed operations caused by transient faults. Conceber uma estratégia de repetição para acesso a todos os serviços e recursos em que eles não inerentemente suportam a repetição de ligação automática.Design a retry strategy for access to all services and resources where they do not inherently support automatic connection retry. Use uma estratégia que inclui um atraso a aumentar entre as repetições como o número de falhas aumenta, para evitar a sobrecarga do recurso e para permitir que ele simplesmente recuperar e processar pedidos em fila.Use a strategy that includes an increasing delay between retries as the number of failures increases, to prevent overloading of the resource and to allow it to gracefully recover and handle queued requests. Repetições contínuas com atrasos muito curtos provável exacerbam o problema.Continual retries with very short delays are likely to exacerbate the problem. Para obter mais informações, veja Orientações do mecanismo de repetição para serviços específicos.For more information, see Retry guidance for specific services.

Implementar a disjunção automática para evitar falhas em cascata.Implement circuit breaking to avoid cascading failures. Poderão existir situações em que transitório ou outras falhas, que vão desde a gravidade de uma perda parcial de conectividade à falha total de um serviço, demoram muito mais do que o esperado para retornar ao normal.There may be situations in which transient or other faults, ranging in severity from a partial loss of connectivity to the complete failure of a service, take much longer than expected to return to normal. , se um serviço estiver muito ocupado, a falha numa parte do sistema pode levar a falhas em cascata e resultar em muitas operações a tornar-se bloqueada enquanto mantidos nos recursos de sistema cruciais, como memória, threads e ligações de base de dados., if a service is very busy, failure in one part of the system may lead to cascading failures, and result in many operations becoming blocked while holding onto critical system resources such as memory, threads, and database connections. Em vez de repetir continuamente uma operação que é pouco provável que tenha êxito, a aplicação deverá aceitar rapidamente que a operação falhou e processar graciosamente esta falha.Instead of continually retrying an operation that is unlikely to succeed, the application should quickly accept that the operation has failed, and gracefully handle this failure. Utilize o padrão de disjuntor automático para rejeitar pedidos para operações específicas de pontos finais definidos.Use the Circuit Breaker pattern to reject requests for specific operations for defined periods. Para obter mais informações, consulte a padrão de disjuntor automático.For more information, see the Circuit Breaker pattern.

Compor ou reverter para vários componentes.Compose or fall back to multiple components. Conceber aplicações para utilizar várias instâncias sem que afetam operação e as ligações existentes sempre que possível.Design applications to use multiple instances without affecting operation and existing connections where possible. Utilizar várias instâncias e distribuir os pedidos entre eles e detectar e evitar o envio de pedidos para instâncias com falha, para maximizar a disponibilidade.Use multiple instances and distribute requests between them, and detect and avoid sending requests to failed instances, in order to maximize availability.

Reverter para um serviço diferente ou o fluxo de trabalho.Fall back to a different service or workflow. Por exemplo, se falhar a escrever para a base de dados SQL, armazene temporariamente dados no armazenamento de BLOBs ou Cache de Redis.For example, if writing to SQL Database fails, temporarily store data in blob storage or Redis Cache. Proporcionam uma forma para reproduzir as escritas para a base de dados SQL quando o serviço fica disponível.Provide a way to replay the writes to SQL Database when the service becomes available. Em alguns casos, uma operação que falhou pode ter uma ação alternativa que permite que o aplicativo continuar a trabalhar mesmo quando um componente ou serviço falha.In some cases, a failed operation may have an alternative action that allows the application to continue to work even when a component or service fails. Se possível, detetar falhas e redirecionar pedidos para outros serviços que podem oferecer uma funcionalidade alternativa adequada ou para criar cópias de segurança ou instâncias de funcionalidade reduzida que podem manter as principais operações enquanto o serviço primário estiver offline.If possible, detect failures and redirect requests to other services that can offer a suitable alternative functionality, or to back up or reduced functionality instances that can maintain core operations while the primary service is offline.

Monitorização e recuperação após desastreMonitoring and disaster recovery

Fornecem uma instrumentação avançada para falhas de probabilidade e eventos de falha para reportar a situação para a equipe de operações.Provide rich instrumentation for likely failures and failure events to report the situation to operations staff. Para falhas que é provável que, mas não o tiver feito, mas ocorreu, fornecer dados suficientes para permitir que a equipe de operações determinar a causa, mitigar a situação e certifique-se de que o sistema permanece disponível.For failures that are likely but have not yet occurred, provide sufficient data to enable operations staff to determine the cause, mitigate the situation, and ensure that the system remains available. Para falhas que já tenham ocorrido, a aplicação deverá devolver uma mensagem de erro apropriada para o usuário, mas tentar continuar em execução, embora com funcionalidade reduzida.For failures that have already occurred, the application should return an appropriate error message to the user but attempt to continue running, albeit with reduced functionality. Em todos os casos, o sistema de monitorização deve capturar os detalhes abrangentes para ativar a equipe de operações realizar uma recuperação rápida e, se necessário, para designers e desenvolvedores modificar o sistema impedir que a situação da resultantes novamente.In all cases, the monitoring system should capture comprehensive details to enable operations staff to effect a quick recovery, and if necessary, for designers and developers to modify the system to prevent the situation from arising again.

Monitorizar o estado de funcionamento do sistema com a implementação de funções de verificação.Monitor system health by implementing checking functions. O estado de funcionamento e o desempenho de uma aplicação podem degradar ao longo do tempo, sem ser perceptível até falhar.The health and performance of an application can degrade over time, without being noticeable until it fails. Implementar sondas ou verificar funções que são executadas regularmente de fora da aplicação.Implement probes or check functions that are executed regularly from outside the application. Estas verificações podem ser tão simples como medir o tempo de resposta para a aplicação como um todo, as partes individuais da aplicação, serviços individuais que o aplicativo utiliza ou componentes individuais.These checks can be as simple as measuring response time for the application as a whole, for individual parts of the application, for individual services that the application uses, or for individual components. Verifique as funções podem executar processos para garantir que eles produzam resultados válidos, medem a latência e verificar a disponibilidade e extrair informações do sistema.Check functions can execute processes to ensure they produce valid results, measure latency and check availability, and extract information from the system.

Teste regularmente todos os sistemas de contingência e ativação pós-falha.Regularly test all failover and fallback systems. As alterações sistemas e operações podem afetar a ativação pós-falha e funções de contingência, mas o impacto não seja detetado até que o sistema principal falha ou fica sobrecarregado.Changes to systems and operations may affect failover and fallback functions, but the impact may not be detected until the main system fails or becomes overloaded. Testá-la antes de que é necessário para compensar um problema em direto em tempo de execução.Test it before it is required to compensate for a live problem at runtime. Se estiver a utilizar [do Azure Site Recovery] site-recovery para replicar VMs, execute o desastre testes de recuperação periodicamente ao fazer uma ativação pós-falha de teste.If you are using Azure Site Recovery to replicate VMs, run disaster recovery drills periodically by doing a test failover. Para obter mais informações, consulte executar um teste de recuperação após desastre para o Azure.For more information, see Run a disaster recovery drill to Azure.

Teste os sistemas de monitorização.Test the monitoring systems. Ativação pós-falha automática e sistemas de contingência e visualização manual de estado de funcionamento do sistema e o desempenho através de dashboards, todos dependem de monitoramento e instrumentação a funcionar corretamente.Automated failover and fallback systems, and manual visualization of system health and performance by using dashboards, all depend on monitoring and instrumentation functioning correctly. Se esses elementos não, informações críticas de falha de acerto na, ou relatar dados incorretos, um operador pode não perceber que o sistema está danificado ou a falhar.If these elements fail, miss critical information, or report inaccurate data, an operator might not realize that the system is unhealthy or failing.

Acompanhar o progresso de fluxos de trabalho de longa execução e tente novamente em caso de falha.Track the progress of long-running workflows and retry on failure. Fluxos de trabalho de longa execução, muitas vezes, são compostos de vários passos.Long-running workflows are often composed of multiple steps. Certifique-se de que cada passo é independente e pode ser repetido para minimizar a possibilidade de que o fluxo de trabalho completo tem de ser revertida ou que várias transações de compensação tem de ser executado.Ensure that each step is independent and can be retried to minimize the chance that the entire workflow will need to be rolled back, or that multiple compensating transactions need to be executed. Monitorizar e gerir o progresso de fluxos de trabalho de longa execução, tais como a implementação de um padrão padrão do Supervisor de agente do Scheduler.Monitor and manage the progress of long-running workflows by implementing a pattern such as Scheduler Agent Supervisor pattern.

Planear a recuperação de desastres.Plan for disaster recovery. Crie um plano de aceitação, totalmente testado para recuperação a partir de qualquer tipo de falha que possam afetar a disponibilidade do sistema.Create an accepted, fully-tested plan for recovery from any type of failure that may affect system availability. Escolha uma arquitetura de recuperação após desastre de múltiplos sites para qualquer aplicativos de missão crítica.Choose a multi-site disaster recovery architecture for any mission-critical applications. Identifica um proprietário específico do plano de recuperação após desastre, incluindo a automatização e teste.Identify a specific owner of the disaster recovery plan, including automation and testing. Certifique-se de que o plano é bem documentado e automatizar o processo o máximo possível.Ensure the plan is well-documented, and automate the process as much as possible. Estabelecer uma estratégia de cópia de segurança para todos os dados transacionais e de referência e testar a restauração destas cópias de segurança regularmente.Establish a backup strategy for all reference and transactional data, and test the restoration of these backups regularly. Treinar a equipe de operações para executar o plano e execute simulações de desastre regulares para validar e melhorar o plano.Train operations staff to execute the plan, and perform regular disaster simulations to validate and improve the plan. Se estiver a utilizar [do Azure Site Recovery] site-recovery para replicar VMs, criar um plano de recuperação totalmente automatizada para ativação pós-falha, toda a aplicação numa questão de minutos.If you are using Azure Site Recovery to replicate VMs, create a fully automated recovery plan to failover the entire application within minutes.