Kullanılabilirlik denetim listesiAvailability checklist

Kullanılabilirlik bir sistem görür ve çalışır olduğu sürenin oranı olan ve biri yazılım kalitesinin yapı taşları.Availability is the proportion of time that a system is functional and working, and is one of the pillars of software quality. Uygulama Mimarinizi bir kullanılabilirlik açısından gözden geçirmek için bu denetim listesini kullanın.Use this checklist to review your application architecture from an availability standpoint.

Uygulama tasarımıApplication design

Tek hata noktası kaçının.Avoid any single point of failure. Tüm bileşenleri, hizmetleri, kaynakları ve bilgi işlem örnekleri, bir tek hata noktası kullanılabilirliğini etkilemesini önlemek için birden çok örnek olarak dağıtılmalıdır.All components, services, resources, and compute instances should be deployed as multiple instances to prevent a single point of failure from affecting availability. Bu kimlik doğrulama mekanizması içerir.This includes authentication mechanisms. Birden çok örneği kullanmak için otomatik olarak hatalarını algılamak ve örneklere burada platform otomatik olarak bunu başarısız oldu-yeniden yönlendirme istekleri için yapılandırılabilir olacak şekilde tasarlayın.Design the application to be configurable to use multiple instances, and to automatically detect failures and redirect requests to non-failed instances where the platform does not do this automatically.

İş yükleri, hizmet düzeyi amacı tarafından parçalara ayırın.Decompose workloads by service-level objective. Bir hizmet ucundan kritik ve daha az kritik iş yükleri, farklı biçimde yöneten ve hizmet özellikleri ve kullanılabilirlik gereksinimlerini karşılamak için örnek sayısını belirtin.If a service is composed of critical and less-critical workloads, manage them differently and specify the service features and number of instances to meet their availability requirements.

Simge durumuna küçültmek ve Hizmet bağımlılıkları anlayın.Minimize and understand service dependencies. Mümkün olduğunda kullanılan farklı hizmetlerin sayısını en aza indirmek ve tüm sistemde mevcut özellik ve Hizmet bağımlılıkları anladığınızdan emin olun.Minimize the number of different services used where possible, and ensure you understand all of the feature and service dependencies that exist in the system. Bu, bu bağımlılıklar doğasını ve hata içerir veya her birinde bir genel uygulama performansında azaltıldı.This includes the nature of these dependencies, and the impact of failure or reduced performance in each one on the overall application.

Tasarım görevleri ve mümkün olduğunda bir kere etkili olacak şekilde iletileri.Design tasks and messages to be idempotent where possible. Birden çok kez tekrarlanabilir ve aynı sonucu üretir, bir işlem etkilidir.An operation is idempotent if it can be repeated multiple times and produce the same result. Teklik yinelenen istek sorunlara neden olmadığını emin olabilirsiniz.Idempotency can ensure that duplicated requests don't cause problems. Böylece daha önce yürütülen bir işlem yinelenen sonuçları geçersiz işlemez ileti tüketiciler ve bunlar gerçekleştirdiğiniz işlemler bir kez etkili olmalıdır.Message consumers and the operations they carry out should be idempotent so that repeating a previously executed operation does not render the results invalid. Bu, yinelenen iletileri algılama veya çakışmalarını işleme için iyimser bir yaklaşım kullanarak tutarlılık sağlama gelebilir.This may mean detecting duplicated messages, or ensuring consistency by using an optimistic approach to handling conflicts.

Kritik işlemler için yüksek kullanılabilirlik uygulayan bir ileti Aracısı'nı kullanın.Use a message broker that implements high availability for critical transactions. Birçok bulut uygulamaları, zaman uyumsuz olarak gerçekleştirilen görevleri başlatmak için Mesajlaşma kullanır.Many cloud applications use messaging to initiate tasks that are performed asynchronously. İleti teslimini sağlamak için bir Mesajlaşma sistemi yüksek kullanılabilirlik sağlamalıdır.To guarantee delivery of messages, the messaging system should provide high availability. Azure Service Bus Mesajlaşması uygulayan en az bir kez semantiği.Azure Service Bus Messaging implements at least once semantics. Belirli koşullar altında yinelenen kopyaları teslim edilebilir olsa da bu, bir kuyruğa gönderilme kaybı, olmayacaktır anlamına gelir.This means that a message posted to a queue will not be lost, although duplicate copies may be delivered under certain circumstances. İleti işleme ıdempotent ise (önceki öğeye bakın), yinelenen bir sorun teslim olmamalıdır.If message processing is idempotent (see the previous item), repeated delivery should not be a problem.

Uygulamaların düzgün bir şekilde tasarlayın.Design applications to gracefully degrade. Bir uygulama üzerindeki yük bir kapasiteyi aşabilir veya daha fazla parça neden, azaltılmış kullanılabilirlik ve bağlantı başarısız oldu.The load on an application may exceed the capacity of one or more parts, causing reduced availability and failed connections. Ölçeklendirme bunu hafifletmek için yardımcı olabilir, ancak kaynak kullanılabilirliği veya maliyet gibi diğer faktörlere tarafından uygulanan bir sınır ulaşabilir.Scaling can help to alleviate this, but it may reach a limit imposed by other factors, such as resource availability or cost. Uygulama kaynak sınırına ulaştığında bunu kullanıcının etkisini en aza indirmek için uygun eylemde bulunmanız gerekir.When an application reaches a resource limit, it should take appropriate action to minimize the impact for the user. Sipariş işleme alt sistemi yükü veya başarısız altında ise, örneğin, bir e-ticaret sisteminde, geçici olarak ürün kataloğuna göz atma gibi diğer işlevleri, verirken devre dışı bırakılabilir.For example, in an ecommerce system, if the order-processing subsystem is under strain or fails, it can be temporarily disabled while allowing other functionality, such as browsing the product catalog. Örneğin hala siparişler göndermesini etkinleştirme ancak siparişler alt sistemi yeniden kullanılabilir olduğunda bunları daha sonra işlenmek için kaydetme başarısız alt isteklerine ertelemek uygun olabilir.It might be appropriate to postpone requests to a failing subsystem, for example still enabling customers to submit orders but saving them for later processing, when the orders subsystem is available again.

Hızlı veri bloğu olaylar düzgün bir şekilde işleyin.Gracefully handle rapid burst events. Çoğu uygulama, zaman içinde değişen iş yüklerini işlemek gerekir.Most applications need to handle varying workloads over time. Otomatik ölçeklendirme yükü işlemek için yardımcı olabilir, ancak çevrimiçi olması ve istekleri işlemek ek örnekler için biraz zaman alabilir.Auto-scaling can help to handle the load, but it may take some time for additional instances to come online and handle requests. Beklenmeyen ve ani artışları etkinlik uygulama hedefin aşırı yüklenmesini önlemek: sıra isteklerini kullandığı hizmetler için tasarlayın ve Kuyruklar tam kapasite yakın olduğunda düzgün bir şekilde düşürme.Prevent sudden and unexpected bursts of activity from overwhelming the application: design it to queue requests to the services it uses and degrade gracefully when queues are near to full capacity. Kullanılabilir yeterli performans ve kapasite kuyrukları boşaltabilir ve bekleyen istekleri işlemek için tekil olmayan koşullarda emin olun.Ensure that there is sufficient performance and capacity available under non-burst conditions to drain the queues and handle outstanding requests. Daha fazla bilgi için kuyruk tabanlı yük düzeyi eşitleme düzeni.For more information, see the Queue-Based Load Leveling pattern.

Dağıtım ve BakımDeployment and maintenance

Birden çok örneğini Hizmetleri dağıtın.Deploy multiple instances of services. Uygulamanızın bağımlı hizmetinin tek bir örneği, bir tek hata noktası oluşturur.If your application depends on a single instance of a service, it creates a single point of failure. Birden fazla sağlama hem esnekliği ve ölçeklenebilirliği artırır.Provisioning multiple instances improves both resiliency and scalability. İçin Azure App Serviceseçin bir App Service planı , birden çok örneği sunar.For Azure App Service, select an App Service Plan that offers multiple instances. Azure Cloud Services için her rolünüz kullanmak için yapılandırma birden çok örneği.For Azure Cloud Services, configure each of your roles to use multiple instances. İçin Azure sanal makineleri (VM'ler), VM Mimarinizi birden fazla VM içerir ve her VM'nin dahil olun bir kullanılabilirlik kümesi.For Azure Virtual Machines (VMs), ensure that your VM architecture includes more than one VM and that each VM is included in an availability set.

Birden çok bölgede uygulamanızı dağıtmayı göz önünde bulundurun.Consider deploying your application across multiple regions. Uygulamanız için tek bir bölgede dağıtılan, ender olayda bölge tamamen kullanılamaz duruma gelirse, uygulamanız da kullanılamaz hale gelir.If your application is deployed to a single region, in the rare event the entire region becomes unavailable, your application will also be unavailable. Bu, uygulamanızın SLA koşulları altında kabul edilemez olabilir.This may be unacceptable under the terms of your application's SLA. Bu durumda, uygulama ve hizmetlerinin birden çok bölgeye dağıtmayı göz önünde bulundurun.If so, consider deploying your application and its services across multiple regions.

Otomatikleştirme ve test dağıtımı ve bakımı görevleri.Automate and test deployment and maintenance tasks. Dağıtılmış uygulamalar birlikte çalışması gereken birden çok bölümden oluşur.Distributed applications consist of multiple parts that must work together. Dağıtım, test edilmiş ve kendini kanıtlamış mekanizmaları komut dosyaları gibi kullanarak otomatik hale getirilmelidir.Deployment should be automated, using tested and proven mechanisms such as scripts. Bu güncelleştirme ve yapılandırmayı doğrulamak ve dağıtım sürecini otomatikleştirin.These can update and validate configuration, and automate the deployment process. Kullanım Azure Resource Manager şablonları Azure kaynak sağlamak için.Use Azure Resource Manager templates to provision Azure resource. Ayrıca kullanım teknikleri uygulama güncelleştirmeleri gerçekleştirmek için otomatik.Also use automated techniques to perform application updates. Tüm bu işlemleri tam olarak hataları ek kapalı kalma durumlarına neden değil emin olmak için test etmek için önemlidir.It is vital to test all of these processes fully to ensure that errors do not cause additional downtime. Tüm dağıtım araçları, dağıtılan uygulamanın korumak için uygun güvenlik kısıtlamaları olmalıdır; tanımlamak ve dikkatli bir şekilde dağıtım ilkeleri zorunlu tutmanıza ve insan müdahalesi gereksinimini en aza indirmek.All deployment tools must have suitable security restrictions to protect the deployed application; define and enforce deployment policies carefully and minimize the need for human intervention.

Hazırlama ve üretim platform özelliklerini kullanın. .Use staging and production features of the platform.. Örneğin, Azure App Service'ı destekler dağıtım yuvalarını, hangi üretime geçirmeden önce bir dağıtım hazırlamanıza için kullanabilirsiniz.For example, Azure App Service supports deployment slots, which you can use to stage a deployment before swapping it to production. Azure Service Fabric destekler toplu yükseltmeler uygulama hizmetlerine.Azure Service Fabric supports rolling upgrades to application services.

Sanal makineler (VM) bir kullanılabilirlik kümesine yerleştirin.Place virtual machines (VMs) in an availability set. Kullanılabilirliği en üst düzeye çıkarmak için her sanal makine rolünün birden çok örnek oluşturma ve bu örnekler aynı kullanılabilirlik kümesine yerleştirin.To maximize availability, create multiple instances of each VM role and place these instances in the same availability set. Farklı roller, hizmet birden fazla VM varsa, bir kullanılabilirlik kümesindeki her VM rolü için farklı uygulama katmanları gibi oluşturun.If you have multiple VMs that serve different roles, such as different application tiers, create an availability set for each VM role. Örneğin, bir kullanılabilirlik kümesi web katmanı ve veri katmanı için başka oluşturun.For example, create an availability set for the web tier and another for the data tier.

Azure Site RECOVERY'yi kullanarak VM'lerin çoğaltın.Replicate VMs using Azure Site Recovery. En yüksek kullanılabilirlik için tüm sanal makineleri kullanarak başka bir Azure bölgesine çoğaltmak Site Recovery.To maximize availability, replicate all your virtual machines into another Azure region using Site Recovery. Tüm sanal makinelerin tüm uygulama katmanlarını çoğaltılır emin olun.Ensure that all the VMs across all the tiers of your application are replicated. Kaynak bölgedeki bir kesinti varsa, dakikalar içinde başka bir bölgeye VM'lerin yükünü devredebilirsiniz.If there is a disruption in the source region, you can fail over the VMs into the other region within minutes.

Veri yönetimiData management

Azure Depolama'da verileri coğrafi olarak çoğaltma.Geo-replicate data in Azure Storage. Azure Depolama'daki verilere otomatik olarak içinde bir veri merkezine çoğaltılır.Data in Azure Storage is automatically replicated within in a datacenter. Okuma erişimli coğrafi olarak yedekli depolama daha yüksek kullanılabilirlik için kullanın (-RAGRS), verilerinizi ikincil bölgeye çoğaltır ve ikincil konumdaki verilere salt okunur erişim sağlar.For even higher availability, use Read-access geo-redundant storage (-RAGRS), which replicates your data to a secondary region and provides read-only access to the data in the secondary location. Eksiksiz bir bölgesel kesinti veya olağanüstü bir durum söz konusu olduğunda bile kalıcı verilerdir.The data is durable even in the case of a complete regional outage or a disaster. Daha fazla bilgi için Azure depolama çoğaltma.For more information, see Azure Storage replication.

Coğrafi çoğaltma veritabanları.Geo-replicate databases. Azure SQL veritabanı ve Cosmos DB diğer bölgelerde ikincil veritabanı çoğaltmalarını yapılandırma sağlayan coğrafi-çoğaltmayı destekler.Azure SQL Database and Cosmos DB both support geo-replication, which enables you to configure secondary database replicas in other regions. İkincil veritabanları, bir veri merkezi arızasına veya şubelerde birincil veritabanına bağlanmak için söz konusu olduğunda yük devretme ve sorgulama için kullanılabilir.Secondary databases are available for querying and for failover in the case of a data center outage or the inability to connect to the primary database. Daha fazla bilgi için yük devretme grupları ve etkin coğrafi çoğaltma (SQL veritabanı) ve küresel olarak Azure Cosmos DB ile verileri nasıl dağıtılacağını.For more information, see Failover groups and active geo-replication (SQL Database) and How to distribute data globally with Azure Cosmos DB.

İyimser eşzamanlılık ve nihai tutarlılık.Use optimistic concurrency and eventual consistency. İşlem kaynakları (eşzamanlılık) kilitleme üzerinden erişimi engelleyin kötü performansa neden ve kullanılabilirliği önemli ölçüde azaltabilir.Transactions that block access to resources through locking (pessimistic concurrency) can cause poor performance and considerably reduce availability. Bu sorunları dağıtılmış sistemlerde özellikle ağırlaşabilir.These problems can become especially acute in distributed systems. Çoğu durumda, dikkatli bir tasarım ve bölümleme gibi teknikler gerçekleşen güncelleştirme olasılığını en aza indirebilirsiniz.In many cases, careful design and techniques such as partitioning can minimize the chances of conflicting updates occurring. Veri çoğaltılır veya ayrı olarak güncelleştirilmiş bir depodan okuma olduğunda, veriler yalnızca sonunda tutarlı olur.Where data is replicated, or is read from a separately updated store, the data will only be eventually consistent. Ancak avantajlarından genellikle şu ana kadar anında tutarlılık sağlamak için işlemleri kullanma kullanılabilirliği üzerindeki etkisini daha ağır basar.But the advantages usually far outweigh the impact on availability of using transactions to ensure immediate consistency.

Düzenli yedekleme ve zaman içinde nokta geri yükleme kullanma.Use periodic backup and point-in-time restore. Düzenli aralıklarla otomatik olarak başka bir yerde korunmaz verileri yedeklemek ve doğrulayın, güvenilir bir şekilde hem verileri hem de uygulama bir arıza durumunda geri yükleyebilirsiniz.Regularly and automatically back up data that is not preserved elsewhere, and verify you can reliably restore both the data and the application itself should a failure occur. Yedekleme kurtarma noktası hedefi (RPO) karşıladığından emin olun.Ensure that backups meet your Recovery Point Objective (RPO). Veri çoğaltma İnsan hatası veya kötü amaçlı işlemler arasında tüm çoğaltmaları veri bozabileceğinden bir yedekleme özelliği değil.Data replication is not a backup feature, because human error or malicious operations can corrupt data across all the replicas. Yedekleme işlemi, depolama ve aktarım sırasında verileri korumak için güvenli olmalıdır.The backup process must be secure to protect the data in transit and in storage. Veritabanı veya veri deposu bölümlerini genellikle önceki bir noktaya zaman içinde işlem günlüklerini kullanarak kurtarılabilir.Databases or parts of a data store can usually be recovered to a previous point in time by using transaction logs. Daha fazla bilgi için veri bozulması veya yanlışlıkla silinmesi kurtarmaFor more information, see Recover from data corruption or accidental deletion

Azure Site Recovery kullanarak VM disklerinin çoğaltma.Replicate VM disks using Azure Site Recovery. Çoğaltma zaman kullanarak Azure Vm'lerine Site Recovery, tüm VM disklerini sürekli olarak hedef bölgede için zaman uyumsuz olarak çoğaltılır.When you replicate Azure VMs using Site Recovery, all the VM disks are continuously replicated to the target region asynchronously. Kurtarma noktaları, birkaç dakikada oluşturulur.The recovery points are created every few minutes. Bu, bir RPO dakika düzeyinde sağlar.This gives you an RPO in the order of minutes.

HatalarıErrors and failures

İstek zaman aşımı yapılandırın.Configure request timeouts. Hizmet ve kaynaklara, isteklerin başarısız olmasına neden kullanılamaz hale gelebilir.Services and resources may become unavailable, causing requests to fail. Uyguladığınız zaman aşımları her hizmete veya kaynağa için uygun olduğundan emin olun bunları erişen istemci yanı sıra.Ensure that the timeouts you apply are appropriate for each service or resource as well as the client that is accessing them. Bazı durumlarda, içerik ve istemci gerçekleştiriyor diğer eylemler bağlı olarak bir istemci belirli bir örneği için uzun bir zaman aşımı da sağlayabilir.In some cases, you might allow a longer timeout for a particular instance of a client, depending on the context and other actions that the client is performing. Hizmetleri ve önemli bir gecikme süresi olan kaynaklar için aşırı miktarda yeniden deneme işlemleri çok kısa bir zaman aşımı neden olabilir.Very short timeouts may cause excessive retry operations for services and resources that have considerable latency. Çok uzun zaman aşımı çok sayıda istek sıraya alındığından engelleme, bir hizmete veya kaynağa yanıt vermesi için bekleyen neden olabilir.Very long timeouts can cause blocking if a large number of requests are queued, waiting for a service or resource to respond.

Geçici hataları nedeniyle başarısız işlemleri yeniden deneyin.Retry failed operations caused by transient faults. Tüm hizmetlere erişim için bir yeniden deneme stratejisi tasarlama ve kaynakların nerede bunlar kendiliğinden otomatik bağlantı desteklemez yeniden deneyin.Design a retry strategy for access to all services and resources where they do not inherently support automatic connection retry. Yeniden deneme sayısı arttıkça, kaynağın aşırı yüklemesini önlemek için ve düzgün bir şekilde kurtarmak ve kuyruğa alınan istekler işlemek izin vermek için hataları olarak arasında artan bir gecikme içeren bir strateji kullanır.Use a strategy that includes an increasing delay between retries as the number of failures increases, to prevent overloading of the resource and to allow it to gracefully recover and handle queued requests. Çok kısa gecikme ile sürekli yeniden denemeyi sorun exacerbate olasılığı düşüktür.Continual retries with very short delays are likely to exacerbate the problem. Daha fazla bilgi için bkz. Belirli hizmetlere yönelik yeniden deneme kılavuzu.For more information, see Retry guidance for specific services.

Zincirleme hatalara önlemek için devre kesme uygulayın.Implement circuit breaking to avoid cascading failures. Geçici ya da önem derecesi kısmi bağlantı kaybı gelen bir hizmetin tamamen çökmesi arasında değişen diğer hataları normale dönmesi için beklenenden daha uzun sürer durumlar olabilir.There may be situations in which transient or other faults, ranging in severity from a partial loss of connectivity to the complete failure of a service, take much longer than expected to return to normal. , hizmet çok meşgulse sistemin bir bölümündeki hata zincirleme hatalara neden önemli sistem kaynakları bellek, iş parçacıkları üzerinde tutarak engellenen olma birçok işlem sonucunu ve veritabanı bağlantılarını., if a service is very busy, failure in one part of the system may lead to cascading failures, and result in many operations becoming blocked while holding onto critical system resources such as memory, threads, and database connections. Sürekli yeniden deneme başarılı olma ihtimali düşük bir işlemi yerine uygulamayı hızla işlemi başarısız oldu ve bu hatayı düzgün biçimde işlemesi kabul etmelidir.Instead of continually retrying an operation that is unlikely to succeed, the application should quickly accept that the operation has failed, and gracefully handle this failure. Devre kesici düzeni, tanımlı bir dönem için belirli işlemler için istekleri geri çevirmenizi kullanın.Use the Circuit Breaker pattern to reject requests for specific operations for defined periods. Daha fazla bilgi için devre kesici düzeni.For more information, see the Circuit Breaker pattern.

Oluşturma veya birden çok bileşeni için geri döner.Compose or fall back to multiple components. Birden fazla etkileyen işlemi ve mevcut bağlantıları olmadan mümkün olduğunda kullanılacak uygulamalar tasarlayın.Design applications to use multiple instances without affecting operation and existing connections where possible. Birden çok örneği kullanın ve aralarındaki istekleri dağıtmak algılamak ve kullanılabilirliği en üst düzeye çıkarmak başarısız örneklerine istekleri gönderirken kaçının.Use multiple instances and distribute requests between them, and detect and avoid sending requests to failed instances, in order to maximize availability.

Farklı hizmet veya iş akışına geri döner.Fall back to a different service or workflow. SQL veritabanına yazma başarısız olursa, örneğin, geçici verileri blob depolama veya Redis Cache depolar.For example, if writing to SQL Database fails, temporarily store data in blob storage or Redis Cache. Hizmet kullanıma sunulduğunda SQL veritabanı için yazmaları yeniden yürütme için bir yol sağlar.Provide a way to replay the writes to SQL Database when the service becomes available. Bazı durumlarda, başarısız olan bir işlemi bir bileşen ya da hizmet başarısız olsa çalışmaya devam etmek uygulama izin veren bir alternatif bir eylem olabilir.In some cases, a failed operation may have an alternative action that allows the application to continue to work even when a component or service fails. Mümkünse, hatalarını algılamak ve istekleri uygun bir alternatif işlevsellik sunduğu diğer hizmetlere veya yedeklemek için veya birincil hizmet çevrimdışı durumdayken, çekirdek operations koruyabilirsiniz işlevsellik örneklere yönlendirin.If possible, detect failures and redirect requests to other services that can offer a suitable alternative functionality, or to back up or reduced functionality instances that can maintain core operations while the primary service is offline.

İzleme ve olağanüstü durum kurtarmaMonitoring and disaster recovery

Olası hataları ve hata olayları için zengin bir izleme sağlamak operasyon personeli için durum raporlamak için.Provide rich instrumentation for likely failures and failure events to report the situation to operations staff. Hatalar için büyük olasılıkla ancak olmayan henüz oluştu, operasyon personeli nedeni belirlemek için bu durumun oluşmasını azaltmak etkinleştirmek üzere yeterli verilerle sağlayın ve sistemin kullanılabilir olmaya devam ettiğinden emin olun.For failures that are likely but have not yet occurred, provide sufficient data to enable operations staff to determine the cause, mitigate the situation, and ensure that the system remains available. Zaten oluşmuş hataları, uygulama için kullanıcının uygun bir hata iletisi döndürür ancak paralelleştirmeye azaltılmış işlevsellikle çalışıyor, devam ettirmeye gerekir.For failures that have already occurred, the application should return an appropriate error message to the user but attempt to continue running, albeit with reduced functionality. Her durumda, hızlı bir kurtarma etkilemek operasyon personeli etkinleştirmek için Ayrıntılar kapsamlı izleme sistemi yakalamalısınız ve gerekirse, tasarımcılar ve geliştiriciler Sistem değiştirmek yeniden doğan gelen durumu önlemek için.In all cases, the monitoring system should capture comprehensive details to enable operations staff to effect a quick recovery, and if necessary, for designers and developers to modify the system to prevent the situation from arising again.

Sistem durumu denetimi işlevlerini uygulayarak izleyin.Monitor system health by implementing checking functions. Bir uygulamanın performansı ve sistem durumu zaman içinde başarısız kadar belirgin olmadan düşürebilir.The health and performance of an application can degrade over time, without being noticeable until it fails. Araştırmalar uygulamak veya düzenli olarak gelen uygulama dışında yürütülen işlevler denetleyin.Implement probes or check functions that are executed regularly from outside the application. Bu denetimler, yanıt süresi bir bütün olarak uygulamadan, uygulamanın tek tek parçaları, uygulamanın kullandığı tek tek Hizmetleri veya bileşenleri tek tek ölçü olarak basit olabilir.These checks can be as simple as measuring response time for the application as a whole, for individual parts of the application, for individual services that the application uses, or for individual components. Onay işlevleri, bunlar geçerli sonuçlar, gecikme süresini ölçme ve kullanılabilirliğini denetleyin ve sistemden bilgileri ayıklayıp sağlamak için süreçleri yürütebilir.Check functions can execute processes to ensure they produce valid results, measure latency and check availability, and extract information from the system.

Tüm yük devretme ve geri dönüş sistemleri düzenli olarak test edin.Regularly test all failover and fallback systems. Değişiklikler sistemler ve işlemler için yük devretme ve geri dönüş işlevlerini etkileyebilir, ancak ana sistem başarısız olursa veya aşırı yüklenmiş olur kadar etkileri algılanamayabilir.Changes to systems and operations may affect failover and fallback functions, but the impact may not be detected until the main system fails or becomes overloaded. Çalışma zamanında canlı bir sorun için gerekli önce test edin.Test it before it is required to compensate for a live problem at runtime. Kullanıyorsanız [Azure Site Recovery] site-recovery Vm'lerini çoğaltma için olağanüstü durum kurtarma tatbikatı düzenli aralıklarla yük devretme testi yaparak çalıştırın.If you are using Azure Site Recovery to replicate VMs, run disaster recovery drills periodically by doing a test failover. Daha fazla bilgi için Azure'a olağanüstü durum kurtarma tatbikatı çalıştırma.For more information, see Run a disaster recovery drill to Azure.

İzleme sistemleri test edin.Test the monitoring systems. Otomatik Yük devretme ve geri dönüş sistemleri ve el ile sistem durumu ve performans panoları kullanarak görselleştirme, tüm izleme ve ölçümlü izleme düzgün bağlıdır.Automated failover and fallback systems, and manual visualization of system health and performance by using dashboards, all depend on monitoring and instrumentation functioning correctly. Bu öğeler, miss önemli bilgileri, başarısız veya yanlış veriler rapor, operatörün sistemin iyi durumda olmayan ya da başarısız olan farkına varmazsınız.If these elements fail, miss critical information, or report inaccurate data, an operator might not realize that the system is unhealthy or failing.

Uzun süre çalışan iş akışı ilerlemesini izlemek ve hata durumunda yeniden deneyin.Track the progress of long-running workflows and retry on failure. Uzun süre çalışan iş akışları genellikle birden çok adımdan oluşur.Long-running workflows are often composed of multiple steps. Her adım bağımsızdır ve iş akışının tamamını geri alınması gerekecektir olasılığını en aza indirmek için yeniden denenebilir veya birden çok telafi işlemleri yürütülmesi gerektiğini emin olun.Ensure that each step is independent and can be retried to minimize the chance that the entire workflow will need to be rolled back, or that multiple compensating transactions need to be executed. İzleme ve desen gibi uygulayarak ilerleme durumunu uzun süre çalışan iş akışlarını yönetme Zamanlayıcı Aracısı Gözetmeni düzeni.Monitor and manage the progress of long-running workflows by implementing a pattern such as Scheduler Agent Supervisor pattern.

Olağanüstü durum kurtarma planı.Plan for disaster recovery. Her tür sistem kullanılabilirliğini etkileyebilecek hata kurtarma için bir kabul edilen, tam olarak test planı oluşturun.Create an accepted, fully-tested plan for recovery from any type of failure that may affect system availability. Tüm Görev açısından kritik uygulamalar için bir çoklu site olağanüstü durum kurtarma mimarisi seçin.Choose a multi-site disaster recovery architecture for any mission-critical applications. Otomasyon ve test belirli bir sahibe olağanüstü durum kurtarma planının belirleyin.Identify a specific owner of the disaster recovery plan, including automation and testing. Plan iyi belgelendirilmiş olduğundan emin olun ve mümkün olduğunca sürecini otomatikleştirin.Ensure the plan is well-documented, and automate the process as much as possible. Bir yedekleme stratejisi tüm başvuru ve işlem verilerini oluşturmak ve bu yedekleri geri düzenli olarak test edin.Establish a backup strategy for all reference and transactional data, and test the restoration of these backups regularly. Operasyon personeli ve planı yürütmeye ve doğrulamak ve bir plan geliştirmek için normal bir olağanüstü durum benzetimleri gerçekleştirmek için eğitin.Train operations staff to execute the plan, and perform regular disaster simulations to validate and improve the plan. Kullanıyorsanız [Azure Site Recovery] site-recovery Vm'lerini çoğaltma için bir tam otomatik kurtarma planı yük devretme için uygulamanın tamamı dakikalar içinde oluşturun.If you are using Azure Site Recovery to replicate VMs, create a fully automated recovery plan to failover the entire application within minutes.