Operasyon için tasarlamaDesign for operations

Uygulamayı, operasyon ekibinin ihtiyaç duyduğu araçlara sahip olacağı şekilde tasarlayınDesign an application so that the operations team has the tools they need

Bulut, operasyon ekibinin rolünü önemli ölçüde değiştirdi.The cloud has dramatically changed the role of the operations team. Artık uygulamayı barındıran donanım ve altyapıyı yönetmekten sorumlu değiller.They are no longer responsible for managing the hardware and infrastructure that hosts the application. Yine de operasyon ekibi, başarılı bir bulut uygulaması çalıştırmanın kritik bir parçası.That said, operations is still a critical part of running a successful cloud application. Operasyon ekibinin önemli işlevlerinden bazıları şunlardır:Some of the important functions of the operations team include:

  • DağıtımDeployment
  • İzlemeMonitoring
  • YükseltmeEscalation
  • Olay yanıtıIncident response
  • Güvenlik denetimiSecurity auditing

Bulut uygulamalarında güçlü günlük kayıtları ve izleme olanakları özellikle önemlidir.Robust logging and tracing are particularly important in cloud applications. Uygulamanın, başarılı olmaları için gereken veriler ve öngörüleri sağlaması için, tasarım ve planlama aşamalarına operasyon ekibini dahil edin.Involve the operations team in design and planning, to ensure the application gives them the data and insight thay need to be successful.

ÖnerilerRecommendations

Her şeyin takip edilebilir olmasını sağlayın.Make all things observable. Bir çözüm dağıtılmış ve çalışır durumdaysa sistem hakkında öncelikli bilgileri günlükler ve izlemeler sağlar.Once a solution is deployed and running, logs and traces are your primary insight into the system. İzleme sistemde bir yolu takip eder. Performans sorunlarını ve hata noktalarını saptamak için yararlıdır.Tracing records a path through the system, and is useful to pinpoint bottlenecks, performance issues, and failure points. Günlük kaydı uygulama durumu değişiklikleri, hatalar ve özel durumlar gibi tek tek olayları yakalar.Logging captures individual events such as application state changes, errors, and exceptions. Üretim sürecinde günlük kaydı tutmazsanız en çok ihtiyaç duyacağınız bilgileri kaybedersiniz.Log in production, or else you lose insight at the very times when you need it the most.

İzleme için işaretleyin.Instrument for monitoring. İzleme, bir uygulamanın, kullanılabilirlik, performans ve sistem durumu bakımından ne kadar iyi ya da kötü çalıştığı hakkında bilgi sağlar.Monitoring gives insight into how well (or poorly) an application is performing, in terms of availability, performance, and system health. İzleme ile örneğin SLA’nızı karşılayıp karşılamadığınızı görebilirsiniz.For example, monitoring tells you whether you are meeting your SLA. İzleme, sistemin normal işleyişi sırasında gerçekleşir.Monitoring happens during the normal operation of the system. Personelin sorunlara hızlıca yanıt verebilmesi için gerçek zamanlıya olabildiğince yakın olmalıdır.It should be as close to real-time as possible, so that the operations staff can react to issues quickly. İdeal olarak, izleme, sorunları kritik bir hataya neden olmadan önce engellemeye yardımcı olur.Ideally, monitoring can help avert problems before they lead to a critical failure. Daha fazla bilgi için bkz. İzleme ve tanılama.For more information, see Monitoring and diagnostics.

Kök neden analizi için işaretleyin.Instrument for root cause analysis. Kök neden analizi, hataların temel nedenini bulma işlemidir.Root cause analysis is the process of finding the underlying cause of failures. Bir hata zaten oluştuktan sonra gerçekleşir.It occurs after a failure has already happened.

Dağıtılmış izlemeyi kullanın.Use distributed tracing. Eşzamanlılık, desenkronizasyon ve bulut ölçeği için tasarlanmış bir dağıtılmış izleme sistemi kullanın.Use a distributed tracing system that is designed for concurrency, asynchrony, and cloud scale. İzlemeler, hizmet sınırları boyunca akan bir bağıntı kimliği içermelidir.Traces should include a correlation ID that flows across service boundaries. Tek bir işlemde birden çok uygulama hizmetine çağrılar olabilir.A single operation may involve calls to multiple application services. Bir işlem başarısız olursa, bağıntı kimliği hatanın nedenini belirlemenize yardımcı olur.If an operation fails, the correlation ID helps to pinpoint the cause of the failure.

Günlükleri ve ölçümleri standartlaştırın.Standardize logs and metrics. İşlemler ekibinin, çözümünüzün çeşitli hizmetlerinden günlükleri toplaması gerekir.The operations team will need to aggregate logs from across the various services in your solution. Her hizmet kendi günlük biçimini kullanıyorsa, onlardan faydalı bilgiler almak zor veya imkansız olur.If every service uses its own logging format, it becomes difficult or impossible to get useful information from them. Bağıntı kimliği, olay adı, gönderenin IP adresi gibi alanlar içeren ortak bir şema tanımlayın.Define a common schema that includes fields such as correlation ID, event name, IP address of the sender, and so forth. Tek tek hizmetler temel şemayı devralan özel şemalar türetebilir ve ek alanlar içerebilir.Individual services can derive custom schemas that inherit the base schema, and contain additional fields.

Sağlama, dağıtım ve izleme dahil olmak üzere yönetim görevlerini otomatikleştirin.Automate management tasks, including provisioning, deployment, and monitoring. Bir görevin otomatikleştirilmesi bu görevi yinelenebilir hale getirir ve insan hatası olasılığını azaltır.Automating a task makes it repeatable and less prone to human errors.

Yapılandırmayı kod olarak işleyin.Treat configuration as code. Yapılandırma dosyalarını bir sürüm denetim sistemine dahil edin, böylece değişiklikleri ve sürüm farklarını izleyebilir, gerekirse geri alabilirsiniz.Check configuration files into a version control system, so that you can track and version your changes, and roll back if needed.