مبادئ وممارسات هندسة موثوقية الموقع (SRE) الرئيسية: الجانب الإنساني من هندسة موثوقية الموقع (SRE)

مكتمل

عملية العمليات الناجحة هي العملية التي تحقق الموثوقية المطلوبة وتحافظ عليها. تعتمد هذه العملية على كيفية تعاملها مع البشر المسؤولين عن تلك البيئة بقدر ما تعتمد على كيفية تعاملها مع الآلات. تعترف هندسة موثوقية الموقع بهذه الحقيقة بطرق عديدة حاسمة لممارستها.

الكدح

التركيز أولاً على مفهوم "الكدح". في سياق هندسة موثوقية الموقع (SRE)، يشير الكدح إلى العمليات التي يقوم بها إنسان له خصائص معينة. لا يكون للكدح قيمة استرداد على المدى الطويل. إنه لا يؤدي إلى تقدم في الخدمة بأي طريقة ذات معنى. غالبا ما يكون متكررا ويدويا إلى حد كبير (على الرغم من أنه يمكن أن يكون تلقائيا). ومع تزايد حجم الخدمة أو الأنظمة بمرور الوقت، من المحتمل أيضًا أن يزداد عدد الطلبات الخاصة بهذا النظام في الكمية بمعدل نسبي ويتطلب المزيد من العمالة اليدوية.

على سبيل المثال، قد تتطلب الخدمة من فريق SRE تحمل أحمال تشغيلية مثل هذه التي تعتبر كئيرة:

  • إعادة تعيين شيء ما كل أسبوع.
  • توفير حسابات جديدة ومساحة القرص يدويا.
  • إعادة تشغيل عملية يدويا بشكل متكرر.

لا يؤدي إكمال هذه الإجراءات إلى تحسين الخدمة بأي طريقة طويلة الأمد ومستمرة. من المحتمل أيضا أن تتكرر هذه الإجراءات مرارا وتكرارا.

إشعار

حتى إذا كنت تحتفظ بطلبات من هذا النوع في نوع من نظام التذاكر كما تفعل العديد من الأماكن، فإن تنفيذ الإجراء وحل التذكرة لا يزال شاقًا. إنه مجرد كدح جيد التتبع.

تكره هندسة موثوقية الموقع (SRE) الكدح. إنهم يعملون على القضاء عليه كلما كان ذلك ممكنًا ومناسبًا. هذا الهدف هو أحد الأماكن التي تلعب فيها الأتمتة دورا في SRE. إذا كان من الممكن معالجة هذه الطلبات تلقائيًا، فإن ذلك يحرر الفريق للعمل على أشياء أكثر فائدة وتأثيرًا من استنزاف قائمة انتظار الطلبات.

استخدام الكلمة "مناسب" فيما يتعلق بالكسل مشابه لاستخدامه حول الموثوقية. هناك حالات يكون فيها العمل على القضاء على الكدح ذا أولوية أقل من الأعمال الأخرى، ولكن بشكل عام، يعتبر تجريد الكدح من الخدمة هو التركيز الرئيسي لـهندسة موثوقية الموقع (SRE).

أعمال المشروع مقابل العمليات التفاعلية

للقيام بالعمل اللازم لإزالة الكتم أو تحسين موثوقية النظام، يجب تخصيص وقت هندسة موثوقية الموقع (SRE) بشكل مناسب. يريدون التأكد من أنهم لا يقضون كل وقتهم في مكافحة الحرائق أو الرد على الصفحات أو مجرد معالجة قائمة انتظار التذاكر. إنهم بحاجة إلى تخصيص الوقت لكتابة التعليمات البرمجية للقضاء على الكدح، وإنشاء التشغيل التلقائي للخدمة الذاتية حتى لا تكون التذاكر ضرورية، وبناء المشاريع التي تجعل الخدمة والأفراد أكثر كفاءة. الرقم الذي يتم الاستشهاد به عادةً (والذي يأتي من نموذج Google الأصلي) هو واحد لا يزيد عن 50٪ من الحمل التشغيلي للفريق.

إشعار

وتُعد نسبة 50٪ نسبة تعسفية إلى حد ما، ولكن من الناحية العملية يبدو أنه يعمل كهدف معقول لكثير من الناس.

هناك لحظات في حياة هندسة موثوقية الموقع (SRE) حيث يتم تخصيص كل وقتهم لمكافحة الحرائق، ولكن لا يمكن أن تكون هذه الحالة حالة مستقرة. إذا كان عمل فريق العمليات التفاعلية (الكثير منه شاق) يستغرق أكثر من 50٪ من وقته لفترة ممتدة، فهذه وصفة للإرهاق وضعف الموثوقية. في هذه الحالة، لا يمكن تشغيل الدورات الفاضلة التي ناقشناها من قبل أو إنشاؤها. وبالمثل، تولي SRE الانتباه إلى التحميل غير المتوازن بشكل سيئ عند الاتصال لأن ذلك أيضا لديه إمكانية إحداث تأثير سلبي قوي على الفريق.

الآن بعد أن أتيحت لنا الفرصة لرؤية بعض الممارسات والمبادئ الأساسية لـهندسة موثوقية الموقع (SRE)، لنتحدث قليلاً عن كيفية البدء.

‏‫اختبر معلوماتك

1.

أي من هذه الأشياء ليست سمة من سمات الكدح (في سياق هندسة موثوقية الموقع (SRE))؟

2.

ما علاقة هندسة موثوقية الموقع (SRE) بالكدح؟

3.

ما هو تقسيم العمل المقترح لـهندسة موثوقية الموقع (SRE)؟