توصيات لتصميم استراتيجية مراقبة وتنبيه موثوقة

ينطبق على توصية قائمة التحقق من موثوقية Azure Well-Architected Framework هذه:

RE:10 قياس المؤشرات الصحية للحل ونشرها. تسجيل وقت التشغيل وبيانات الموثوقية الأخرى باستمرار من خلال حمل العمل وأيضا من المكونات الفردية والتدفقات الرئيسية.

يصف هذا الدليل توصيات تصميم استراتيجية مراقبة وتنبيه موثوقة. نفذ هذه الاستراتيجية لإبقاء فرق العمليات الخاصة بك على علم بالحالة الصحية لبيئتك والتأكد من تلبية أهداف الموثوقية المحددة لحمل العمل الخاص بك.

التعريفات

المصطلح التعريف
المقاييس القيم الرقمية التي يتم جمعها على فترات منتظمة. تصف المقاييس بعض جوانب النظام في وقت معين.
سجلات الموارد البيانات التي ينشئها النظام. يوفر معلومات حول حالة النظام.
التتبع البيانات التي توفر معلومات حول المسار الذي ينتقل به الطلب عبر الخدمات والمكونات.

استراتيجيات التصميم الرئيسية

قبل إنشاء استراتيجية مراقبة وتنبيه، قم بتنفيذ المهام التالية لحمل العمل الخاص بك كجزء من تخطيط الموثوقية:

قم بإنشاء استراتيجية مراقبة وتنبيه للتأكد من أن حمل العمل الخاص بك يعمل بشكل موثوق. توفر استراتيجية المراقبة والتنبيه الوعي لفرق العمليات الخاصة بك بحيث يتم إعلامهم بالتغييرات في حالة حمل العمل الخاص بك ويمكنهم معالجة المشكلات بسرعة. بناء استراتيجية مراقبة قوية وموثوقة من خلال إنشاء نموذج صحي لتدفقاتك الحرجة والمكونات التي تشكلها هذه التدفقات الحرجة. يحدد نموذج الصحة الحالات الصحية والمتدهورة وغير الصحية. صمم وضعك التشغيلي لالتقاط التغييرات على الفور في هذه الحالات. عندما تتغير الحالات الصحية من صحية إلى متدهورة أو غير صحية، تؤدي آليات التنبيه إلى تشغيل التدابير التصحيحية التلقائية وإخطار الفرق المناسبة.

تنفيذ التوصيات التالية لتصميم استراتيجية مراقبة وتنبيه تفي بمتطلبات عملك.

الإرشادات العامة

  • فهم الفرق بين المقاييسوالسجلاتوالتتبعات.

  • تمكين التسجيل لجميع موارد السحابة. استخدم الأتمتة والحوكمة في عمليات التوزيع الخاصة بك لتمكين التسجيل التشخيصي في جميع أنحاء بيئتك.

  • إعادة توجيه جميع سجلات التشخيص إلى مصدر بيانات مركزي ومنصة تحليلات، مثل مساحة عمل Log Analytics. إذا كانت لديك متطلبات سيادة البيانات الإقليمية، فيجب عليك استخدام متلقيات البيانات المحلية في المناطق التي تخضع لتلك المتطلبات.

المفاضلة: هناك آثار على التكلفة لتخزين السجلات والاستعلام فيها. لاحظ كيف يؤثر تحليل السجل والاحتفاظ به على ميزانيتك، وحدد أفضل توازن للاستخدام لتلبية متطلباتك. لمزيد من المعلومات، راجع أفضل الممارسات لتحسين التكلفة.

  • إذا كانت أحمال العمل الخاصة بك خاضعة لإطار عمل توافق واحد أو أكثر، فإن بعض سجلات المكونات التي تتعامل مع المعلومات الحساسة تخضع أيضا لأطر العمل هذه. أرسل سجلات المكونات ذات الصلة إلى نظام إدارة معلومات الأمان والأحداث (SIEM)، مثل Microsoft Sentinel.

  • إنشاء نهج استبقاء السجل الذي يتضمن متطلبات الاستبقاء طويلة الأجل التي تفرضها أطر التوافق على حمل العمل الخاص بك.

  • استخدم التسجيل المنظم لجميع رسائل السجل لتحسين الاستعلام عن بيانات السجل.

  • تكوين التنبيهات لتشغيلها عندما تمر القيم بحدود حرجة ترتبط بتغيير حالة نموذج الحماية، مثل الأخضر إلى الأصفر أو الأحمر.

    تكوين الحد هو ممارسة للتحسين المستمر. مع تطور حمل العمل الخاص بك، قد تتغير الحدود التي تحددها. في بعض الحالات، تعد الحدود الديناميكية خيارا جيدا لاستراتيجية المراقبة الخاصة بك.

  • ضع في اعتبارك استخدام التنبيهات عندما تتحسن الحالات، مثل الأحمر إلى الأصفر أو الأحمر إلى الأخضر، بحيث يمكن لفرق العمليات تعقب هذه الأحداث للرجوع إليها في المستقبل.

  • تصور صحة البيئة في الوقت الحقيقي.

  • استخدم البيانات التي يتم جمعها أثناء الحوادث لتحسين نماذجك الصحية واستراتيجية المراقبة والتنبيه باستمرار.

  • دمج خدمات مراقبة النظام الأساسي السحابي والتنبيه، بما في ذلك:

  • دمج المراقبة والتحليلات المتقدمة المصممة لهذا الغرض التي يقدمها موفر السحابة، مثل أدوات رؤى Azure Monitor.

  • تنفيذ مراقبة النسخ الاحتياطي والاسترداد لالتقاط:

    • حالة النسخ المتماثل للبيانات للتأكد من أن حمل العمل الخاص بك يحقق الاسترداد ضمن هدف نقطة الاسترداد الهدف (RPO).

    • عمليات النسخ الاحتياطي والاسترداد الناجحة والفشلة.

    • مدة الاسترداد لإعلامك بتخطيط الإصلاح بعد كارثة.

مراقبة التطبيقات

  • إنشاء فحوصات السلامة أو التحقق من الوظائف وتشغيلها بانتظام من خارج التطبيق. تأكد من الاختبار من مواقع متعددة قريبة جغرافيا من عملائك.

  • سجل البيانات أثناء تشغيل التطبيق في بيئة الإنتاج. تحتاج إلى معلومات كافية لتشخيص سبب المشكلات في حالة الإنتاج.

  • سجل الأحداث في حدود الخدمة. قم بتضمين معرف الارتباط الذي يتدفق عبر حدود الخدمة. إذا كانت المعاملة تتدفق عبر خدمات متعددة وفشلت إحداها، يساعدك معرف الارتباط على تعقب الطلبات عبر التطبيق الخاص بك وتحديد سبب فشل المعاملة.

  • استخدم التسجيل غير المتزامن. تعمل عمليات التسجيل المتزامنة في بعض الأحيان على حظر التعليمات البرمجية للتطبيق الخاص بك، ما يؤدي إلى نسخ الطلبات احتياطيا أثناء كتابة السجلات. استخدم التسجيل غير المتزامن للحفاظ على إتاحة التوفر أثناء تسجيل التطبيق.

  • تسجيل منفصل للتطبيق عن التدقيق. عادة ما يتم الاحتفاظ بسجلات التدقيق من أجل الامتثال أو المتطلبات التنظيمية ويجب أن تكون كاملة. لتجنب المعاملات التي تم إسقاطها، احتفظ بسجلات التدقيق منفصلة عن سجلات التشخيص.

  • استخدم ارتباط بيانات تتبع الاستخدام للتأكد من أنه يمكنك تعيين المعاملات من خلال التطبيق الشامل وتدفقات النظام الهامة. هذه العملية حيوية لإجراء تحليل السبب الجذري (RCA) للفشل. جمع المقاييس والسجلات على مستوى النظام الأساسي، مثل النسبة المئوية لوحدة المعالجة المركزية والشبكة داخل الشبكة وخارج الشبكة وعمليات القرص في الثانية، من التطبيق لإبلاغ نموذج الحماية واكتشاف المشكلات والتنبؤ بها. يمكن أن يساعد هذا النهج في التمييز بين الأخطاء العابرة وغير العابرة.

  • استخدم مراقبة البرامج لوضع علامة التطبيق باستخدام السجلات والقياسات الدلالية. اجمع المقاييس والسجلات على مستوى التطبيق، مثل استهلاك الذاكرة أو زمن انتقال الطلب، من التطبيق لإبلاغ نموذج الحماية واكتشاف المشكلات والتنبؤ بها.

  • استخدم مراقبة الصندوق الأسود لقياس خدمات النظام الأساسي وتجربة العملاء الناتجة. تختبر مراقبة الأجهزة سلوك التطبيق المرئي خارجياً دون معرفة الأجزاء الداخلية للنظام. هذا النهج شائع لقياس مؤشرات مستوى الخدمة التي تركز على العملاء (SLIs) وأهداف مستوى الخدمة (SLOs) والاتفاقيات على مستوى الخدمة (SLAs).

ملاحظة

لمزيد من المعلومات حول مراقبة التطبيق، راجع نمط مراقبة نقطة النهاية الصحية.

مراقبة البيانات والتخزين

  • مراقبة مقاييس توفر حاويات التخزين الخاصة بك. عندما ينخفض هذا المقياس إلى أقل من 100 بالمائة، فإنه يشير إلى فشل عمليات الكتابة. قد تحدث انخفاضات عابرة في التوفر عندما يدير موفر السحابة الحمل. تعقب اتجاهات التوفر لتحديد ما إذا كانت هناك مشكلة في حمل العمل الخاص بك.

    في بعض الحالات، يشير انخفاض مقاييس التوفر لحاوية التخزين إلى ازدحام في طبقة الحساب المقترنة بحاوية التخزين.

  • هناك العديد من المقاييس لمراقبة قواعد البيانات. في سياق الموثوقية، تتضمن المقاييس المهمة التي يجب مراقبتها ما يلي:

    • مدة الاستعلام

    • المهلات

    • أوقات الانتظار

    • ضغط الذاكرة

    • الأقفال

تسهيل Azure

  • Azure Monitor هو حل مراقبة شامل يستخدم لجمع بيانات المراقبة وتحليلها والاستجابة لها من البيئات السحابية والمحلية.

  • Log Analytics هي أداة في مدخل Microsoft Azure تستخدم لتحرير استعلامات السجل وتشغيلها مقابل البيانات في مساحة عمل Log Analytics.

  • Application Insights هو امتداد ل Azure Monitor. يوفر ميزات مراقبة أداء التطبيق (APM).

  • رؤى Azure Monitor هي أدوات تحليلات متقدمة تساعد في مراقبة خدمات Azure، مثل الأجهزة الظاهرية وخدمات التطبيقات والحاويات. تم إنشاء نتائج التحليلات أعلى Azure Monitor وLog Analytics.

  • Azure Monitor لحلول SAP هو منتج مراقبة أصلي من Azure لمناظر SAP الطبيعية التي تعمل على Azure.

  • تساعد سياسة Azure في فرض المعايير التنظيمية وتقييم الامتثال على نطاق واسع.

  • يمنحك Azure Business Continuity Center رؤى حول ملكية استمرارية الأعمال الخاصة بك. أثناء تطبيق النهج المعطاة لاستمرارية الأعمال والتعافي من الكوارث (BCDR)، استخدم مركز استمرارية الأعمال في Azure لمركزية إدارة حماية استمرارية الأعمال عبر Azure وأحمال العمل المختلطة. يحدد Azure Business Continuity Center الموارد التي تفتقر إلى الحماية المناسبة (عبر النسخ الاحتياطي أو الإصلاح بعد كارثة) ويتخذ إجراءات تصحيحية. تسهل الأداة المراقبة الموحدة وتتيح لك إنشاء توافق الحوكمة والتدقيق من خلال Azure Policy، وكلها يمكن الوصول إليها بسهولة في موقع واحد.

  • للحصول على أفضل ممارسات مساحة عمل متعددة، راجع تصميم بنية مساحة عمل Log Analytics.

مثال

للحصول على أمثلة لحلول المراقبة في العالم الحقيقي، راجع مراقبة تطبيق الويب على بنية Azureوخطوط الأساس لنظام مجموعة خدمة Azure Kubernetes.

  • Azure Monitor Baseline Alerts (AMBA) هو مستودع مركزي لتعريفات التنبيه التي يمكن للعملاء والشركاء استخدامها لتحسين تجربة المراقبة الخاصة بهم من خلال اعتماد Azure Monitor.

قائمة التحقق من الموثوقية

راجع المجموعة الكاملة من التوصيات.