توصيات لتصميم وإنشاء نظام مراقبة

ينطبق على توصية قائمة التحقق من التميز التشغيلي ل Azure Well-Architected Framework:

OE:07 تصميم وتنفيذ نظام مراقبة للتحقق من صحة اختيارات التصميم وإبلاغ قرارات التصميم والأعمال المستقبلية. يلتقط هذا النظام بيانات تتبع الاستخدام التشغيلية والمقاييس والسجلات المنبعثة من البنية الأساسية للتعليمات البرمجية لحمل العمل ويعرضها.

الدليل ذي الصلة: توصيات لإعداد تقرير عن حالة التطبيق

يصف هذا الدليل توصيات تصميم وإنشاء نظام مراقبة. لمراقبة حمل العمل بشكل فعال من أجل الأمان والأداء والموثوقية، تحتاج إلى نظام شامل مع مكدسه الخاص الذي يوفر الأساس لجميع وظائف المراقبة والكشف والتنبيه.

التعريفات

المصطلح التعريف
السجلات أحداث النظام المسجلة. يمكن أن تحتوي السجلات على أنواع مختلفة من البيانات بتنسيق نص منظم أو حر. تحتوي على طابع زمني.
المقاييس القيم الرقمية التي يتم جمعها على فترات منتظمة. تصف المقاييس بعض جوانب النظام في وقت معين.

استراتيجيات التصميم الرئيسية

لتنفيذ تصميم نظام مراقبة شامل لحمل العمل الخاص بك، اتبع هذه المبادئ الأساسية:

  • كلما كان ذلك عمليا، استفد من أدوات المراقبة المقدمة من النظام الأساسي، والتي تتطلب عادة القليل من التكوين ويمكن أن توفر رؤى عميقة حول حمل العمل الخاص بك والتي قد يكون من الصعب إنجازها بخلاف ذلك.

  • جمع السجلات والمقاييس من مكدس حمل العمل بأكمله. يجب تكوين جميع موارد البنية الأساسية ووظائف التطبيق لإنتاج بيانات موحدة وذات مغزى، ويجب جمع البيانات.

  • قم بتخزين البيانات التي تم جمعها في حل تخزين موحد وموثوق وآمن.

  • معالجة البيانات المخزنة بحيث يمكن معالجتها بواسطة حلول التحليل والتصور.

  • تحليل البيانات المعالجة لتحديد حالة حمل العمل بدقة.

  • تصور حالة حمل العمل في لوحات معلومات أو تقارير ذات معنى لفرق حمل العمل وأصحاب المصلحة الآخرين.

  • قم بتكوين تنبيهات قابلة للتنفيذ والاستجابات التلقائية الأخرى لحدود محددة بذكاء لإعلام فرق حمل العمل عند ظهور مشكلات.

  • قم بتضمين أنظمة المراقبة والتنبيه في ممارسات اختبار حمل العمل الإجمالية.

  • تأكد من أن أنظمة المراقبة والتنبيه في نطاق التحسين المستمر. يوفر سلوك التطبيق والبنية الأساسية في الإنتاج فرصا للتعلم المستمر. دمج هذه الدروس في تصميمات المراقبة والتنبيه.

  • اربط بيانات المراقبة التي تجمعها وتحللها مرة أخرى بالنظام وتدفقات المستخدم لربط صحة التدفقات بالبيانات بالإضافة إلى الصحة العامة لحمل العمل. سيساعد تحليل تلك البيانات من حيث التدفقات في مواءمة استراتيجية المراقبة الخاصة بك مع نموذج الصحة الخاص بك.

يجب عليك أتمتة جميع وظائف نظام المراقبة قدر الإمكان، ويجب أن تعمل جميعها بشكل مستمر، طوال اليوم، كل يوم.

يوضح مسار سير العمل هذا نظام المراقبة:

رسم تخطيطي يوضح مراحل نظام مراقبة شامل كبنية أساسية لبرنامج ربط العمليات التجارية.

المجموعة

ملاحظة

تحتاج إلى وضع علامة على التطبيق الخاص بك لتمكين التسجيل. لمزيد من المعلومات، راجع دليل الأجهزة.

يجب عليك تكوين جميع مكونات حمل العمل، سواء كانت موارد البنية الأساسية أو وظائف التطبيق، لالتقاط بيانات تتبع الاستخدام و/أو الأحداث مثل السجلات والمقاييس.

السجلات مفيدة في المقام الأول للكشف عن الحالات الشاذة والتحقيق فيها. عادة ما يتم إنتاج السجلات بواسطة مكون حمل العمل ثم إرسالها إلى النظام الأساسي للمراقبة أو سحبها بواسطة النظام الأساسي للمراقبة عبر الأتمتة.

تعد المقاييس مفيدة في المقام الأول لبناء نموذج صحي وتحديد الاتجاهات في أداء حمل العمل والموثوقية. تعد المقاييس مفيدة أيضا لتحديد الاتجاهات في سلوك استخدام عملائك. يمكن أن تساعد هذه الاتجاهات في توجيه القرارات حول التحسينات من منظور العميل. عادة ما يتم تعريف المقاييس في النظام الأساسي للمراقبة، ويتحقق النظام الأساسي للمراقبة والأدوات الأخرى من حمل العمل لالتقاط المقاييس.

بيانات التطبيق

بالنسبة للتطبيقات، يمكن أن تكون خدمة التجميع أداة إدارة أداء التطبيق (APM) التي يمكن تشغيلها بشكل مستقل من التطبيق الذي ينشئ بيانات الأجهزة. بعد تمكين APM، يكون لديك رؤية واضحة للمقاييس المهمة، في الوقت الحقيقي والتاريخي. استخدم مستوى مناسبا من التسجيل. يمكن أن يؤدي التسجيل المطول إلى تكاليف كبيرة. تعيين مستويات السجل وفقا للبيئة. لا تحتاج البيئات المنخفضة إلى نفس مستوى الإسهاب مثل الإنتاج، على سبيل المثال.

تدعم سجلات التطبيق دورة حياة التطبيق الشاملة. التسجيل ضروري لفهم كيفية عمل التطبيق في بيئات مختلفة، والأحداث التي تحدث، والظروف التي تحدث في ظلها.

نوصي بتجميع سجلات التطبيق والأحداث عبر جميع البيئات الرئيسية. افصل البيانات بين البيئات قدر الإمكان باستخدام مخازن بيانات مختلفة لكل بيئة، إذا كان القيام بذلك عمليا. استخدم عوامل التصفية للتأكد من أن البيئات غير الحرجة لا تعقد تفسير سجلات الإنتاج. وأخيرا، يجب أن تلتقط إدخالات السجل المقابلة عبر التطبيق معرف ارتباط للمعاملات الخاصة بها.

يجب عليك التقاط أحداث التطبيق في أنواع البيانات المنظمة مع نقاط بيانات قابلة للقراءة آليا بدلا من أنواع السلاسل غير المنظمة. يمكن أن يجعل التنسيق المنظم الذي يستخدم مخططا معروفا تحليل السجلات وتحليلها أسهل. كما يمكن فهرسة البيانات المنظمة والبحث فيها بسهولة، ويمكن تبسيط إعداد التقارير بشكل كبير.

يجب أن تكون البيانات بتنسيق غير محدد مستقل عن الجهاز أو نظام التشغيل أو بروتوكول الشبكة. على سبيل المثال، تصدر معلومات بتنسيق ذاتي الوصف مثل JSON أو MessagePack أو Protobuf بدلا من ETL/ETW. يمكن التنسيق القياسي النظام من إنشاء مسارات المعالجة. يمكن دمج المكونات التي تقرأ البيانات وتحولها وترسلها بالتنسيق القياسي بسهولة.

بيانات البنية الأساسية

بالنسبة لموارد البنية الأساسية في حمل العمل الخاص بك، تأكد من جمع كل من السجلات والمقاييس. بالنسبة لأنظمة البنية الأساسية كخدمة (IaaS)، سجل نظام التشغيل وطبقة التطبيق وسجلات التشخيص بالإضافة إلى المقاييس المتعلقة بصحة حمل العمل. بالنسبة لموارد النظام الأساسي كخدمة (PaaS)، قد تكون محدودا في قدرتك على التقاط السجلات المتعلقة بالبنية الأساسية، ولكن تأكد من أنه يمكنك تسجيل سجلات التشخيص بالإضافة إلى المقاييس المتعلقة بصحة حمل العمل.

قدر الإمكان، اجمع السجلات من النظام الأساسي السحابي الخاص بك. قد تتمكن من جمع سجلات النشاط للاشتراك وسجلات التشخيص لمستوى الإدارة.

استراتيجيات المجموعات

تجنب استرداد بيانات تتبع الاستخدام يدوياً من كل مكون. نقل البيانات إلى موقع مركزي ودمجها هناك. للحصول على حل متعدد المناطق، نوصي أولا بجمع البيانات ودمجها وتخزينها على أساس كل منطقة على حدة، ثم تجميع البيانات الإقليمية في نظام مركزي واحد.

المفاضلة: يجب أن تدرك أن هناك آثارا على التكلفة لوجود مخازن بيانات إقليمية ومركزية.

لتحسين استخدام النطاق الترددي، حدد الأولويات بناءً على أهمية البيانات. يمكنك نقل البيانات الأقل أهمية على دفعات. ومع ذلك، يجب عدم تأخير هذه البيانات إلى أجل غير مسمى، خاصة إذا كانت تحتوي على معلومات حساسة للوقت.

هناك نموذجان أساسيان يمكن لخدمة التجميع استخدامهما لجمع بيانات الأجهزة:

  • نموذج السحب: يسترد البيانات بنشاط من السجلات المختلفة والمصادر الأخرى لكل مثيل من التطبيق.

  • نموذج الدفع: ينتظر بشكل سلبي إرسال البيانات من المكونات التي تشكل كل مثيل للتطبيق.

عاملو المراقبة

يمكنك استخدام عوامل المراقبة في نموذج السحب. يعمل الوكلاء محليا في عملية منفصلة مع كل مثيل من التطبيق، ويسحبون البيانات بشكل دوري ويكتبون المعلومات مباشرة إلى التخزين الشائع الذي تشاركه جميع مثيلات التطبيق.

رسم تخطيطي يوضح استخدام عامل مراقبة لسحب المعلومات وكتابتها في التخزين المشترك.

ملاحظة

يعد استخدام عامل المراقبة مناسباً بشكل مثالي لالتقاط بيانات الأجهزة التي يتم سحبها بشكل طبيعي من مصدر البيانات. إنه مناسب لتطبيق صغير النطاق يعمل على عدد محدود من العقد في موقع واحد. تتضمن الأمثلة معلومات من طرق عرض الإدارة الديناميكية SQL Server أو طول قائمة انتظار ناقل خدمة Azure.

اعتبارات الأداء

قد يولد التطبيق المعقد والقابل للتطوير بدرجة كبيرة كميات هائلة من البيانات. يمكن أن تطغى كمية البيانات بسهولة على النطاق الترددي الإدخال/الإخراج المتاح لموقع مركزي واحد. يجب ألا يسبب حل تتبع الاستخدام ازدحاماً، ويجب أن يكون قابلاً للتوسع مع توسع النظام. من الناحية المثالية، يجب أن يتضمن الحل درجة من التكرار لتقليل مخاطر فقدان معلومات المراقبة المهمة (مثل بيانات التدقيق أو الفوترة) إذا فشل جزء من النظام.

تتمثل إحدى طرق تخزين بيانات الأجهزة مؤقتا في استخدام قائمة الانتظار:

رسم تخطيطي يوضح كيف يمكنك استخدام قائمة انتظار لتخزين بيانات الأجهزة مؤقتا.

في هذا التصميم، تقوم خدمة جمع البيانات بترحيل البيانات في قائمة انتظار. قائمة انتظار الرسائل مناسبة لأنها توفر دلالات "مرة واحدة على الأقل" تساعد على ضمان عدم فقدان البيانات المدرجة في قائمة الانتظار بعد نشرها. يمكنك تنفيذ خدمة كتابة التخزين باستخدام دور عامل منفصل. يمكنك استخدام نمط قائمة انتظار الأولوية لتنفيذ هذه البنية.

لقابلية التوسع، يمكنك تشغيل مثيلات متعددة لخدمة كتابة التخزين. إذا كان يتم مراقبة حجم كبير من الأحداث أو عدد كبير من نقاط البيانات، يمكنك استخدام Azure Event Hubs لإرسال البيانات إلى مثيل حساب مختلف للمعالجة والتخزين.

استراتيجيات الدمج

توفر البيانات التي تم جمعها من مثيل واحد للتطبيق طريقة عرض مترجمة لصحة هذا المثيل وأدائه. لتقييم الصحة العامة للنظام، تحتاج إلى دمج بعض جوانب البيانات من طرق العرض المحلية. يمكنك القيام بذلك بعد تخزين البيانات، ولكن في بعض الحالات، يمكنك القيام بذلك أثناء جمع البيانات.

رسم تخطيطي يوضح مثالا على استخدام خدمة لدمج بيانات الأجهزة.

يمكن أن تمر بيانات الأجهزة من خلال خدمة منفصلة لدمج البيانات تجمع البيانات وتعمل كعملية تصفية وتنظيف. على سبيل المثال، يمكنك دمج بيانات الأجهزة التي تتضمن نفس معلومات الارتباط، مثل معرف النشاط. (قد يبدأ المستخدم عملية عمل على عقدة واحدة ثم يتم نقله إلى عقدة أخرى إذا فشلت العقدة الأولى، أو بسبب كيفية تكوين موازنة التحميل.) يمكن لهذه العملية أيضا الكشف عن أي بيانات مكررة وإزالتها. (يمكن أن يحدث التكرار إذا كانت خدمة بيانات تتبع الاستخدام تستخدم قوائم انتظار الرسائل لدفع بيانات الأجهزة إلى التخزين.)

التخزين

عند اختيار حل تخزين، ضع في اعتبارك نوع البيانات وكيفية استخدامها ومدى السرعة المطلوبة.

ملاحظة

استخدم حلول تخزين منفصلة للبيئات غير الإنتاجية والإنتاجية لضمان سهولة تحديد البيانات من كل بيئة وإدارتها.

تقنيات التخزين

ضع في اعتبارك نهج استمرار متعدد اللغات، حيث يتم تخزين أنواع مختلفة من المعلومات في التقنيات الأكثر ملاءمة للطريقة التي من المحتمل أن يستخدم بها كل نوع.

على سبيل المثال، يتم الوصول إلى Azure Blob Storage وAzure Table Storage بطرق مماثلة. ولكن العمليات التي يمكنك تنفيذها عليها تختلف، كما تختلف نقاوة البيانات التي يحتفظون بها. إذا كنت بحاجة إلى إجراء المزيد من العمليات التحليلية أو تتطلب إمكانات البحث في النص الكامل على البيانات، فقد يكون من الأنسب استخدام تخزين البيانات الذي يوفر إمكانات محسّنة لأنواع معينة من الاستعلامات والوصول إلى البيانات. على سبيل المثال:

  • يمكن تخزين بيانات عداد الأداء في قاعدة بيانات SQL لتمكين التحليل المخصص.

  • قد يكون من الأفضل تخزين سجلات التتبع في سجلات Azure Monitor أو Azure Data Explorer.

  • يمكنك تخزين معلومات الأمان في حل HDFS.

قد تكون بيانات الأجهزة نفسها مطلوبة لأكثر من غرض واحد. على سبيل المثال، يمكنك استخدام عدادات الأداء لتوفير عرض تاريخي لأداء النظام بمرور الوقت. يمكن دمج هذه المعلومات مع بيانات الاستخدام الأخرى لإنشاء معلومات فوترة العميل. في هذه الحالات، قد يتم إرسال نفس البيانات إلى أكثر من وجهة واحدة، مثل قاعدة بيانات المستندات التي يمكن أن تكون مخزنا طويل الأجل للاحتفاظ بمعلومات الفوترة، وإلى مخزن متعدد الأبعاد للتعامل مع تحليلات الأداء المعقدة.

تأكد من تمكين الوظائف لحماية البيانات من الحذف العرضي، مثل تأمين الموارد والحذف المبدئي.

تأكد أيضا من تأمين الوصول إلى التخزين باستخدام التحكم في الوصول المستند إلى الدور للمساعدة في ضمان أن الأفراد الذين يحتاجون إلى الوصول إلى البيانات فقط يمكنهم القيام بذلك.

خدمة الدمج

يمكنك تنفيذ خدمة أخرى تسترد البيانات بشكل دوري من التخزين المشترك والأقسام وتصفيتها وفقا لهدفها، ثم تكتبها إلى مجموعة مناسبة من مخازن البيانات.

رسم تخطيطي يوضح خدمة تقسيم البيانات التي تنقل البيانات إلى مخزن بيانات مناسب استنادا إلى نوعها.

تتمثل إحدى النُهج البديلة في تضمين هذه الوظيفة في عملية الدمج والتنظيف وكتابة البيانات مباشرة إلى مخازن البيانات هذه عند استردادها بدلاً من حفظها في منطقة تخزين مشتركة وسيطة.

لدى كل نهج مزايا وعيوب. يؤدي تنفيذ خدمة تقسيم منفصلة إلى تقليل الحمل على خدمة الدمج والتنظيف، كما أنه يتيح إعادة إنشاء بعض البيانات المقسمة على الأقل إذا لزم الأمر (اعتمادا على مقدار البيانات التي يتم الاحتفاظ بها في التخزين المشترك). ومع ذلك، يستهلك هذا النهج موارد إضافية. كما قد يوجد تأخير بين استلام بيانات الأجهزة من كل مثيل تطبيق وتحويل هذه البيانات إلى معلومات قابلة للتنفيذ.

الاستعلام عن الاعتبارات

ضع في اعتبارك مدى سرعة الاحتياج المطلوبة للبيانات. يجب الوصول إلى البيانات التي تنشئ التنبيهات بسرعة، لذلك يجب الاحتفاظ بها في تخزين بيانات سريع وفهرستها أو تنظيمها لتحسين الاستعلامات التي يقوم بها نظام التنبيه. في بعض الحالات، قد يكون من الضروري لخدمة التجميع تنسيق البيانات وحفظها محلياً بحيث يمكن لمثيل محلي لنظام التنبيه إرسال الإعلامات بسرعة. يمكن إرسال نفس البيانات إلى خدمة كتابة التخزين الموضحة في الصور السابقة وتخزينها مركزياً إذا كانت مطلوبة أيضاً لأغراض أخرى.

اعتبارات استبقاء البيانات

في بعض الحالات، بعد معالجة البيانات ونقلها، يمكنك إزالة بيانات المصدر الأولية الأصلية التي تم تخزينها محليا. وفي حالات أخرى، قد يكون من الضروري أو المفيد حفظ البيانات غير المنسقة. على سبيل المثال، قد ترغب في الاحتفاظ بالبيانات التي تم إنشاؤها لتصحيح الأخطاء المتوفرة في شكلها الأولي ولكن بعد ذلك تجاهلها بسرعة بعد حل أي أخطاء.

غالبا ما يكون لبيانات الأداء عمر أطول بحيث يمكنك استخدامها لاكتشاف اتجاهات الأداء وتخطيط السعة. عادةً ما يتم الاحتفاظ بطريقة العرض المدمجة لهذه البيانات عبر الإنترنت لفترة محدودة لتمكين الوصول السريع. بعد ذلك، يمكن أرشفتها أو تجاهلها.

من المفيد تخزين البيانات التاريخية حتى تتمكن من تحديد الاتجاهات طويلة المدى. بدلا من حفظ البيانات القديمة بالكامل، قد تتمكن من أخذ عينات من البيانات لتقليل دقة البيانات وتوفير تكاليف التخزين. على سبيل المثال، بدلا من حفظ مؤشرات الأداء دقيقة بخطوة، يمكنك دمج البيانات التي مضى عليها أكثر من شهر لتشكيل طريقة عرض ساعة بساعة.

قد تحتاج البيانات التي تم جمعها لعملاء القياس والفوترة إلى حفظها إلى أجل غير مسمى. بالإضافة إلى ذلك، قد تملي المتطلبات التنظيمية أن المعلومات التي يتم جمعها للتدقيق والأمان يجب أرشفتها وحفظها. هذه البيانات حساسة أيضاً وقد تحتاج إلى تشفيرها أو حمايتها بطريقة أخرى لمنع العبث بها. يجب عدم تسجيل كلمات مرور المستخدم أو المعلومات الأخرى التي قد يتم استخدامها لارتكاب الاحتيال في الهوية. يجب مسح هذه التفاصيل من البيانات قبل تخزينها.

للتأكد من توافقك مع القوانين واللوائح، قم بتقليص تخزين أي معلومات يمكن التعرف عليها. إذا كنت بحاجة إلى تخزين معلومات تعريفية، فتأكد، عند تصميم الحل الخاص بك، لتأخذ في الاعتبار المتطلبات التي تسمح للأفراد بطلب حذف معلوماتهم.

تحليل

بعد جمع البيانات من مصادر بيانات مختلفة، قم بتحليلها لتقييم الرفاه العام للنظام. لهذا التحليل، لديك فهم واضح لما يلي:

  • كيفية هيكلة البيانات استنادا إلى مؤشرات الأداء الرئيسية ومقاييس الأداء التي قمت بتعريفها.

  • كيفية بيان مدى الارتباط بين البيانات الملتقطة التي يتم تسجيلها في شكل قياسات وملفات سجلات مختلفة. هذا الارتباط مهم عندما تتعقب سلسلة من الأحداث ويمكن أن يساعدك في تشخيص المشكلات.

في معظم الحالات، يتم التقاط البيانات لكل مكون من مكونات البنية محليا ثم دمجها بدقة مع البيانات التي يتم إنشاؤها بواسطة مكونات أخرى.

على سبيل المثال، قد يحتوي تطبيق من ثلاثة مستويات على:

  • طبقة عرض تقديمي تسمح للمستخدم بالاتصال بموقع ويب.

  • طبقة متوسطة تستضيف مجموعة من الخدمات المصغرة التي تعالج منطق العمل.

  • طبقة قاعدة بيانات تخزن البيانات المقترنة بالعملية.

قد تمتد بيانات الاستخدام لعملية عمل واحدة على جميع المستويات الثلاثة. يجب ربط هذه المعلومات لتوفير عرض شامل للمورد واستخدام المعالجة للعملية. قد ينطوي الارتباط على بعض المعالجة المسبقة للبيانات وتصفيتها على مستوى الطبقة المسؤولة عن البيانات. في الطبقة الوسطى، التجميع والتنسيق هما مهام شائعة.

التوصيات

  • ربط السجلات على مستوى التطبيق ومستوى الموارد. تقييم البيانات على كلا المستويين لتحسين الكشف عن المشكلات واستكشاف الأخطاء وإصلاحها. يمكنك تجميع البيانات في متلقي بيانات واحد أو الاستفادة من الأساليب التي تستعلم عن الأحداث عبر كلا المستويين. نوصي بحل موحد، مثل Azure Log Analytics، لتجميع السجلات على مستوى التطبيق ومستوى الموارد والاستعلام فيها.

  • حدد أوقات استبقاء واضحة على التخزين للتحليل البارد. نوصي بهذه الممارسة لتمكين التحليل التاريخي خلال فترة محددة. كما يمكن أن يساعدك في التحكم في تكاليف التخزين. تنفيذ العمليات التي تضمن أرشفة البيانات إلى تخزين أرخص وتجميع البيانات لتحليل الاتجاه على المدى الطويل.

  • تحليل الاتجاهات طويلة الأجل للتنبؤ بالمشكلات التشغيلية. قم بتقييم البيانات طويلة الأجل لتشكيل استراتيجيات تشغيلية وأيضا للتنبؤ بالمشكلات التشغيلية التي من المحتمل أن تحدث ومتى. على سبيل المثال، قد تلاحظ أن متوسط أوقات الاستجابة يزداد ببطء بمرور الوقت ويقترب من الحد الأقصى المستهدف.

للحصول على إرشادات مفصلة حول هذه التوصيات، راجع تحليل بيانات المراقبة للتطبيقات السحابية.

عرض البيانات بشكل بياني

لوحات المعلومات

الطريقة الأكثر شيوعا لتصور البيانات هي استخدام لوحات المعلومات التي يمكنها عرض المعلومات كسلسلة من المخططات أو الرسوم البيانية، أو في شكل مرئي آخر. يمكن تحديد معلمات هذه العناصر، ويمكن للمحلل تحديد المعلمات المهمة، مثل الفترة الزمنية، لأي حالة محددة.

قم بمحاذاة لوحات المعلومات مع نموذج الحماية الخاص بك بحيث تشير إلى متى يكون حمل العمل أو مكونات حمل العمل سليمة أو متدهورة أو غير صحية.

لكي يعمل نظام لوحة المعلومات بفعالية، يجب أن يكون ذا معنى لفريق حمل العمل. تصور المعلومات التي تتعلق بصحة حمل العمل والتي هي أيضا قابلة للتنفيذ. عندما يكون حمل العمل أو المكون متدهورا أو غير صحي، يجب أن يكون أعضاء فريق حمل العمل قادرين على تحديد مكان المشكلة في حمل العمل بسهولة وبدء إجراءاتهم أو تحقيقاتهم التصحيحية. وعلى العكس من ذلك، يمكن أن يؤدي تضمين المعلومات غير القابلة للتنفيذ أو غير المرتبطة بصحة حمل العمل إلى جعل لوحة المعلومات معقدة ومحبطة بلا داع لأعضاء الفريق الذين يحاولون تمييز ضوضاء الخلفية من البيانات القابلة للتنفيذ.

قد يكون لديك لوحات معلومات لأصحاب المصلحة أو المطورين الذين تم تخصيصهم لإظهار بيانات حول حمل العمل التي يجدونها ذات صلة فقط. تأكد من أن فريق حمل العمل يفهم أنواع نقاط البيانات التي تهتم الفرق الأخرى برؤية لوحات المعلومات ومعاينتها قبل مشاركتها للتحقق من الوضوح. يعد توفير لوحات معلومات حول حمل العمل الخاص بك لأصحاب المصلحة طريقة جيدة لإبقائها على دراية بصحة حمل العمل، ولكنه ينطوي على خطر أن يكون له نتائج عكسية إذا لم يفهم المساهمون بوضوح البيانات التي يرونها.

لا تعرض لوحة المعلومات الجيدة المعلومات فقط. كما أنه يمكن المحلل من طرح أسئلة مرتجلة حول تلك المعلومات. توفر بعض الأنظمة أدوات للإدارة يمكن لعامل التشغيل استخدامها لإكمال هذه المهام واستكشاف البيانات الأساسية. بدلا من ذلك، اعتمادا على المستودع المستخدم للاحتفاظ بالمعلومات، قد يكون من الممكن الاستعلام عن البيانات مباشرة أو استيرادها إلى أدوات مثل Excel لمزيد من التحليل وإعداد التقارير.

ملاحظة

تقييد وصول لوحة المعلومات إلى الموظفين المعتمدين. قد تكون المعلومات المتعلقة بلوحات المعلومات حساسة تجاريا. يجب عليك أيضا حماية البيانات الأساسية لمنع المستخدمين من تغييرها.

إعداد التقارير

يتم استخدام التقارير لإنشاء طريقة عرض شاملة للنظام. قد يتضمن بيانات تاريخية ومعلومات حالية. وتندرج متطلبات التقارير في فئتين واسعتين: التقارير التشغيلية والتقارير الأمنية.

تتضمن التقارير التشغيلية عادة ما يلي:

  • جمع الإحصائيات التي يمكنك استخدامها لفهم استخدام الموارد للنظام الشامل أو الأنظمة الفرعية المحددة أثناء نافذة زمنية محددة.

  • تحديد الاتجاهات في استخدام الموارد للنظام الشامل أو الأنظمة الفرعية المحددة خلال فترة محددة.

  • مراقبة الاستثناءات التي وقعت في النظام أو في أنظمة فرعية محددة خلال فترة محددة.

  • تحديد كفاءة التطبيق للموارد المنشورة، وفهم ما إذا كان يمكن تقليل حجم الموارد والتكاليف المرتبطة بها دون التأثير على الأداء دون داع.

تقارير الأمان تتعقب استخدام العملاء للنظام. وقد تشمل:

  • تدقيق عمليات المستخدم. تتطلب هذه المهمة تسجيل الطلبات الفردية التي يكملها كل مستخدم، جنبا إلى جنب مع التواريخ والأوقات. يجب تنظيم البيانات لتمكين المسؤول من إعادة إنشاء تسلسل العمليات التي يكملها المستخدم بسرعة خلال فترة محددة.

  • تتبع استخدام المورد من قبل المستخدم. تتطلب هذه المهمة تسجيل كيفية وصول كل طلب من مستخدم إلى الموارد المختلفة التي تشكل النظام، ومدة الوصول. يمكن للمسؤول استخدام هذه البيانات لإنشاء تقرير استخدام، حسب المستخدم، لفترة محددة، ربما للفوترة.

في كثير من الحالات، يمكن أن تقوم عمليات معالجة الدفعة بإنشاء التقارير وفقًا لجدول زمني محدد. إن زمن الانتقال ليس في العادة مشكلة. يجب أن يكون لديك أيضا عمليات دفعية يمكنها إنشاء تقارير على أساس تلقائي، حسب الحاجة. على سبيل المثال، إذا قمت بتخزين البيانات في قاعدة بيانات ارتباطية مثل Azure SQL Database، يمكنك استخدام أداة مثل SQL Server Reporting Services لاستخراج البيانات وتنسيقها وتقديمها كم مجموعة من التقارير.

التنبيهات

للمساعدة في ضمان بقاء النظام سليما وسريع الاستجابة وآمنا، قم بتعيين التنبيهات حتى يتمكن المشغلون من الاستجابة لها في الوقت المناسب. يمكن أن يحتوي التنبيه على معلومات سياقية كافية لمساعدتهم على البدء بسرعة في الأنشطة التشخيصية. يمكن استخدام التنبيه لاستدعاء وظائف المعالجة مثل التحجيم التلقائي أو آليات الإصلاح الذاتي الأخرى. يمكن للتنبيهات أيضا تمكين الوعي بالتكلفة من خلال توفير رؤية للميزانيات والحدود.

التوصيات

  • حدد عملية لاستجابة التنبيه التي تحدد المالكين المسؤولين والإجراءات.

  • كوِّن التنبيهات لنطاق محدد جيدًا (أنواع الموارد ومجموعات الموارد) واضبط الإسهاب لتقليل الضوضاء.

  • استخدم حل تنبيه تلقائي، مثل Splunk أو Azure Monitor، بدلا من مطالبة الأشخاص بالبحث بنشاط عن المشكلات.

  • استخدم التنبيهات لتشغيل عمليات المعالجة. على سبيل المثال، أنشئ تذاكر تلقائيًا لتتبع المشكلات والحلول.

  • تعقب صحة خدمات النظام الأساسي السحابي في المناطق، والتواصل حول الانقطاعات، وأنشطة الصيانة المخطط لها، والنصائح الصحية الأخرى.

الحدود القصوى

يتم إنشاء التنبيهات عند تجاوز الحدود، كما تم اكتشافها بواسطة نظام المراقبة الخاص بك. تأكد من أن الحدود التي قمت بتعيينها تمنحك بشكل عام وقتا كافيا لتنفيذ التغييرات الضرورية على حمل العمل لتجنب التدهور أو الانقطاعات. على سبيل المثال، قم بتعيين حد التحجيم التلقائي لبدء التحجيم قبل أن يصبح أي من الأنظمة قيد التشغيل غارقة إلى حد تجربة مستخدم متدهورة. قم بإسناد قيم الحد التي تقوم بتعيينها إلى تجربتك السابقة في إدارة البنية الأساسية والتحقق من صحتها من خلال الاختبار الذي تقوم به كجزء من ممارسات الاختبار الخاصة بك.

للحصول على إرشادات مفصلة حول حالات استخدام التنبيه والاعتبارات الأخرى، راجع تصميم استراتيجية مراقبة وتنبيه موثوقة.

تسهيل Azure

  • Azure Monitor هو حل مراقبة شامل لجمع بيانات المراقبة وتحليلها والاستجابة لها من البيئات السحابية والمحلية.

  • Log Analytics هي أداة في مدخل Microsoft Azure يمكنك استخدامها لتحرير استعلامات السجل وتشغيلها مقابل البيانات في مساحة عمل Log Analytics.

    إذا كنت تستخدم مساحات عمل متعددة، فشاهد دليل بنية مساحة عمل Log Analytics للحصول على أفضل الممارسات.

  • Application Insights هو امتداد ل Azure Monitor. يوفر ميزات APM.

  • Azure Monitor Insights هي أدوات تحليلات متقدمة لتقنيات Azure محددة (مثل الأجهزة الظاهرية وخدمات التطبيقات والحاويات). هذه الأدوات هي جزء من Azure Monitor وLog Analytics.

  • Azure Monitor لحلول SAP هي أداة مراقبة Azure لمناظر SAP الطبيعية التي تعمل على Azure.

  • يمكن أن يساعدك نهج Azure في فرض المعايير التنظيمية وتقييم التوافق على نطاق واسع.

  • Azure Monitor Baseline Alerts (AMBA) هو مستودع مركزي لتعريفات التنبيه التي يمكن للعملاء والشركاء استخدامها لتحسين تجربة المراقبة الخاصة بهم من خلال اعتماد Azure Monitor.

قائمة التحقق من التميز التشغيلي

راجع المجموعة الكاملة من التوصيات.