عمليات التحقق من السلامة للأجهزة الظاهرية HPC

مكتمل

يوفر Azure العديد من الاختبارات التلقائية للمساعدة في التعرف على الأجهزة الظاهرية غير السليمة (VMs). باستخدام هذه الاختبارات التلقائية، يمكنك إزالة الأجهزة الظاهرية غير السليمة من الأسطول عند اكتشافها، وقبل أن يصل العملاء إليها. ومع ذلك، لا تلتقط هذه الاختبارات التلقائية كل الأجهزة الظاهرية غير السليمة في بعض الأحيان.

إشعار

يتم تحديث عمليات التحقق التلقائية من السلامة في Azure وتحسينها باستمرار.

تكون بعض تطبيقات HPC، وخاصة تطبيقات HPC المقترنة بإحكام، حساسة للأجهزة الظاهرية غير السليمة. ويمكن أن تتسبب هذه الحساسية في فشل وقت تشغيل تطبيق HPC أو تشغيله بشكل أبطأ مما هو متوقع. تزداد فرص مواجهة الأجهزة الظاهرية غير السليمة مع زيادة نطاق تطبيق HPC المقترن بإحكام.

كإجراء وقائي، يجب عليك إجراء عمليات التحقق من السلامة الخاصة بك، خاصة عند تشغيل تطبيقات HPC المقترنة بإحكام على نطاق واسع. يؤدي تشغيل عمليات التحقق من السلامة الخاصة بك إلى زيادة احتمالية الاستمرار في تشغيل تطبيقات HPC الخاصة بك على النحو الأمثل على نطاق واسع.

نوصي بأن تتحقق من عمليات التحقق من السلامة للجهاز الظاهري وذلك للتأكد من أن المكونات التالية تعمل وتُؤدي كما هو متوقع: شبكة InfiniBand والذاكرة والتخزين وأنوية وحدة المعالجة المركزية.

عمليات التحقق من سلامة InfiniBand

في معظم السيناريوهات، يكون قياس زمن انتقال InfiniBand من نقطة إلى نقطة وعرض النطاق الترددي عبر اختبار ping-pong (إرسال واستقبال رسالة) كافيًا للتحقق من عمليات التحقق من سلامة InfiniBand.

يعد اختبار Intel IMP-MPI1 PingPong خيارا مفيدا لأنه تم إنشاؤه مسبقا ومتاح على صورة CentOS HPC 7.7+ في Azure Marketplace. هناك إصدار مضمن في بيئة Intel MPI وإصدار في بيئة HPC-X MPI، لذا، ستحصل على أفضل أداء في وقت الوصول والنطاق الترددي باستخدام إصدار HPC-X. تتوفر البرامج النصية لتشغيل اختبارات Intel IMP-MPI1 PingPong في مشروع معايير IMB-MPI.

يوضح الجدول التالي زمن الاستجابة المتوقع للشبكة InfiniBand وعرض النطاق الترددي الذي تم قياسه من خلال مقياس أداء HPC-X Intel IMB-IMP1 PingPong على نظام HPC للأجهزة الظاهرية. وتعتبر القيم خارج النطاقات التالية غير سليمة.

VM SKU زمن الاستجابة المتوقع للشبكة عرض نطاق ترددي متوقع للشبكة
HB120_v2 < 2 ميكرو ثانية > 23.0 غيغابايت/ثانية
HC44 < 2 ميكرو ثانية > 11.5 غيغابايت/ثانية
HB60 < 2 ميكرو ثانية > 11.5 غيغابايت/ثانية

الأدوات والمقاييس الأخرى التي يجب مراعاتها هي معايير osu-micro و Mellanox ClusterKit. يتم تثبيت هذا الأخير مسبقا أيضا في صورة CentOS HPC 7.7+ Azure Marketplace في بيئة HPC-X. مثال على البرامج النصية ClusterKit متوفرة في مشروع البرامج النصية للتحقق من صحة Azure.

عمليات التحقق من سلامة الذاكرة

يُعد قياس عرض النطاق الترددي للذاكرة إحدى الطرق الجيدة للتحقق من سلامة ذاكرة الجهاز الظاهري. Intel Memory Latency Checker (MLC) هو أداة مفيدة لقياس النطاق الترددي للذاكرة. وتكون الخيارات الأخرى لبناء وتشغيل مقياس أداء الدفق أو استخدام ClusterKit، ويمكن أيضًا قياس عرض النطاق الترددي للذاكرة. يمكنك العثور على أمثلة البرامج النصية في مشروع البرامج النصية للتحقق من صحة Azure.

ويعرض الجدول التالي عرض النطاق الترددي للذاكرة المُقاسة المتوقعة على كل من الأجهزة الظاهرية لـ HPC التي تعمل بنظام Intel MLC. وتعتبر النطاقات الترددية للذاكرة التي تقع خارج هذه النطاقات غير سليمة.

VM SKU عرض نطاق ترددي متوقع للذاكرة
HB120_v2 > 300 غيغابايت/ثانية
HC44 > 200 غيغابايت/ثانية
HB60 > 250 غيغابايت/ثانية

عمليات التحقق من سلامة التخزين

من الأهمية بمكان فهم حل التخزين الذي تستخدمه وأداء الإدخال/الإخراج المتوقع، ومن ثم التحقق من أداء الإدخال/الإخراج المتوقع عن طريق تشغيل مقياس أداء الإدخال/الإخراج. يمكنك الاختيار من بين عدة أدوات لقياس أداء الإدخال/الإخراج:

لقياس حالة التخزين الخاصة بك، يمكنك إنشاء الحد الأقصى لمعدل نقل الإدخال/الإخراج لإنشاء معيار IOPS. ثم يمكنك مقارنة نتائج معيار الإدخال/الإخراج المقاسة بأداء الإدخال/الإخراج المتوقع لحل التخزين الخاص بك.

يمكنك العثور على أمثلة على البرامج النصية IOR في مشروع IOR وmdtest. يمكنك العثور على أمثلة البرامج النصية FIO في مشروع FIO.

سلامة نواة وحدة المعالجة المركزية

يُعد قياس الحد الأقصى لعمليات الفاصلة العائمة في الثانية (FLOPS) إحدى الطرق الرائعة للتحقق من أن نوى وحدة المعالجة المركزية سليمة وأداءها كما هو متوقع، ومن ثم مقارنة النتائج التي تم قياسها مع نتائج FLOPS المتوقعة النظرية.

يمكنك استخدام Linpack عالي الأداء (HPL) لقياس الحد الأقصى ل FLOPS. وتتمثل إحدى الفوائد الجانبية لتشغيل HPL في أنه يمكن أن يساعد في تحديد بعض وحدات ذاكرة DIMM للذاكرة السيئة (وحدات ذاكرة مضمنة مزدوجة) والسلامة العامة لمجموعة HPC، لأنها تقوم أيضًا بإجراء بعض الاختبارات المحدودة للاتصال المقترن بإحكام.

غالبا ما تستخدم مراكز بيانات HPC HPL للنسخ في نظام HPC جديد. يمكنك العثور على أمثلة لنصوص HPL في مشروع linpack.