مراقبة Azure Machine Learning
عندما يكون لديك تطبيقات وعمليات أعمال مهمة تعتمد على موارد Azure، فأنت تريد مراقبة هذه الموارد لمعرفة مدى توفرها وأدائها وتشغيلها. توضح هذه المقالة بيانات المراقبة التي تم إنشاؤها بواسطة Azure التعلم الآلي وكيفية تحليل هذه البيانات والتنبيه إليها باستخدام Azure Monitor.
تلميح
المعلومات الواردة في هذا المستند مخصصة للمسؤولين في المقام الأول، حيث تصف مراقبة خدمة Azure التعلم الآلي وخدمات Azure المقترنة. إذا كنت عالم بيانات أو مطورا، وتريد مراقبة المعلومات الخاصة بعمليات التدريب النموذجية الخاصة بك، فراجع المستندات التالية:
- بدء عمليات التدريب ومراقبتها وإلغاؤها
- مقاييس السجل لعمليات التدريب
- تتبع التجارب باستخدام MLflow
- تصور الجولات مع TensorBoard
إذا كنت تريد مراقبة المعلومات التي تم إنشاؤها بواسطة النماذج التي تم نشرها كخدمات ويب، فراجع تجميع بيانات النموذجوالمراقبة باستخدام التطبيق Insights.
ما هو Azure Monitor؟
يقوم Azure التعلم الآلي بإنشاء بيانات مراقبة باستخدام Azure Monitor، وهي خدمة مراقبة مكدس كاملة في Azure. يوفر Azure Monitor مجموعة كاملة من الميزات لمراقبة موارد Azure. يمكنه أيضاً مراقبة الموارد في السحابة الأخرى وفي أماكن العمل.
ابدأ بمقالة مراقبة موارد Azure باستخدام Azure Monitor، التي تصف المفاهيم التالية:
- ما هو Azure Monitor؟
- التكاليف المرتبطة بالمراقبة
- بيانات المراقبة التي يتم جمعها في Azure
- تكوين جمع البيانات
- الأدوات القياسية في Azure للتحليل والتنبيه على بيانات المراقبة
تستند الأقسام التالية إلى هذه المقالة من خلال وصف البيانات المحددة التي تم تجميعها ل Azure التعلم الآلي. توفر هذه الأقسام أيضاً أمثلة لتكوين جمع البيانات وتحليل هذه البيانات باستخدام أدوات Azure.
تلميح
لفهم التكاليف المرتبطة بـ Azure Monitor، راجع الاستخدام والتكاليف المقدرة. لفهم الوقت الذي يستغرقه ظهور البيانات في Azure Monitor، راجع تسجيل وقت عرض البيانات.
مراقبة البيانات من Azure التعلم الآلي
يقوم Azure التعلم الآلي بتجميع نفس أنواع بيانات المراقبة مثل موارد Azure الأخرى الموضحة في مراقبة البيانات من موارد Azure.
راجع مرجع بيانات مراقبة Azure التعلم الآلي للحصول على مرجع مفصل للسجلات والمقاييس التي تم إنشاؤها بواسطة Azure التعلم الآلي.
الجمع والتوجيه
تُجمع مقاييس النظام الأساسي وسجل النشاط وتُخزن تلقائيًّا، لكن يمكن توجيههما إلى مواقع أخرى باستخدام إعداد تشخيصي.
لا يتم جمع سجلات الموارد وتخزينها حتى تقوم بإنشاء إعداد تشخيص وتوجيهها إلى موقع واحد أو أكثر. عندما تحتاج إلى إدارة مساحات عمل التعلم الآلي Azure متعددة، يمكنك توجيه السجلات لجميع مساحات العمل إلى نفس وجهة التسجيل والاستعلام عن جميع السجلات من مكان واحد.
راجع إنشاء إعداد تشخيصي لجمع سجلات النظام الأساسي والمقاييس في Azure للاطلاع على العملية التفصيلية لإنشاء إعداد تشخيص باستخدام مدخل Azure أو Azure CLI أو PowerShell. عند إنشاء إعداد تشخيص، فإنك تحدد فئات السجلات المراد تجميعها. يتم سرد فئات Azure التعلم الآلي في Azure التعلم الآلي مرجع بيانات المراقبة.
هام
يتطلب تمكين هذه الإعدادات خدمات Azure الإضافية (حساب التخزين أو مركز الأحداث أو تحليلات السجل)، ما قد يزيد من التكلفة. لحساب التكلفة المقدرة، قم بزيارة حاسبة أسعار Azure.
يمكنك تكوين السجلات التالية ل Azure التعلم الآلي:
| الفئة | الوصف |
|---|---|
| حدث حساب المجموعة Aml | الأحداث من Azure التعلم الآلي مجموعات الحوسبة. |
| AmlComputeClusterNodeEvent (مهمل) | الأحداث من العقد داخل Azure التعلم الآلي مجموعة حوسبة. |
| AmlComputeJobEvent | الأحداث من المهام التي يتم تشغيلها على Azure التعلم الآلي الحوسبة. |
| AmlComputeCpuGpuUtilization | تقوم خدمات ML بحساب سجلات وحدة المعالجة المركزية و GPU utilizaion. |
| AmlRunStatusChangedEvent | تغييرات حالة تشغيل ML. |
| حدث تغيير النماذج | الأحداث عند الوصول إلى نموذج ML تم إنشاؤها أو حذفها. |
| حدث قراءة النماذج | الأحداث عند قراءة نموذج ML. |
| حدث عمل النماذج | الأحداث عند الوصول إلى نموذج ML. |
| DeploymentReadEvent | الأحداث عند قراءة نشر نموذج. |
| DeploymentEventACI | الأحداث التي يحدث فيها نشر نموذج على ACI (ثرثرة جدا). |
| DeploymentEventAKS | الأحداث التي يحدث فيها نشر نموذج على AKS (ثرثرة جدا). |
| عملية الاستنتاج AKS | أحداث الاستدلال أو العملية ذات الصلة على نوع حساب AKS. |
| عملية الاستنتاج AL | أحداث الاستدلال أو العملية ذات الصلة على نوع حساب ACI. |
| حدث تغيير البيئة | الأحداث التي يتم فيها إنشاء تكوينات بيئة ML أو حذفها. |
| حدث قراءة البيئة | الأحداث التي تتم فيها قراءة تكوينات بيئة ML (ثرثرة جدا). |
| DataLabelChangeEvent | الأحداث التي يتم فيها إنشاء تسمية (تصنيفات) البيانات أو مشاريعها أو حذفها. |
| DataLabelReadEvent | الأحداث التي تتم فيها قراءة تسمية (تصنيفات) البيانات أو مشاريعها. |
| ComputeInstanceEvent | الأحداث التي يتم فيها الوصول إلى مثيل حساب ML (دردشة جدا). |
| DataStoreChangeEvent | الأحداث التي يتم فيها إنشاء مخزن بيانات ML أو حذفه. |
| DataStoreReadEvent | الأحداث عند قراءة مخزن بيانات ML. |
| DataSetChangeEvent | الأحداث التي يتم فيها إنشاء مخزن بيانات ML أو حذفه. |
| DataSetReadEvent | الأحداث عند قراءة مخزن بيانات ML. |
| حدث تغيير البنية الأساسية | الأحداث التي يتم فيها إنشاء مسودة خط أنابيب ML أو نقطة النهاية أو الوحدة النمطية أو حذفها. |
| حدث قراءة البنية الأساسية | الأحداث التي تتم فيها قراءة مسودة خط أنابيب ML أو نقطة النهاية أو الوحدة النمطية. |
| تشغيل الحدث | الأحداث التي يتم فيها إنشاء تجارب ML أو حذفها. |
| تشغيل حدث القراءة | الأحداث التي تتم فيها قراءة تجارب ML. |
ملاحظة
اعتبارا من فبراير 2022 ، سيتم إهمال فئة AmlComputeClusterNodeEvent. نوصي بدلا من ذلك باستخدام الفئة AmlComputeClusterEvent.
ملاحظة
عند تمكين القياسات في إعداد تشخيصي، لا يتم تضمين معلومات الأبعاد حالياً كجزء من المعلومات المرسلة إلى حساب التخزين أو مركز الأحداث أو تحليلات السجل.
تتم مناقشة القياسات والسجلات التي يمكنك جمعها في الأقسام التالية.
تحليل المقاييس
يمكنك تحليل مقاييس Azure التعلم الآلي، إلى جانب المقاييس من خدمات Azure الأخرى، عن طريق فتح المقاييس من قائمة Azure Monitor. راجع الشروع في استخدام Azure Metrics Explorer للحصول على تفاصيل حول استخدام هذه الأداة.
للحصول على قائمة بمقاييس النظام الأساسي التي تم جمعها، راجع مراقبة مقاييس Azure التعلم الآلي البيانات المرجعية.
توجد كافة مقاييس التعلم الآلي Azure في مساحة الاسم التعلم الآلي Service Workspace.

كمرجع، يمكنك مشاهدة قائمة بجميع مقاييس الموارد المدعومة في Azure Monitor.
تلميح
تتوفر بيانات قياسات Azure Monitor لمدة 90 يوماً. ومع ذلك، عند إنشاء الرسوم البيانية يمكن تصور 30 يوماً فقط. على سبيل المثال، إذا كنت تريد تصور فترة 90 يوماً، فيجب تقسيمها إلى ثلاثة مخططات كل منها 30 يوماً خلال فترة 90 يوماً.
التصفية والتقسيم
بالنسبة للمقاييس التي تدعم الأبعاد، يمكنك تطبيق عوامل التصفية باستخدام قيمة البعد. على سبيل المثال، تصفية النوى النشطةلاسم نظام مجموعة من cpu-cluster.
يمكنك أيضاً تقسيم مقياس على بُعد لتصور كيفية مقارنة شرائح المقياس المختلفة مع بعضها البعض. على سبيل المثال، تقسيم نوع خطوة خط الأنابيب للاطلاع على عدد أنواع الخطوات المستخدمة في خط الأنابيب.
لمزيد من المعلومات حول التصفية والتقسيم، راجع الميزات المتقدمة لAzure Monitor.
جارٍ تحليل السجلات
يتطلب استخدام تحليلات Azure Monitor Log أن تقوم بإنشاء تكوين تشخيص وتمكين إرسال المعلومات إلى Log Analytics. لمزيد من المعلومات، راجع قسم الجمع والتوجيه.
يتم تخزين البيانات في سجلات المراقبة في Azure في جداول، مع وجود مجموعة خاصة من الخصائص الفريدة لكل جدول. يقوم Azure التعلم الآلي بتخزين البيانات في الجداول التالية:
| الجدول | الوصف |
|---|---|
| حدث حساب المجموعة Aml | الأحداث من Azure التعلم الآلي مجموعات الحوسبة. |
| AmlComputeClusterNodeEvent (مهمل) | الأحداث من العقد داخل Azure التعلم الآلي مجموعة حوسبة. |
| AmlComputeJobEvent | الأحداث من المهام التي يتم تشغيلها على Azure التعلم الآلي الحوسبة. |
| AmlComputeInstanceEvent | الأحداث التي يتم فيها الوصول إلى مثيل حساب ML (قراءة/كتابة). تتضمن الفئة:ComputeInstanceEvent (ثرثرة جدا). |
| AmlDataLabelEvent | الأحداث التي يتم فيها الوصول إلى تسمية (تصنيفات) البيانات أو مشاريعها (قراءتها أو إنشائها أو حذفها). تتضمن الفئة:DataLabelReadEvent,DataLabelChangeEvent. |
| AmlDataSetEvent | الأحداث التي يتم فيها الوصول إلى مجموعة بيانات ML مسجلة أو غير مسجلة (قراءة أو إنشاء أو حذف). وتشمل الفئة:DataSetReadEvent,DataSetChangeEvent. |
| أملداتاستورإيفنت | الأحداث التي يتم فيها الوصول إلى مخزن بيانات ML (قراءة أو إنشاء أو حذف). وتشمل الفئة:داتا ستورريدإيفنت,داتا ستور تشينجستيفن. |
| AmlDeploymentEvent | الأحداث التي يحدث فيها نشر نموذج على ACI أو AKS. وتشمل الفئة:DeploymentReadEvent,DeploymentEventACI,DeploymentEventAKS. |
| AmlInferencingEvent | أحداث الاستدلال أو العملية ذات الصلة على نوع حساب AKS أو ACI. وتشمل الفئة:InferencingOperationACI (ثرثرة جدا),InferencingOperationAKS (ثرثرة جدا). |
| أملموديلزالحدث | الأحداث التي يتم فيها الوصول إلى نموذج ML (قراءة أو إنشاء أو حذف). يتضمن الأحداث التي تحدث فيها تعبئة النماذج والأصول في حزم جاهزة للبناء. وتشمل الفئة:نماذجريدإيفنت,نماذجأكشنإيفنت . |
| AmlPipelineEvent | الأحداث التي يتم فيها الوصول إلى مسودة خط أنابيب ML أو نقطة النهاية أو الوحدة النمطية (قراءة أو إنشاء أو حذف). وتشمل الفئة:PipelineReadEvent,PipelineChangeEvent. |
| AmlRunEvent | الأحداث التي يتم فيها الوصول إلى تجارب ML (قراءة أو إنشاء أو حذف). وتشمل الفئة:RunReadEvent,RunEvent. |
| أملالبيئةالحدث | الأحداث عند تكوين بيئة ML (قراءة أو إنشاء أو حذف). وتشمل الفئة:EnvironmentReadEvent (ثرثرة جدا),EnvironmentChangeEvent. |
ملاحظة
اعتبارا من فبراير 2022، سيتم إهمال جدول AmlComputeClusterNodeEvent. نوصي بدلا من ذلك باستخدام الجدول AmlComputeClusterEvent.
هام
عند تحديد سجلات من قائمة Azure التعلم الآلي، يتم فتح Log Analytics مع تعيين نطاق الاستعلام إلى مساحة العمل الحالية. هذا يعني أن استعلامات السجل ستتضمن فقط بيانات من هذا المورد. إذا كنت تريد تشغيل استعلام يتضمن بيانات من قواعد بيانات أخرى أو بيانات من خدمات Azure الأخرى، فحدد Logs من قائمة Azure Monitor. راجع نطاق الاستعلام عن السجل والزمن في Azure Monitor Log Analytics للحصول على التفاصيل.
للحصول على مرجع مفصل للسجلات والمقاييس، راجع Azure التعلم الآلي مرجع بيانات المراقبة.
استفسارات عينة Kusto
هام
عند تحديد السجلات من القائمة [اسم الخدمة]، يتم فتح Log Analytics مع تعيين نطاق الاستعلام إلى مساحة عمل Azure التعلم الآلي الحالية. هذا يعني أن استعلامات السجل ستتضمن فقط بيانات من هذا المورد. إذا كنت تريد تشغيل استعلام يتضمن بيانات من مساحات عمل أو بيانات أخرى من خدمات Azure الأخرى، فحدد Logs من قائمة Azure Monitor. راجع نطاق الاستعلام عن السجل والزمن في Azure Monitor Log Analytics للحصول على التفاصيل.
فيما يلي الاستعلامات التي يمكنك استخدامها لمساعدتك في مراقبة موارد Azure التعلم الآلي:
الحصول على وظائف فاشلة في الأيام الخمسة الماضية:
AmlComputeJobEvent | where TimeGenerated > ago(5d) and EventType == "JobFailed" | project TimeGenerated , ClusterId , EventType , ExecutionState , ToolTypeالحصول على سجلات لاسم وظيفة معين:
AmlComputeJobEvent | where JobName == "automl_a9940991-dedb-4262-9763-2fd08b79d8fb_setup" | project TimeGenerated , ClusterId , EventType , ExecutionState , ToolTypeاحصل على أحداث المجموعة في الأيام الخمسة الأخيرة للمجموعات التي يكون فيها حجم الجهاز الظاهري Standard_D1_V2:
AmlComputeClusterEvent | where TimeGenerated > ago(4d) and VmSize == "STANDARD_D1_V2" | project ClusterName , InitialNodeCount , MaximumNodeCount , QuotaAllocated , QuotaUtilizedاحصل على تخصيصات عقدة الكتلة في الأيام الثمانية الأخيرة::
AmlComputeClusterEvent | where TimeGenerated > ago(8d) and TargetNodeCount > CurrentNodeCount | project TimeGenerated, ClusterName, CurrentNodeCount, TargetNodeCount
عند توصيل مساحات عمل Azure التعلم الآلي متعددة بنفس مساحة عمل Log Analytics، يمكنك الاستعلام عبر جميع الموارد.
احصل على عدد العقد قيد التشغيل عبر مساحات العمل والمجموعات في اليوم الأخير:
AmlComputeClusterEvent | where TimeGenerated > ago(1d) | summarize avgRunningNodes=avg(TargetNodeCount), maxRunningNodes=max(TargetNodeCount) by Workspace=tostring(split(_ResourceId, "/")[8]), ClusterName, ClusterType, VmSize, VmPriority
إنشاء لوحة معلومات مراقبة مساحة عمل باستخدام قالب
لوحة المعلومات هي طريقة عرض مركزة ومنظمة لموارد السحابة الخاصة بك في مدخل Azure. لمزيد من المعلومات حول إنشاء لوحات المعلومات، راجع إنشاء تنبيهات المقاييس وعرضها وإدارتها باستخدام Azure Monitor.
لنشر لوحة معلومات نموذجية، يمكنك استخدام قالب متاح للجمهور. يستند نموذج لوحة المعلومات إلى استعلامات Kusto، لذا يجب تمكين جمع بيانات Log Analytics لمساحة عمل Azure التعلم الآلي قبل نشر لوحة المعلومات.
التنبيهات
يمكنك الوصول إلى تنبيهات Azure التعلم الآلي عن طريق فتح التنبيهات من قائمة Azure Monitor. راجع إنشاء وعرض وإدارة التنبيهات المترية باستخدام Azure Monitor للحصول على تفاصيل حول إنشاء التنبيهات.
يسرد الجدول التالي قواعد تنبيه المقاييس الشائعة والموصى بها ل Azure التعلم الآلي:
| نوع التنبيه | الشرط | الوصف |
|---|---|---|
| فشل توزيع النموذج | نوع التجميع: الإجمالي, عامل التشغيل: أكبر من, قيمة العتبة: 0 | عند فشل عملية نشر نموذج واحد أو أكثر |
| النسبة المئوية لاستخدام الحصة | نوع التجميع: متوسط, عامل التشغيل: أكبر من, قيمة العتبة: 90 | عندما تكون نسبة استخدام الحصص أكبر من 90٪ |
| وحدات الذاكرة غير القابلة للاستخدام | نوع التجميع: الإجمالي, عامل التشغيل: أكبر من, قيمة العتبة: 0 | عندما يكون هناك عقد واحدة أو أكثر غير قابلة للاستخدام |
الخطوات التالية
- للحصول على مرجع للسجلات والمقاييس، راجع مراقبة Azure التعلم الآلي مرجع بيانات.
- للحصول على معلومات حول استخدام الحصص النسبية المتعلقة التعلم الآلي Azure، راجع إدارة الحصص النسبية لموارد Azure وطلبها.
- للحصول على تفاصيل حول مراقبة موارد Azure، راجع مراقبة موارد Azure باستخدام Azure Monitor.