مراقبة Azure Machine Learning

عندما يكون لديك تطبيقات وعمليات أعمال مهمة تعتمد على موارد Azure، فأنت تريد مراقبة هذه الموارد لمعرفة مدى توفرها وأدائها وتشغيلها. توضح هذه المقالة بيانات المراقبة التي تم إنشاؤها بواسطة Azure التعلم الآلي وكيفية تحليل هذه البيانات والتنبيه إليها باستخدام Azure Monitor.

تلميح

المعلومات الواردة في هذا المستند مخصصة للمسؤولين في المقام الأول، حيث تصف مراقبة خدمة Azure التعلم الآلي وخدمات Azure المقترنة. إذا كنت عالم بيانات أو مطورا، وتريد مراقبة المعلومات الخاصة بعمليات التدريب النموذجية الخاصة بك، فراجع المستندات التالية:

إذا كنت تريد مراقبة المعلومات التي تم إنشاؤها بواسطة النماذج التي تم نشرها كخدمات ويب، فراجع تجميع بيانات النموذجوالمراقبة باستخدام التطبيق Insights.

ما هو Azure Monitor؟

يقوم Azure التعلم الآلي بإنشاء بيانات مراقبة باستخدام Azure Monitor، وهي خدمة مراقبة مكدس كاملة في Azure. يوفر Azure Monitor مجموعة كاملة من الميزات لمراقبة موارد Azure. يمكنه أيضاً مراقبة الموارد في السحابة الأخرى وفي أماكن العمل.

ابدأ بمقالة مراقبة موارد Azure باستخدام Azure Monitor، التي تصف المفاهيم التالية:

  • ما هو Azure Monitor؟
  • التكاليف المرتبطة بالمراقبة
  • بيانات المراقبة التي يتم جمعها في Azure
  • تكوين جمع البيانات
  • الأدوات القياسية في Azure للتحليل والتنبيه على بيانات المراقبة

تستند الأقسام التالية إلى هذه المقالة من خلال وصف البيانات المحددة التي تم تجميعها ل Azure التعلم الآلي. توفر هذه الأقسام أيضاً أمثلة لتكوين جمع البيانات وتحليل هذه البيانات باستخدام أدوات Azure.

تلميح

لفهم التكاليف المرتبطة بـ Azure Monitor، راجع الاستخدام والتكاليف المقدرة. لفهم الوقت الذي يستغرقه ظهور البيانات في Azure Monitor، راجع تسجيل وقت عرض البيانات.

مراقبة البيانات من Azure التعلم الآلي

يقوم Azure التعلم الآلي بتجميع نفس أنواع بيانات المراقبة مثل موارد Azure الأخرى الموضحة في مراقبة البيانات من موارد Azure.

راجع مرجع بيانات مراقبة Azure التعلم الآلي للحصول على مرجع مفصل للسجلات والمقاييس التي تم إنشاؤها بواسطة Azure التعلم الآلي.

الجمع والتوجيه

تُجمع مقاييس النظام الأساسي وسجل النشاط وتُخزن تلقائيًّا، لكن يمكن توجيههما إلى مواقع أخرى باستخدام إعداد تشخيصي.

لا يتم جمع سجلات الموارد وتخزينها حتى تقوم بإنشاء إعداد تشخيص وتوجيهها إلى موقع واحد أو أكثر. عندما تحتاج إلى إدارة مساحات عمل التعلم الآلي Azure متعددة، يمكنك توجيه السجلات لجميع مساحات العمل إلى نفس وجهة التسجيل والاستعلام عن جميع السجلات من مكان واحد.

راجع إنشاء إعداد تشخيصي لجمع سجلات النظام الأساسي والمقاييس في Azure للاطلاع على العملية التفصيلية لإنشاء إعداد تشخيص باستخدام مدخل Azure أو Azure CLI أو PowerShell. عند إنشاء إعداد تشخيص، فإنك تحدد فئات السجلات المراد تجميعها. يتم سرد فئات Azure التعلم الآلي في Azure التعلم الآلي مرجع بيانات المراقبة.

هام

يتطلب تمكين هذه الإعدادات خدمات Azure الإضافية (حساب التخزين أو مركز الأحداث أو تحليلات السجل)، ما قد يزيد من التكلفة. لحساب التكلفة المقدرة، قم بزيارة حاسبة أسعار Azure.

يمكنك تكوين السجلات التالية ل Azure التعلم الآلي:

الفئة الوصف
حدث حساب المجموعة Aml الأحداث من Azure التعلم الآلي مجموعات الحوسبة.
AmlComputeClusterNodeEvent (مهمل) الأحداث من العقد داخل Azure التعلم الآلي مجموعة حوسبة.
AmlComputeJobEvent الأحداث من المهام التي يتم تشغيلها على Azure التعلم الآلي الحوسبة.
AmlComputeCpuGpuUtilization تقوم خدمات ML بحساب سجلات وحدة المعالجة المركزية و GPU utilizaion.
AmlRunStatusChangedEvent تغييرات حالة تشغيل ML.
حدث تغيير النماذج الأحداث عند الوصول إلى نموذج ML تم إنشاؤها أو حذفها.
حدث قراءة النماذج الأحداث عند قراءة نموذج ML.
حدث عمل النماذج الأحداث عند الوصول إلى نموذج ML.
DeploymentReadEvent الأحداث عند قراءة نشر نموذج.
DeploymentEventACI الأحداث التي يحدث فيها نشر نموذج على ACI (ثرثرة جدا).
DeploymentEventAKS الأحداث التي يحدث فيها نشر نموذج على AKS (ثرثرة جدا).
عملية الاستنتاج AKS أحداث الاستدلال أو العملية ذات الصلة على نوع حساب AKS.
عملية الاستنتاج AL أحداث الاستدلال أو العملية ذات الصلة على نوع حساب ACI.
حدث تغيير البيئة الأحداث التي يتم فيها إنشاء تكوينات بيئة ML أو حذفها.
حدث قراءة البيئة الأحداث التي تتم فيها قراءة تكوينات بيئة ML (ثرثرة جدا).
DataLabelChangeEvent الأحداث التي يتم فيها إنشاء تسمية (تصنيفات) البيانات أو مشاريعها أو حذفها.
DataLabelReadEvent الأحداث التي تتم فيها قراءة تسمية (تصنيفات) البيانات أو مشاريعها.
ComputeInstanceEvent الأحداث التي يتم فيها الوصول إلى مثيل حساب ML (دردشة جدا).
DataStoreChangeEvent الأحداث التي يتم فيها إنشاء مخزن بيانات ML أو حذفه.
DataStoreReadEvent الأحداث عند قراءة مخزن بيانات ML.
DataSetChangeEvent الأحداث التي يتم فيها إنشاء مخزن بيانات ML أو حذفه.
DataSetReadEvent الأحداث عند قراءة مخزن بيانات ML.
حدث تغيير البنية الأساسية الأحداث التي يتم فيها إنشاء مسودة خط أنابيب ML أو نقطة النهاية أو الوحدة النمطية أو حذفها.
حدث قراءة البنية الأساسية الأحداث التي تتم فيها قراءة مسودة خط أنابيب ML أو نقطة النهاية أو الوحدة النمطية.
تشغيل الحدث الأحداث التي يتم فيها إنشاء تجارب ML أو حذفها.
تشغيل حدث القراءة الأحداث التي تتم فيها قراءة تجارب ML.

ملاحظة

اعتبارا من فبراير 2022 ، سيتم إهمال فئة AmlComputeClusterNodeEvent. نوصي بدلا من ذلك باستخدام الفئة AmlComputeClusterEvent.

ملاحظة

عند تمكين القياسات في إعداد تشخيصي، لا يتم تضمين معلومات الأبعاد حالياً كجزء من المعلومات المرسلة إلى حساب التخزين أو مركز الأحداث أو تحليلات السجل.

تتم مناقشة القياسات والسجلات التي يمكنك جمعها في الأقسام التالية.

تحليل المقاييس

يمكنك تحليل مقاييس Azure التعلم الآلي، إلى جانب المقاييس من خدمات Azure الأخرى، عن طريق فتح المقاييس من قائمة Azure Monitor. راجع الشروع في استخدام Azure Metrics Explorer للحصول على تفاصيل حول استخدام هذه الأداة.

للحصول على قائمة بمقاييس النظام الأساسي التي تم جمعها، راجع مراقبة مقاييس Azure التعلم الآلي البيانات المرجعية.

توجد كافة مقاييس التعلم الآلي Azure في مساحة الاسم التعلم الآلي Service Workspace.

Metrics Explorer with Machine Learning Service Workspace selected

كمرجع، يمكنك مشاهدة قائمة بجميع مقاييس الموارد المدعومة في Azure Monitor.

تلميح

تتوفر بيانات قياسات Azure Monitor لمدة 90 يوماً. ومع ذلك، عند إنشاء الرسوم البيانية يمكن تصور 30 ​​يوماً فقط. على سبيل المثال، إذا كنت تريد تصور فترة 90 يوماً، فيجب تقسيمها إلى ثلاثة مخططات كل منها 30 يوماً خلال فترة 90 يوماً.

التصفية والتقسيم

بالنسبة للمقاييس التي تدعم الأبعاد، يمكنك تطبيق عوامل التصفية باستخدام قيمة البعد. على سبيل المثال، تصفية النوى النشطةلاسم نظام مجموعة من cpu-cluster.

يمكنك أيضاً تقسيم مقياس على بُعد لتصور كيفية مقارنة شرائح المقياس المختلفة مع بعضها البعض. على سبيل المثال، تقسيم نوع خطوة خط الأنابيب للاطلاع على عدد أنواع الخطوات المستخدمة في خط الأنابيب.

لمزيد من المعلومات حول التصفية والتقسيم، راجع الميزات المتقدمة لAzure Monitor.

جارٍ تحليل السجلات

يتطلب استخدام تحليلات Azure Monitor Log أن تقوم بإنشاء تكوين تشخيص وتمكين إرسال المعلومات إلى Log Analytics. لمزيد من المعلومات، راجع قسم الجمع والتوجيه.

يتم تخزين البيانات في سجلات المراقبة في Azure في جداول، مع وجود مجموعة خاصة من الخصائص الفريدة لكل جدول. يقوم Azure التعلم الآلي بتخزين البيانات في الجداول التالية:

الجدول الوصف
حدث حساب المجموعة Aml الأحداث من Azure التعلم الآلي مجموعات الحوسبة.
AmlComputeClusterNodeEvent (مهمل) الأحداث من العقد داخل Azure التعلم الآلي مجموعة حوسبة.
AmlComputeJobEvent الأحداث من المهام التي يتم تشغيلها على Azure التعلم الآلي الحوسبة.
AmlComputeInstanceEvent الأحداث التي يتم فيها الوصول إلى مثيل حساب ML (قراءة/كتابة). تتضمن الفئة:ComputeInstanceEvent (ثرثرة جدا).
AmlDataLabelEvent الأحداث التي يتم فيها الوصول إلى تسمية (تصنيفات) البيانات أو مشاريعها (قراءتها أو إنشائها أو حذفها). تتضمن الفئة:DataLabelReadEvent,DataLabelChangeEvent.
AmlDataSetEvent الأحداث التي يتم فيها الوصول إلى مجموعة بيانات ML مسجلة أو غير مسجلة (قراءة أو إنشاء أو حذف). وتشمل الفئة:DataSetReadEvent,DataSetChangeEvent.
أملداتاستورإيفنت الأحداث التي يتم فيها الوصول إلى مخزن بيانات ML (قراءة أو إنشاء أو حذف). وتشمل الفئة:داتا ستورريدإيفنت,داتا ستور تشينجستيفن.
AmlDeploymentEvent الأحداث التي يحدث فيها نشر نموذج على ACI أو AKS. وتشمل الفئة:DeploymentReadEvent,DeploymentEventACI,DeploymentEventAKS.
AmlInferencingEvent أحداث الاستدلال أو العملية ذات الصلة على نوع حساب AKS أو ACI. وتشمل الفئة:InferencingOperationACI (ثرثرة جدا),InferencingOperationAKS (ثرثرة جدا).
أملموديلزالحدث الأحداث التي يتم فيها الوصول إلى نموذج ML (قراءة أو إنشاء أو حذف). يتضمن الأحداث التي تحدث فيها تعبئة النماذج والأصول في حزم جاهزة للبناء. وتشمل الفئة:نماذجريدإيفنت,نماذجأكشنإيفنت .
AmlPipelineEvent الأحداث التي يتم فيها الوصول إلى مسودة خط أنابيب ML أو نقطة النهاية أو الوحدة النمطية (قراءة أو إنشاء أو حذف). وتشمل الفئة:PipelineReadEvent,PipelineChangeEvent.
AmlRunEvent الأحداث التي يتم فيها الوصول إلى تجارب ML (قراءة أو إنشاء أو حذف). وتشمل الفئة:RunReadEvent,RunEvent.
أملالبيئةالحدث الأحداث عند تكوين بيئة ML (قراءة أو إنشاء أو حذف). وتشمل الفئة:EnvironmentReadEvent (ثرثرة جدا),EnvironmentChangeEvent.

ملاحظة

اعتبارا من فبراير 2022، سيتم إهمال جدول AmlComputeClusterNodeEvent. نوصي بدلا من ذلك باستخدام الجدول AmlComputeClusterEvent.

هام

عند تحديد سجلات من قائمة Azure التعلم الآلي، يتم فتح Log Analytics مع تعيين نطاق الاستعلام إلى مساحة العمل الحالية. هذا يعني أن استعلامات السجل ستتضمن فقط بيانات من هذا المورد. إذا كنت تريد تشغيل استعلام يتضمن بيانات من قواعد بيانات أخرى أو بيانات من خدمات Azure الأخرى، فحدد Logs من قائمة Azure Monitor. راجع نطاق الاستعلام عن السجل والزمن في Azure Monitor Log Analytics للحصول على التفاصيل.

للحصول على مرجع مفصل للسجلات والمقاييس، راجع Azure التعلم الآلي مرجع بيانات المراقبة.

استفسارات عينة Kusto

هام

عند تحديد السجلات من القائمة [اسم الخدمة]، يتم فتح Log Analytics مع تعيين نطاق الاستعلام إلى مساحة عمل Azure التعلم الآلي الحالية. هذا يعني أن استعلامات السجل ستتضمن فقط بيانات من هذا المورد. إذا كنت تريد تشغيل استعلام يتضمن بيانات من مساحات عمل أو بيانات أخرى من خدمات Azure الأخرى، فحدد Logs من قائمة Azure Monitor. راجع نطاق الاستعلام عن السجل والزمن في Azure Monitor Log Analytics للحصول على التفاصيل.

فيما يلي الاستعلامات التي يمكنك استخدامها لمساعدتك في مراقبة موارد Azure التعلم الآلي:

  • الحصول على وظائف فاشلة في الأيام الخمسة الماضية:

    AmlComputeJobEvent
    | where TimeGenerated > ago(5d) and EventType == "JobFailed"
    | project  TimeGenerated , ClusterId , EventType , ExecutionState , ToolType
    
  • الحصول على سجلات لاسم وظيفة معين:

    AmlComputeJobEvent
    | where JobName == "automl_a9940991-dedb-4262-9763-2fd08b79d8fb_setup"
    | project  TimeGenerated , ClusterId , EventType , ExecutionState , ToolType
    
  • احصل على أحداث المجموعة في الأيام الخمسة الأخيرة للمجموعات التي يكون فيها حجم الجهاز الظاهري Standard_D1_V2:

    AmlComputeClusterEvent
    | where TimeGenerated > ago(4d) and VmSize == "STANDARD_D1_V2"
    | project  ClusterName , InitialNodeCount , MaximumNodeCount , QuotaAllocated , QuotaUtilized
    
  • احصل على تخصيصات عقدة الكتلة في الأيام الثمانية الأخيرة::

    AmlComputeClusterEvent
    | where TimeGenerated > ago(8d) and TargetNodeCount  > CurrentNodeCount
    | project TimeGenerated, ClusterName, CurrentNodeCount, TargetNodeCount
    

عند توصيل مساحات عمل Azure التعلم الآلي متعددة بنفس مساحة عمل Log Analytics، يمكنك الاستعلام عبر جميع الموارد.

  • احصل على عدد العقد قيد التشغيل عبر مساحات العمل والمجموعات في اليوم الأخير:

    AmlComputeClusterEvent
    | where TimeGenerated > ago(1d)
    | summarize avgRunningNodes=avg(TargetNodeCount), maxRunningNodes=max(TargetNodeCount)
             by Workspace=tostring(split(_ResourceId, "/")[8]), ClusterName, ClusterType, VmSize, VmPriority
    

إنشاء لوحة معلومات مراقبة مساحة عمل باستخدام قالب

لوحة المعلومات هي طريقة عرض مركزة ومنظمة لموارد السحابة الخاصة بك في مدخل Azure. لمزيد من المعلومات حول إنشاء لوحات المعلومات، راجع إنشاء تنبيهات المقاييس وعرضها وإدارتها باستخدام Azure Monitor.

لنشر لوحة معلومات نموذجية، يمكنك استخدام قالب متاح للجمهور. يستند نموذج لوحة المعلومات إلى استعلامات Kusto، لذا يجب تمكين جمع بيانات Log Analytics لمساحة عمل Azure التعلم الآلي قبل نشر لوحة المعلومات.

التنبيهات

يمكنك الوصول إلى تنبيهات Azure التعلم الآلي عن طريق فتح التنبيهات من قائمة Azure Monitor. راجع إنشاء وعرض وإدارة التنبيهات المترية باستخدام Azure Monitor للحصول على تفاصيل حول إنشاء التنبيهات.

يسرد الجدول التالي قواعد تنبيه المقاييس الشائعة والموصى بها ل Azure التعلم الآلي:

نوع التنبيه الشرط الوصف
فشل توزيع النموذج نوع التجميع: الإجمالي, عامل التشغيل: أكبر من, قيمة العتبة: 0 عند فشل عملية نشر نموذج واحد أو أكثر
النسبة المئوية لاستخدام الحصة نوع التجميع: متوسط, عامل التشغيل: أكبر من, قيمة العتبة: 90 عندما تكون نسبة استخدام الحصص أكبر من 90٪
وحدات الذاكرة غير القابلة للاستخدام نوع التجميع: الإجمالي, عامل التشغيل: أكبر من, قيمة العتبة: 0 عندما يكون هناك عقد واحدة أو أكثر غير قابلة للاستخدام

الخطوات التالية