مراقبة واستكشاف أخطاء عوامل استيعاب Azure Operator Insights وإصلاحها

للحصول على نظرة عامة على عوامل الاستيعاب، راجع نظرة عامة على عامل الاستيعاب.

إذا لاحظت مشاكل في جمع البيانات من وكلاء الاستيعاب، فاستخدم المعلومات الموجودة في هذا القسم لإصلاح المشكلات الشائعة أو إنشاء حزمة تشخيص. يمكنك تحميل حزمة التشخيص لدعم التذاكر التي تقوم بإنشائها في مدخل Microsoft Azure.

عامل الاستيعاب هو حزمة برامج، لذلك تقتصر التشخيصات على عمل التطبيق. لا نوفر نظام التشغيل أو مراقبة الموارد. يتم تشجيعك على استخدام الأدوات القياسية مثل snmpd أو مصدر عقدة Prometheus أو أدوات أخرى لإرسال البيانات والسجلات والمقاييس على مستوى نظام التشغيل إلى أنظمة المراقبة الخاصة بك. توضح مراقبة الأجهزة الظاهرية باستخدام Azure Monitor الأدوات التي يمكنك استخدامها إذا كان وكلاء الاستيعاب قيد التشغيل على أجهزة Azure الظاهرية.

يكتب العامل السجلات والمقاييس إلى الملفات ضمن /var/log/az-aoi-ingestion/. إذا فشل العامل في البدء لأي سبب، مثل التكوين الخاطئ، فإن ملف stdout.log يحتوي على سجلات يمكن للبشر قراءتها تشرح المشكلة.

يتم الإبلاغ عن المقاييس في شكل بسيط صديق للإنسان.

المتطلبات الأساسية

  • بالنسبة لمعظم تقنيات استكشاف الأخطاء وإصلاحها هذه، تحتاج إلى اتصال SSH بالجهاز الظاهري الذي يقوم بتشغيل العامل.

تشخيص عامل الاستيعاب

لتجميع حزمة تشخيص، SSH إلى الجهاز الظاهري وتشغيل الأمر /usr/bin/microsoft/az-aoi-ingestion-gather-diags. ينشئ هذا الأمر ملفا مضغوطا بتاريخ في الدليل الحالي يمكنك نسخه من النظام.

إذا قمت بتكوين مجموعة من السجلات من خلال عامل Azure Monitor، يمكنك عرض سجلات عامل الاستيعاب في طريقة عرض المدخل لمساحة عمل Log Analytics، وقد لا تحتاج إلى جمع حزمة تشخيص لتصحيح المشكلات.

إشعار

قد يطلب دعم Microsoft حزم التشخيص عند التحقيق في مشكلة. لا تحتوي حزم التشخيص على أي بيانات عميل أو قيمة أي بيانات اعتماد.

المشاكل الشائعة في جميع المصادر

وتنقسم المشاكل على نطاق واسع إلى أربع فئات.

  • تكوين عامل خطأ، مما يمنع العامل من البدء.
  • مشكلة في تلقي البيانات من المصدر، أو التكوين الخاطئ عادة، أو اتصال الشبكة.
  • مشكلة في تحميل الملفات إلى حساب تخزين إدخال منتج البيانات، عادة اتصال الشبكة.
  • مشكلة في الجهاز الظاهري الذي يعمل عليه العامل.

فشل العامل في البدء

الأعراض: sudo systemctl status az-aoi-ingestion تظهر أن الخدمة في حالة فشل.

  • تأكد من تشغيل الخدمة.
    sudo systemctl start az-aoi-ingestion
    
  • انظر إلى ملف /var/log/az-aoi-ingestion/stdout.log وتحقق من وجود أي أخطاء تم الإبلاغ عنها. إصلاح أي مشكلات في ملف التكوين وبدء تشغيل العامل مرة أخرى.

لا توجد بيانات تظهر في AOI

الأعراض: لا تظهر أي بيانات في Azure Data Explorer.

  • تحقق من اتصال الشبكة وتكوين جدار الحماية بين الجهاز الظاهري لعامل الاستيعاب وحساب تخزين إدخال منتج البيانات.
  • تحقق من السجلات من عامل الاستيعاب بحثا عن أخطاء في التحميل إلى Azure. إذا كانت السجلات تشير إلى مشكلات المصادقة، فتحقق من أن تكوين العامل يحتوي على إعدادات المتلقي الصحيحة والمصادقة لمنتج البيانات الخاص بك. ثم أعد تشغيل العامل.
  • تحقق من أن عامل الاستيعاب يتلقى البيانات من مصدره. تحقق من اتصال الشبكة وتكوين جدار الحماية بين شبكتك وعامل الاستيعاب.

مشاكل مع مصدر الكشف التلقائي والاستجابة على النقط النهائية MCC

يغطي هذا القسم المشاكل الخاصة بالمصدر الكشف التلقائي والاستجابة على النقط النهائية MCC.

يمكنك أيضا استخدام التشخيصات التي توفرها MCCs، أو بواسطة Azure Operator Insights نفسها في Azure Monitor، للمساعدة في تحديد مشكلات الاستيعاب وتصحيحها.

يتعذر على MCC الاتصال

الأعراض: يبلغ MCC عن المنبهات حول عدم توفر MSFs.

  • تحقق من تشغيل العامل.
  • تأكد من تكوين MCC مع IP الصحيح والمنفذ.
  • تحقق من السجلات من العامل وتحقق مما إذا كان يبلغ عن الاتصالات. إذا لم يكن الأمر كذلك، فتحقق من اتصال الشبكة بالجهاز الظاهري للعامل وتحقق من أن جدران الحماية لا تمنع حركة المرور إلى المنفذ 36001.
  • اجمع التقاط حزمة بيانات لمعرفة مكان فشل الاتصال.

لا توجد الكشف التلقائي والاستجابة على النقط النهائية تظهر في AOI

الأعراض: لا تظهر أي بيانات في Azure Data Explorer.

  • تحقق من أن MCC سليم وعوامل الاستيعاب قيد التشغيل.
  • تحقق من سجلات عامل الاستيعاب في حزمة التشخيص بحثا عن الأخطاء التي يتم تحميلها إلى Azure. إذا كانت السجلات تشير إلى سلسلة الاتصال أو مشكلات اتصال غير صالحة، فصحح التكوين أو سلسلة الاتصال أو رمز SAS المميز، ثم أعد تشغيل العامل.
  • تحقق من اتصال الشبكة وتكوين جدار الحماية على حساب التخزين.

البيانات مفقودة أو غير مكتملة

الأعراض: يظهر Azure Monitor معدل الكشف التلقائي والاستجابة على النقط النهائية واردا أقل من المتوقع في ADX.

  • تحقق من أن العامل يعمل على جميع الأجهزة الظاهرية ولا يبلغ عن الأخطاء في سجلات حزمة التشخيص.
  • تحقق من أن الأجهزة الظاهرية للعامل لا يتم إرسالها أكثر من الحمل المصنف.
  • تحقق من مقاييس العامل في حزمة التشخيص لوحدات البايت التي تم إسقاطها/الكشف التلقائي والاستجابة على النقط النهائية المسقطة. إذا لم تظهر المقاييس أي بيانات تم إسقاطها، فلن يرسل MCC البيانات إلى العامل. تحقق من مقاييس "وحدات البايت المستلمة" لمعرفة مقدار البيانات التي يتم تلقيها من MCC.
  • تحقق من أن الجهاز الظاهري للعامل غير محمل تحميلا زائدا - مراقبة استخدام وحدة المعالجة المركزية والذاكرة. على وجه الخصوص، تأكد من عدم وجود عملية أخرى تأخذ الموارد من الجهاز الظاهري.

مشاكل مع مصدر سحب SFTP

يغطي هذا القسم المشاكل الخاصة بمصدر سحب SFTP.

يمكنك أيضا استخدام التشخيصات التي توفرها Azure Operator Insights نفسها في Azure Monitor للمساعدة في تحديد مشكلات الاستيعاب وتصحيحها.

لا يمكن للعامل الاتصال بخادم SFTP

الأعراض: لا يتم تحميل أي ملفات إلى AOI. يحتوي ملف سجل العامل، /var/log/az-aoi-ingestion/stdout.log، على أخطاء حول توصيل خادم SFTP.

  • تحقق من أن مستخدم SFTP وبيانات الاعتماد المستخدمة من قبل العامل صالحة لخادم SFTP.
  • تحقق من اتصال الشبكة وتكوين جدار الحماية بين العامل وخادم SFTP. بشكل افتراضي، يجب أن يكون لدى خادم SFTP منفذ 22 مفتوح لقبول اتصالات SFTP.
  • تحقق من أن الملف على known_hosts الجهاز الظاهري للعامل يحتوي على مفتاح SSH عام صالح لخادم SFTP:
    • على الجهاز الظاهري للعامل، قم بتشغيل ssh-keygen -l -F *<sftp-server-IP-or-hostname>*.
    • إذا لم يكن هناك إخراج، فلا يحتوي على known_hosts إدخال مطابق. اتبع الإرشادات الواردة في إعداد عامل استيعاب Azure Operator Insights لإضافة known_hosts إدخال لخادم SFTP.

لم يتم تحميل أي ملفات إلى Azure Operator Insights

الأعراض: لا تظهر أي بيانات في Azure Data Explorer. لا تظهر سجلات الفئة Ingestion في بيانات مراقبة Azure Operator Insights أو تحتوي على أخطاء. قياس جودة بيانات عدد الصفوف التي تم استيعابها لنوع البيانات ذي الصلة هو صفر.

  • تحقق من أن العامل يعمل على جميع الأجهزة الظاهرية ولا يبلغ عن أخطاء في السجلات.
  • تحقق من وجود الملفات في الموقع الصحيح على خادم SFTP، ومن عدم استبعادها بسبب تكوين مصدر الملف (راجع الملفات مفقودة).
  • تأكد من أن مستخدم SFTP المكون يمكنه قراءة جميع الدلائل ضمن base_path، أي تكوين مصدر الملف لا يستبعده.
  • تحقق من اتصال الشبكة وتكوين جدار الحماية بين الجهاز الظاهري لعامل الاستيعاب وحساب تخزين إدخال منتج البيانات.

الملفات مفقودة

الأعراض: البيانات مفقودة من Azure Data Explorer. سجلات الفئة Ingestion في بيانات مراقبة Azure Operator Insights أقل من المتوقع أو تحتوي على أخطاء. قياس جودة بيانات عدد الصفوف التي تم استيعابها لنوع البيانات ذي الصلة أقل من المتوقع.

  • تحقق من أن العامل يعمل على جميع الأجهزة الظاهرية ولا يبلغ عن أخطاء في السجلات. ابحث في سجلات حزمة التشخيص عن اسم الملف المفقود للعثور على الأخطاء المتعلقة بهذا الملف.
  • تحقق من وجود الملفات على خادم SFTP وأنه لا يتم استبعادها بسبب تكوين مصدر الملف. تحقق من تكوين مصدر الملف وتأكد مما يلي:
    • الملفات موجودة على خادم SFTP ضمن المسار المحدد في base_path. تأكد من عدم وجود ارتباطات رمزية في مسارات الملفات للملفات المراد تحميلها: يتجاهل عامل الاستيعاب الارتباطات الرمزية.
    • وقت "آخر تعديل" للملفات أقدم بثوان على الأقل settling_time من وقت آخر تشغيل تحميل لمصدر الملف هذا.
    • وقت "التعديل الأخير" للملفات أحدث من exclude_before_time (إذا تم تحديده).
    • يتطابق مسار الملف بالنسبة إلى base_path التعبير العادي الذي تم تعيينه بواسطة include_pattern (إذا تم تحديده).
    • لا يتطابق مسار الملف بالنسبة إلى base_pathمع التعبير العادي المحدد بواسطة exclude_pattern (إذا تم تحديده).
  • إذا كانت الملفات الأخيرة مفقودة، فتحقق من سجلات العامل في حزمة التشخيص للتأكد من أن عامل الاستيعاب قام بتشغيل تحميل للمصدر في الوقت المتوقع. cron تعطي المعلمة في تكوين المصدر الجدول الزمني المتوقع.
  • تحقق من أن الجهاز الظاهري للعامل غير محمل تحميلا زائدا - مراقبة استخدام وحدة المعالجة المركزية والذاكرة. على وجه الخصوص، تأكد من عدم وجود عملية أخرى تأخذ الموارد من الجهاز الظاهري.

يتم تحميل الملفات أكثر من مرة

الأعراض: تظهر البيانات المكررة في Azure Operator Insights.

  • تحقق مما إذا كان عامل الاستيعاب قد واجه خطأ قابلا لإعادة المحاولة في سجل حزمة التشخيص على تحميل سابق ثم أعد محاولة التحميل بعد أكثر من 24 ساعة من آخر تحميل ناجح. في هذه الحالة، قد يقوم العامل بتحميل بيانات مكررة أثناء محاولة إعادة المحاولة. يجب أن يؤثر تكرار البيانات على محاولة إعادة المحاولة فقط.
  • تحقق من أن مصادر الملفات المعرفة في ملف التكوين تشير إلى مجموعات الملفات غير المضاف إليها. إذا تم تكوين مصادر ملفات متعددة لسحب الملفات من نفس الموقع على خادم SFTP، فاستخدم include_pattern حقلي التكوين و exclude_pattern لتحديد مجموعات مميزة من الملفات التي يجب أن يأخذها كل مصدر ملف في الاعتبار.
  • إذا كنت تقوم بتشغيل مثيلات متعددة من عامل استيعاب SFTP، فتحقق من أن مصادر الملفات المكونة لكل عامل لا تتداخل مع مصادر الملفات على أي عامل آخر. على وجه الخصوص، ابحث عن تكوين مصدر الملف الذي تم نسخه عن طريق الخطأ من تكوين عامل آخر.
  • إذا قمت مؤخرا بتغيير البنية الأساسية لبرنامج ربط العمليات التجارية id لمصدر ملف مكون، فاستخدم exclude_before_time الحقل لتجنب إعادة تحميل الملفات مع البنية الأساسية لبرنامج ربط العمليات التجارية idالجديدة . للحصول على إرشادات، راجع تغيير التكوين لعوامل الاستيعاب ل Azure Operator Insights.

تعلم كيف: