المشكلات المعروفة واستكشاف أخطاء الجهاز الظاهري لعلوم بيانات Azure وإصلاحها

تساعدك هذه المقالة في العثور على الأخطاء أو حالات الفشل التي قد تصادفها عند استخدام الجهاز الظاهري لعلوم البيانات Azure وتصحيحها.

Ubuntu

إصلاح GPU على NVIDIA A100 GPU Chip - Azure NDasrv4 Series

يعد الجهاز الظاهري من السلسلة ND A100 v4 إضافة رائدة جديدة إلى عائلة وحدة معالجة الرسومات Azure ، المصممة للتدريب المتطور على Learning العميق وأحمال عمل HPC القابلة للتوسعة والتوسع بإحكام.

نظرا للبنية المختلفة ، فإنه يتطلب إعدادا مختلفا لأحمال العمل عالية الطلب للاستفادة من تسريع GPU باستخدام أطر TensorFlow أو PyTorch.

نحن نعمل على دعم وحدات معالجة الرسومات الخاصة بأجهزة ND A100 خارج الصندوق. وفي الوقت نفسه ، يمكنك جعل وحدة معالجة الرسومات تعمل عن طريق إضافة مدير النسيج من NVIDIA وتحديث برامج التشغيل.

اتبع هذه الخطوات البسيطة أثناء وجودك في المحطة الطرفية:

  1. أضف مستودع NVIDIA لتثبيت / تحديث برامج التشغيل - يمكن العثور على إرشادات خطوة بخطوة هنا

  2. [اختياري] يمكنك أيضا تحديث برامج تشغيل CUDA (من المستودع أعلاه)

  3. تثبيت برامج تشغيل مدير النسيج NVIDIA:

    sudo apt-get install cuda-drivers-460
    sudo apt-get install cuda-drivers-fabricmanager-460
    
  4. أعد تشغيل الجهاز الظاهري (لتجهيز برامج التشغيل)

  5. تمكين وبدء تشغيل خدمة NVIDIA Fabric Manager المثبتة حديثا:

    sudo systemctl enable nvidia-fabricmanager
    sudo systemctl start nvidia-fabricmanager
    

يمكنك الآن التحقق من برامج التشغيل ووحدة معالجة الرسومات التي تعمل عن طريق تشغيل:

systemctl status nvidia-fabricmanager.service

بعد ذلك يجب أن ترى خدمة Fabric Manager قيد التشغيل nvidia-fabric-manager-status

فشل الاتصال ببيئة سطح المكتب

إذا كان بإمكانك الاتصال ب DSVM عبر محطة SSH الطرفية ولكن ليس عبر x2go ، فربما قمت بتعيين نوع جلسة العمل الخاطئ في x2go. للاتصال ببيئة سطح المكتب الخاصة ب DSVM، تحتاج إلى تعيين نوع جلسة العمل في x2go/تفضيلات الجلسة/جلسة العمل إلى XFCE. بيئات سطح المكتب الأخرى غير مدعومة حاليا.

تبدو الخطوط خاطئة عند الاتصال ب DSVM باستخدام x2go

عند الاتصال ب x2go وتبدو بعض الخطوط خاطئة، فقد يكون ذلك مرتبطا بإعداد جلسة عمل في x2go. قبل الاتصال ب DSVM ، قم بإلغاء تحديد خانة الاختيار "تعيين عرض DPI" في علامة التبويب "الإدخال / الإخراج" في مربع حوار تفضيلات الجلسة.

تمت مطالبتك بكلمة مرور غير معروفة

عند إنشاء نوع مصادقة إعداد DSVM إلى المفتاح العام SSH (الذي يوصى به باستخدام مصادقة كلمة المرور)، لن يتم منحك كلمة مرور. ومع ذلك ، في بعض السيناريوهات ، ستظل بعض التطبيقات تطلب منك كلمة مرور. تشغيل sudo passwd <user_name> لإنشاء كلمة مرور جديدة لمستخدم معين. باستخدام sudo passwd، يمكنك إنشاء كلمة مرور جديدة للمستخدم الجذر.

لن يؤدي تشغيل هذا الأمر إلى تغيير تكوين SSH ، وسيتم الاحتفاظ بآليات تسجيل الدخول المسموح بها كما هي.

تمت مطالبتك بكلمة مرور عند تشغيل الأمر sudo

عند تشغيل sudo أمر على جهاز Ubuntu ، قد يطلب منك إدخال كلمة المرور الخاصة بك مرارا وتكرارا للتأكد من أنك بالفعل المستخدم الذي قام بتسجيل الدخول. من المتوقع حدوث هذا السلوك، وهو الافتراضي في Ubuntu. ومع ذلك ، في بعض السيناريوهات ، لا تكون المصادقة المتكررة ضرورية ومزعجة إلى حد ما.

لتعطيل إعادة المصادقة لمعظم الحالات، يمكنك تشغيل الأمر التالي في محطة طرفية.

echo -e "\n$USER ALL=(ALL) NOPASSWD: ALL\n" | sudo tee -a /etc/sudoers

بعد إعادة تشغيل المحطة الطرفية ، لن تطلب sudo تسجيل دخول آخر وستعتبر المصادقة من تسجيل الدخول إلى جلستك كافية.

لا يمكن استخدام docker كمستخدم غير جذر

من أجل استخدام docker كمستخدم غير جذر ، يجب أن يكون المستخدم عضوا في مجموعة docker. يمكنك تشغيل getent group docker الأمر للتحقق من المستخدمين الذين ينتمون إلى هذه المجموعة. لإضافة المستخدم إلى مجموعة عامل الإرساء، قم بتشغيل sudo usermod -aG docker $USER.

لا يمكن أن تتفاعل حاويات Docker مع الخارج عبر الشبكة

بشكل افتراضي ، يضيف عامل الرصيف حاويات جديدة إلى ما يسمى ب "شبكة الجسر" ، وهي 172.17.0.0/16. إذا تداخلت الشبكة الفرعية لشبكة الجسر هذه مع الشبكة الفرعية ل DSVM أو مع شبكة فرعية خاصة أخرى لديك في اشتراكك، فلن يكون من الممكن إجراء اتصال بالشبكة بين المضيف والحاوية. في هذه الحالة، لا يمكن الوصول إلى تطبيقات الويب التي تعمل في الحاوية، ولا يمكن للحاوية تحديث الحزم من apt.

لإصلاح المشكلة ، تحتاج إلى إعادة تكوين docker لاستخدام مساحة عنوان IP لشبكة الجسر الخاصة به والتي لا تتداخل مع الشبكات الأخرى لاشتراكك. على سبيل المثال، عن طريق إضافة

"default-address-pools": [
        {
            "base": "10.255.248.0/21",
            "size": 21
        }
    ]

إلى مستند JSON الموجود في الملف /etc/docker/daemon.json، سيقوم عامل الرصيف بتعيين شبكة فرعية أخرى لشبكة الجسر. (يجب تحرير الملف باستخدام sudo ، على سبيل المثال عن طريق التشغيل sudo nano /etc/docker/daemon.json.)

بعد التغيير ، يجب إعادة تشغيل خدمة docker عن طريق التشغيل service docker restart.

للتحقق مما إذا كانت التغييرات التي أجريتها قد دخلت حيز التنفيذ، يمكنك تشغيل docker network inspect bridge. القيمة تحت IPAM.Config. يجب أن تتوافق الشبكة الفرعية مع تجمع العناوين المحدد أعلاه.

وحدة (وحدات) معالجة الرسومات غير متوفرة في حاوية عامل الرصيف

يدعم عامل الرصيف المثبت على DSVM وحدات معالجة الرسومات بشكل افتراضي. ومع ذلك ، هناك بعض المتطلبات الأساسية التي يجب الوفاء بها.

  • من الواضح أن حجم VM ل DSVM يجب أن يتضمن وحدة معالجة رسومات واحدة على الأقل.
  • عند بدء تشغيل حاوية عامل الرصيف الخاص بك ، تحتاج إلى إضافة معلمة --gpus ، على سبيل المثال ، --gpus alldocker run.
  • تحتاج أحجام الأجهزة الظاهرية التي تتضمن وحدات معالجة الرسومات NVIDIA A100 إلى حزم برامج إضافية مثبتة ، esp. NVIDIA Fabric Manager. قد لا تكون هذه الحزم مثبتة مسبقا في صورتك حتى الآن.

Windows

الجهاز الظاهري الجيل 2 (الجيل 2) لا يعمل

عند محاولة إنشاء Data Science VM استنادا إلى "جيل الجهاز الظاهري 2" (Gen 2) فإنه يفشل.

حاليا، نقوم بصيانة وتوفير الصور ل Data Science VM استنادا إلى خادم Windows 2019 فقط للأجهزة الظاهرية من الجيل 1. لم يتم دعم Gen 2 بعد ونخطط لدعمهم في المستقبل القريب.

الوصول إلى SQL Server

عند محاولة الاتصال بمثيل SQL Server المثبت مسبقا، قد تواجه خطأ "فشل تسجيل الدخول". للاتصال بنجاح بمثيل SQL Server، تحتاج إلى تشغيل البرنامج الذي تتصل به، على سبيل المثال، SQL Server Management Studio (SSMS)، في وضع المسؤول. وضع المسؤول مطلوب لأنه من خلال الإعداد الافتراضي ل DSVM ، يسمح للمسؤولين فقط بالاتصال.

Hyper-V لا يعمل

هذا Hyper-V في البداية لا يعمل على Windows هو السلوك المتوقع. بالنسبة لأداء التمهيد، قمنا بتعطيل بعض الخدمات. لتمكين Hyper-V:

  1. افتح شريط البحث على Windows DSVM
  2. اكتب "الخدمات"،
  3. تعيين جميع خدمات Hyper-V إلى "يدوي"
  4. اضبط "إدارة الجهاز الظاهري Hyper-V" على "تلقائي"

يجب أن تبدو شاشتك النهائية كما يلي:

Enable Hyper-V