وقت تشغيل ستريك البيانات التعلم الآلي

Databricks وقت التشغيل التعلم الآلي (Databricks وقت التشغيل ML) أتمتة إنشاء كتلة الأمثل للتعلم الآلي. تتضمن مجموعات Databricks Runtime ML مكتبات التعلم الآلي الأكثر شعبية ، مثل TensorFlow و PyTorch و Keras و XGBoost ، وتشمل أيضا المكتبات المطلوبة للتدريب الموزع مثل Horovod. باستخدام Databricks وقت التشغيل ML يسرع إنشاء الكتلة ويضمن أن إصدارات المكتبة المثبتة متوافقة.

للحصول على معلومات كاملة حول استخدام Azure Databricks للتعلم الآلي والتعلم العميق، راجع دليل Databricks التعلم الآلي.

للحصول على معلومات حول محتويات كل إصدار Databricks وقت التشغيل ML، راجع ملاحظات الإصدار.

بنيت Databricks وقت التشغيل ML على وقت تشغيل Databricks. على سبيل المثال، تم إنشاء Databricks Runtime 7.3 LTS التعلم الآلي على Databricks Runtime 7.3 LTS. يتم سرد المكتبات المضمنة في وقت تشغيل Databricks الأساسية في ملاحظات إصدارDatabricks وقت التشغيل .

مقدمة في وقت تشغيل Databricks التعلم الآلي

تم تصميم هذا البرنامج التعليمي للمستخدمين الجدد من Databricks وقت التشغيل ML. يستغرق حوالي 10 دقائق للعمل من خلال، ويظهر مثال كامل من نهاية إلى نهاية من تحميل البيانات الجدولية، وتدريب نموذج، وضبط فرط المقاييس الموزعة، والاستدلال نموذج. كما يوضح كيفية استخدام MLflow API و MLflow Model Registry.

دفتر ملاحظات تعليمي ل Databricks

الحصول على دفتر ملاحظات

المكتبات المضمنة في Databricks وقت التشغيل ML

يتضمن Databricks Runtime ML مجموعة متنوعة من مكتبات ML الشهيرة. يتم تحديث المكتبات مع كل إصدار لتضمين ميزات وإصلاحات جديدة.

قامت Azure Databricks بتعيين مجموعة فرعية من المكتبات المعتمدة كمكتبات من الدرجة الأولى. بالنسبة لهذه المكتبات، يوفر Azure Databricks إيقاع تحديث أسرع، وتحديث أحدث إصدارات الحزمة مع كل إصدار وقت التشغيل (باستثناء تعارضات التبعية). توفر Azure Databricks أيضا دعما متقدما واختبارا وتحسينات مضمنة للمكتبات من الدرجة الأولى.

للحصول على قائمة كاملة من المكتبات من المستوى الأعلى والمكتبات الأخرى المتوفرة، راجع المقالات التالية لكل وقت تشغيل متوفر:

كيفية استخدام Databricks وقت التشغيل ML

بالإضافة إلى المكتبات المثبتة مسبقا، يختلف Databricks وقت التشغيل ML من Databricks وقت التشغيل في تكوين الكتلة وفي كيفية إدارة حزم Python.

إنشاء كتلة باستخدام Databricks وقت التشغيل ML

عند إنشاء كتلة، حدد إصدار Databricks وقت التشغيل ML من القائمة المنسدلة إصدار وقت التشغيل Databricks. تتوفر كل من وحدة المعالجة المركزية (CPU) ووقت تشغيل ML الممكن من وحدة معالجة الرسومات.

حدد Databricks وقت التشغيل ML

إذا قمت بتحديد وقت تشغيل ML تمكين GPU، تتم مطالبتك بتحديد نوع برنامج تشغيل متوافق ونوع العامل. أنواع المثيلات غير المتوافقة رمادية في الإفلاتات المنسدلة. يتم سرد أنواع المثيلات التي تدعم وحدة معالجة الرسومات تحت التسمية GPU-Accelerated.

تحذير

يمكن أن تتعارض المكتبات الموجودة في مساحة العمل الخاصة بك والتي يتم تثبيتها تلقائيا في كافة المجموعات مع المكتبات المضمنة في Databricks Runtime ML. قبل إنشاء كتلة مع Databricks وقت التشغيل ML، قم بإلغاء تحديد خانة الاختيار تثبيت تلقائيا على كافة الكتل للمكتبات المتعارضة.

إدارة حزم Python

في Databricks وقت التشغيل 9.0 ML وما فوق، يتم استخدام إدارة حزمة فيرتثلف لتثبيت حزم بيثون. يتم تثبيت جميع حزم بيثون داخل بيئة واحدة: /databricks/python3 .

في Databricks وقت التشغيل 8.4 مل وما دون، يتم استخدام إدارة حزمة كوندا لتثبيت حزم بيثون. يتم تثبيت كافة حزم Python داخل بيئة واحدة: /databricks/python2 على المجموعات باستخدام Python 2 وعلى المجموعات باستخدام Python /databricks/python3 3. تبديل (أو تنشيط) بيئات Conda غير معتمد.

للحصول على معلومات حول إدارة مكتبات Python، راجع المكتبات.

دعم التعلم الآلي الآلي

يتضمن Databricks Runtime ML أدوات لأتمتة عملية تطوير النموذج ومساعدتك في العثور على أفضل طراز أداء بكفاءة.

  • يقوم AutoML تلقائيا بإنشاء مجموعة من النماذج وألحانها وتقييمها وإنشاء دفتر ملاحظات Python مع التعليمات البرمجية المصدر لكل تشغيل حتى تتمكن من مراجعة التعليمات البرمجية وإعادة إنتاجها وتعديلها.
  • تدير MLFlow المدارة دورة حياة النموذج من طرف إلى طرف، بما في ذلك تتبع التشغيل التجريبي، ونشر النماذج ومشاركتها، والحفاظ على سجل نموذج مركزي.
  • Hyperopt، مع زيادة الفئة ، وأتمتة وتوزيع ML نموذج ضبط المعلمة.