Databricks وقت التشغيل 5.4 التعلم الآلي (غير معتمد)

أصدرت Databricks هذه الصورة في يونيو 2019.

Databricks وقت التشغيل 5.4 التعلم الآلي يوفر بيئة جاهزة للذهاب للتعلم الآلي وعلوم البيانات على أساس Databricks وقت التشغيل 5.4 (غير معتمد). يحتوي Databricks Runtime ML على العديد من مكتبات التعلم الآلي الشهيرة ، بما في ذلك TensorFlow و PyTorch و Keras و XGBoost. كما يدعم التدريب على التعلم العميق الموزع باستخدام Horovod.

لمزيد من المعلومات، بما في ذلك إرشادات لإنشاء كتلة Databricks وقت التشغيل ML، راجع Databricks وقت التشغيل التعلم الآلي.

ميزات جديدة

تم بناء Databricks وقت التشغيل 5.4 ML على رأس Databricks وقت التشغيل 5.4. للحصول على معلومات حول ما هو جديد في Databricks وقت التشغيل 5.4، راجع ملاحظات الإصدار Databricks Runtime 5.4 (غير معتمد).

بالإضافة إلى تحديثات المكتبة، Databricks وقت التشغيل 5.4 ML يقدم الميزات الجديدة التالية:

Hyperopt الموزع + تتبع تدفق ML التلقائي

Databricks Runtime 5.4 ML يقدم تنفيذ جديد من Hyperopt مدعوم من اباتشي سبارك لتوسيع وتبسيط ضبط hyperparameter. يتم Trials تطبيق فئة جديدة لتوزيع التشغيل التجريبي SparkTrials Hyperopt بين أجهزة وعقد متعددة باستخدام Apache Spark. بالإضافة إلى ذلك، يتم تسجيل جميع تجارب الضبط، جنبا إلى جنب مع مقاييس فرط ضبطها والمقاييس المستهدفة، تلقائيا إلى MLflow يعمل. انظر التوازي ضبط فرطبارامتر مع scikit-learn و MLflow.

هام

هذه الميزة في المعاينة العامة.

أباتشي سبارك MLlib + تتبع MLflow الآلي

Databricks وقت التشغيل 5.4 ML يدعم التسجيل التلقائي من MLflow يعمل لنماذج تناسب باستخدام خوارزميات ضبط PySpark و TrainValidationSplit . انظر اباتشي سبارك مليب وتتبع MLflow الآلي. هذه الميزة قيد التشغيل بشكل افتراضي في Databricks وقت التشغيل 5.4 ML ولكن تم إيقاف افتراضيا في Databricks وقت التشغيل 5.3 ML.

هام

هذه الميزة في المعاينة العامة.

تحسين هوروفودRunner

الإخراج المرسلة من Horovod إلى عقدة برنامج التشغيل Spark مرئيا الآن في خلايا دفتر الملاحظات.

XGBoost بيثون حزمة التحديث

تم تثبيت XGBoost بيثون حزمة 0.80.

بيئة النظام

تختلف بيئة النظام في Databricks وقت التشغيل 5.4 ML من Databricks وقت التشغيل 5.4 كما يلي:

  • بيثون: 2.7.15 لثعبان 2 مجموعات و 3.6.5 لبيثون 3 مجموعات.
  • DBUtils: Databricks وقت التشغيل 5.4 مل لا يحتوي على مكتبة الأداة المساعدة (dbutils.library).
  • بالنسبة لمجموعات GPU، مكتبات NVIDIA GPU التالية:
    • سائق تسلا 396.44
    • كودا 9.2
    • CUDNN 7.2.1

مكتبات

تسرد المقاطع التالية المكتبات المضمنة في Databricks Runtime 5.4 ML التي تختلف عن تلك المضمنة في Databricks Runtime 5.4.

مكتبات من الدرجة الأولى

Databricks وقت التشغيل 5.4 مل يتضمن المكتباتالتالية من الدرجة الأولى :

مكتبات بيثون

Databricks وقت التشغيل 5.4 ML يستخدم كوندا لإدارة حزمة بيثون. ونتيجة لذلك، هناك اختلافات كبيرة في مكتبات Python المثبتة مقارنة ب Databricks Runtime. وفي ما يلي قائمة كاملة من حزم بيثون المقدمة والإصدارات المثبتة باستخدام إدارة حزمة كوندا.

المكتبة إصدار المكتبة إصدار المكتبة إصدار
أبسل-بي 0.7.1 أرغبارسي 1.4.0 أسن1كريبتو 0.24.0
استور 0.7.1 الموانئ الخلفية - ABC 0.5 backports.functools-lru-ذاكرة التخزين المؤقت 1.5
الموانئ الخلفية.weakref 1.0.وظيفة1 بكريبت 3.1.6 بيض 2.1.3
بوتو 2.48.0 بوتو3 1.7.62 بوتوكور 1.10.62
شهادة 2018.04.16 cffi 1.11.5 شارديت 3.0.4
كلاودبيكل 0.5.3 اللون 0.3.9 التكوينبارس 3.5.0
التشفير 2.2.2 دورة 0.10.0 سيثون 0.28.2
ديكور 4.3.0 دوكتيلس 0.14 نقاط الدخول 0.2.3
enum34 1.1.6 et-xml ملف 1.0.1 فونسيغس 1.0.2
بائدools32 3.2.3-2 فتيل 2.0.4 مستقبل 0.17.1
العقود الاجله 3.2.0 غاست 0.2.2 grpcio 1.12.1
h5py 2.8.0 هوروفود 0.16.0 html5lib 1.0.1
فرط النظر 0.1.2.db4 idna 2.6 عنوان ip 1.0.22
ايبيثون 5.7.0 ipython_genutils 0.2.0 دينار 1.4
جينجا2 2.10 jmespath 0.9.4 شيسونشيما 2.6.0
jupyter العميل 5.2.3 jupyter الأساسية 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Keras-Preprocessing 1.0.9 كيويسولفر 1.1.0
خطcache2 1.0.0 لوفمليت 0.23.1 lxml 4.2.1
Markdown 3.1.1 علامة آمنة 1.0 matplotlib 2.2.2
ميستون 0.8.3 ميكل-ففت 1.0.0 mkl عشوائي 1.0.1
مليب 0.8.1 استهزأ 2.0.0 msgpack 0.5.6
إنكونفيرت 5.3.1 nbformat 4.4.0 شبكة الاتصال 2.2
أنف 1.3.7 الأنف استبعاد 0.5.0 خدر 0.38.0+0.g2a2b772fc.dirty
نومبى 1.14.3 ملف أولي 0.45.1 فتح بيكسل 2.5.3
pandas 0.23.0 مرشحات الباندوك 1.4.2 باراميكو 2.4.1
مسارlib2 2.3.2 بتسي 0.5.0 pbr 5.1.3
pexpect 4.5.0 مخلل المشاركة 0.7.4 مخدة 5.1.0
نقطه 10.0.1 رقائق 3.11 مجموعة أدوات موجهة 1.0.15
بروتوبوف 3.7.1 psutil 5.6.2 psycopg2 2.7.5
ptyprocess 0.5.2 بيارو 0.12.1 بياسن1 0.4.5
بيكبارسر 2.18 الأقزام 2.2.0 بيمونغو 3.8.0
بيناكل 1.3.0 pyOpenSSL 18.0.0 ال pyparsing 2.2.0
بيسوك 1.6.8 Python 2.7.15 بيثون ديتوتيل 2.7.3
بيتز 2018.4 PyYAML 5.1 بيزمق 17.0.0
الطلبات 2.18.4 s3 ترانسفير 0.1.13 سكاندير 1.7
⁧⁩scikit-learn⁧⁩ 0.19.1 سكيبي 1.1.0 تولد عن بعد 0.8.1
أدوات الإعداد 39.1.0 بسيطةجنس 0.8.1 رقعة مفردة 3.4.0.3
ستة 1.11.0 الإحصائيات 0.9.0 المعالجة الفرعية32 3.5.4
لوح الشد 1.12.2 تشد لوح 1.6 تدفق الشد 1.12.0
ألوان المصطلح 1.1.0 اختبار المسار 0.3.1 مشعل 0.4.1
شعلة الرؤية 0.2.1 اعصار 5.0.2 tqdm 4.32.1
التتبع2 1.4.0 سمات 4.3.2 unittest2 1.1.0
عنوان urllib3 1.22 الظاهري 16.0.0 wcwidth 0.1.7
الويبينكودينج 0.5.1 ويركزوغ 0.14.1 دولاب 0.31.1
التفاف 1.10.11 وزغيريف 0.1.2

بالإضافة إلى ذلك، تتضمن حزم Spark التالية وحدات Python:

حزمة سبارك بيثون وحدة إصدار
إطارات الرسم البياني إطارات الرسم البياني 0.7.0-db1-spark2.4
شرارة عميقة التعلم سباركدل 1.5.0-db3-spark2.4
إطارات الشد إطارات الشد 0.6.0-s_2.11

R المكتبات

مكتبات R متطابقة مع مكتبات R في وقت تشغيل Databricks 5.4.

مكتبتا جافا وسكالا (مجموعة سكالا 2.11)

بالإضافة إلى مكتبات Java و Scala في Databricks Runtime 5.4، يحتوي Databricks Runtime 5.4 ML على JARs التالية:

Group ID معرف القطعة الأثرية إصدار
كوم.داتابريكس شرارة عميقة التعلم 1.5.0-db3-spark2.4
كوم.نوعسيف.أكا أكا-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc إكسجبوست4ج 0.81
ml.dmlc xgboost4j شرارة 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow شرارة-الشد-connector_2.11 1.12.0
org.tensorflow تدفق الشد 1.12.0
عربدة.tensorframes إطارات الشد 0.6.0-s_2.11