Databricks Runtime 5,4 pour Machine Learning (non pris en charge)

Databricks a publié cette image en juin 2019.

Databricks Runtime 5,4 pour Machine Learning fournit un environnement prêt à l’emploi pour les Machine Learning et la science des données basée sur Databricks Runtime 5,4 (non pris en charge). Databricks Runtime ML contient de nombreuses bibliothèques Machine Learning courantes, notamment TensorFlow, PyTorch, Keras et XGBoost. Il prend également en charge la formation distribuée d’apprentissage profond à l’aide de Horovod.

pour plus d’informations, y compris pour obtenir des instructions sur la création d’un cluster Databricks Runtime ML, consultez Databricks Runtime pour Machine Learning.

Nouvelles fonctionnalités

Databricks Runtime 5,4 ML repose sur Databricks Runtime 5,4. Pour plus d’informations sur les nouveautés de Databricks Runtime 5,4, consultez les notes de publication Databricks Runtime 5,4 (non prises en charge) .

en plus des mises à jour de bibliothèque, Databricks Runtime 5,4 ML introduit les nouvelles fonctionnalités suivantes :

Hyperopt distribué et suivi MLflow automatisé

Databricks Runtime 5,4 ML introduit une nouvelle implémentation de Hyperopt alimentée par Apache Spark pour mettre à l’échelle et simplifier le paramétrage des hyperparamètres. Une nouvelle Trials classe SparkTrials est implémentée pour distribuer des séries d’essais Hyperopt entre plusieurs ordinateurs et nœuds à l’aide de Apache Spark. En outre, toutes les expériences de paramétrage, ainsi que les hyperparamètres et les métriques ciblés, sont automatiquement enregistrées dans MLflow. Pour plus d’informations, consultez paralléliser l’optimisation hyperparamétrique avec scikit-Learn et MLflow.

Important

Cette fonctionnalité est disponible en préversion publique.

Apache Spark MLlib + suivi MLflow automatisé

Databricks Runtime 5,4 ML prend en charge la journalisation automatique des exécutions MLflow pour les modèles, à l’aide d’algorithmes de paramétrage PySpark CrossValidator et de TrainValidationSplit . Consultez Apache Spark MLlib et suivi MLflow automatisé. cette fonctionnalité est activée par défaut dans Databricks Runtime 5,4 ML mais elle était désactivée par défaut dans Databricks Runtime ML 5,3.

Important

Cette fonctionnalité est disponible en préversion publique.

Amélioration de la HorovodRunner

La sortie envoyée depuis Horovod vers le nœud de pilote Spark est désormais visible dans les cellules du bloc-notes.

Mise à jour du package XGBoost python

Le package Python XGBoost 0,80 est installé.

Environnement du système

l’environnement système de Databricks Runtime 5,4 ML diffère de Databricks Runtime 5,4 comme suit :

  • Python: 2.7.15 pour les clusters Python 2 et 3.6.5 pour les clusters python 3.
  • DBUtils: Databricks Runtime 5,4 ML ne contient pas d' utilitaire de bibliothèque (DBUtils. library).
  • Pour les clusters GPU, les bibliothèques GPU NVIDIA suivantes :
    • Pilote Tesla 396,44
    • CUDA 9,2
    • CUDNN 7.2.1

Bibliothèques

les sections suivantes répertorient les bibliothèques incluses dans Databricks Runtime ML 5,4 qui diffèrent de celles incluses dans Databricks Runtime 5,4.

Bibliothèques de niveau supérieur

Databricks Runtime 5,4 ML comprend les bibliothèquesde niveau supérieur suivantes :

Bibliothèques Python

Databricks Runtime 5,4 ML utilise conda pour la gestion des packages Python. Par conséquent, il existe des différences majeures dans les bibliothèques python installées par rapport à Databricks Runtime. Voici la liste complète des packages et versions python fournis à l’aide du gestionnaire de package Conda.

Bibliothèque Version Bibliothèque Version Bibliothèque Version
absl-py 0.7.1 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 portaux-ABC 0,5 ports. functools-LRU-cache 1.5
ports. weakref 1.0. post1 bcrypt 3.1.6 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 Colorama 0.3.9 configparser 3.5.0
chiffrement 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0.14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 future 0.17.1
tâches futures 3.2.0 gast 0.2.2 grpcio 1.12.1
h5py 2.8.0 horovod 0.16.0 html5lib 1.0.1
hyperopt 0.1.2. est renommé db4 idna 2.6 IPAddress 1.0.22
ipython 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
Jinja2 2.10 jmespath 0.9.4 jsonschema 2.6.0
jupyter-client 5.2.3 jupyter-core 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Keras-Preprocessing 1.0.9 kiwisolver 1.1.0
linecache2 1.0.0 llvmlite 0.23.1 lxml 4.2.1
Markdown 3.1.1 MarkupSafe 1.0 matplotlib 2.2.2
mistune 0.8.3 mkl-fft 1.0.0 mkl-random 1.0.1
mleap 0.8.1 mock 2.0.0 msgpack 0.5.6
nbconvert 5.3.1 nbformat 4.4.0 networkx 2.2
pique 1.3.7 nez-exclure 0.5.0 numba 0.38.0 +0. g2a2b772fc. Dirty
numpy 1.14.3 olefile 0.45.1 openpyxl 2.5.3
pandas 0.23.0 pandocfilters 1.4.2 paramiko 2.4.1
pathlib2 2.3.2 patsy 0.5.0 Loading 5.1.3
pexpect 4.5.0 pickleshare 0.7.4 Pillow 5.1.0
pip 10.0.1 pneus 3.11 prompt-toolkit 1.0.15
protobuf 3.7.1 psutil 5.6.2 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.12.1 pyasn1 0.4.5
pycparser 2.18 Pygments 2.2.0 pymongo 3.8.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018,4 PyYAML 5,1 pyzmq 17.0.0
requêtes 2.18.4 s3transfer 0.1.13 scandir 1.7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
six 1.11.0 statsmodels 0.9.0 subprocess32 3.5.4
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 torch 0.4.1
torchvision 0.2.1 tornado 5.0.2 tqdm 4.32.1
traceback2 1.4.0 traitlets 4.3.2 unittest2 1.1.0
urllib3 1,22 virtualenv 16.0.0 wcwidth 0.1.7
webencodings 0.5.1 Werkzeug 0.14.1 wheel 0.31.1
wrapt 1.10.11 wsgiref 0.1.2

En outre, les packages Spark suivants incluent des modules python :

Package Spark Module python Version
graphframes graphframes 0.7.0-DB1-Spark 2.4
Spark-apprentissage profond sparkdl 1.5.0-n-Spark-Spark 2.4
tensorframes tensorframes 0.6.0-s_2.11

Bibliothèques R

Les bibliothèques R sont identiques aux bibliothèques r dans Databricks Runtime 5,4.

Bibliothèques Java et scalaire (cluster Scala 2,11)

en plus des bibliothèques Java et Scala dans Databricks Runtime 5,4, Databricks Runtime 5,4 ML contient les fichiers jar suivants :

ID de groupe ID d’artefact Version
com. databricks Spark-apprentissage profond 1.5.0-n-Spark-Spark 2.4
com. sécurisé. Akka Streams Akka Streams-actor_2.11 2.3.11
ml. chambre d’mleap mleap-databricks-runtime_2.11 0.13.0
ml. DMLC xgboost4j 0.81
ml. DMLC xgboost4j-Spark 0.81
org. graphframes graphframes_2.11 0.7.0-DB1-Spark 2.4
org. tensorflow libtensorflow 1.12.0
org. tensorflow libtensorflow_jni 1.12.0
org. tensorflow Spark-tensorflow-connector_2.11 1.12.0
org. tensorflow tensorflow 1.12.0
org. tensorframes tensorframes 0.6.0-s_2.11