Databricks Runtime 5.4 MLDatabricks Runtime 5.4 ML

Databricks は、2019年6月にこのイメージをリリースしました。Databricks released this image in June 2019.

Databricks Runtime 5.4 ML は、 Databricks Runtime 5.4に基づく機械学習とデータサイエンスのための準備が整った環境を提供します。Databricks Runtime 5.4 ML provides a ready-to-go environment for machine learning and data science based on Databricks Runtime 5.4. ML の Databricks Runtime には、PyTorch、Keras、XGBoost ストなど、多くの一般的な機械学習ライブラリが含まれています。Databricks Runtime for ML contains many popular machine learning libraries, including TensorFlow, PyTorch, Keras, and XGBoost. また、Horovod を使用した分散ディープラーニングトレーニングもサポートしています。It also supports distributed deep learning training using Horovod.

Databricks Runtime ML クラスターを作成する手順など、詳細については、 Machine Learning の Databricks Runtimeを参照してください。For more information, including instructions for creating a Databricks Runtime ML cluster, see Databricks Runtime for Machine Learning.

新機能New features

Databricks Runtime 5.4 ML は Databricks Runtime 5.4 の上に構築されています。Databricks Runtime 5.4 ML is built on top of Databricks Runtime 5.4. Databricks Runtime 5.4 の新機能の詳細については、 Databricks Runtime 5.4のリリースノートを参照してください。For information on what’s new in Databricks Runtime 5.4, see the Databricks Runtime 5.4 release notes.

Databricks Runtime 5.4 ML では、ライブラリの更新に加えて、次の新機能が導入されています。In addition to library updates, Databricks Runtime 5.4 ML introduces the following new features:

分散ハイパー Opt + 自動Mlflowの追跡Distributed Hyperopt + automated MLflow tracking

Databricks Runtime 5.4 ML では、ハイパーパラメーターのチューニングをスケーリングおよび簡素化するために、 Apache Sparkによるhyperoptの新しい実装が導入されています。Databricks Runtime 5.4 ML introduces a new implementation of Hyperopt powered by Apache Spark to scale and simplify hyperparameter tuning. 新しい Trials クラス SparkTrials が実装されており、Apache Spark を使用して複数のコンピューターとノード間で Hyperopt 試用版の実行を分散します。A new Trials class SparkTrials is implemented to distribute Hyperopt trial runs among multiple machines and nodes using Apache Spark. さらに、チューニング実験はすべて、チューニングされたハイパーパラメーターとターゲットメトリックと共に、 Mlflow 実行に自動的に記録されます。In addition, all tuning experiments, along with the tuned hyperparameters and targeted metrics, are automatically logged to MLflow runs. Distributed Hyperopt + 自動 MLflow の追跡」を参照してください。See Distributed Hyperopt + Automated MLflow Tracking.

重要

この機能はパブリックプレビューの段階にあります。This feature is in Public Preview.

Apache Spark MLlib + 自動mllib追跡Apache Spark MLlib + automated MLflow tracking

Databricks Runtime 5.4 ML では、PySpark チューニングアルゴリズム CrossValidatorTrainValidationSplit を使用して、モデルのMlflow 実行の自動ログ記録がサポートされています。Databricks Runtime 5.4 ML supports automatic logging of MLflow runs for models fit using PySpark tuning algorithms CrossValidator and TrainValidationSplit. MLlib + 自動 Mllib 追跡の Apache Spark」を参照してください。See Apache Spark MLlib + Automated MLflow Tracking. この機能は Databricks Runtime 5.4 ML では既定でオンになっていますが、Databricks Runtime 5.3 ML では既定でオフになっていました。This feature is on by default in Databricks Runtime 5.4 ML but was off by default in Databricks Runtime 5.3 ML.

重要

この機能はパブリックプレビューの段階にあります。This feature is in Public Preview.

HorovodRunnerの改善HorovodRunner improvement

Horovod から Spark driver ノードに送信される出力は、notebook セルに表示されるようになりました。Output sent from Horovod to the Spark driver node is now visible in notebook cells.

XGBoost スト Python パッケージの更新XGBoost Python package update

Xgboost スト Python パッケージ0.80 がインストールされています。XGBoost Python package 0.80 is installed.

システム環境System environment

Databricks Runtime 5.4 ML のシステム環境は、次のように Databricks Runtime 5.4 と異なります。The system environment in Databricks Runtime 5.4 ML differs from Databricks Runtime 5.4 as follows:

  • Python: python2 クラスター用の2.7.15 と python 3 クラスター用3.6.5。Python: 2.7.15 for Python 2 clusters and 3.6.5 for Python 3 clusters.
  • DBUtils: DATABRICKS RUNTIME 5.4 ML にライブラリユーティリティが含まれていません。DBUtils: Databricks Runtime 5.4 ML does not contain Library utilities.
  • GPU クラスターの場合、次の NVIDIA GPU ライブラリを使用します。For GPU clusters, the following NVIDIA GPU libraries:
    • Tesla ドライバー396.44Tesla driver 396.44
    • CUDA 9.2CUDA 9.2
    • CUDNN 7.2.1CUDNN 7.2.1

ライブラリ Libraries

以下のセクションでは、Databricks Runtime 5.4 に含まれているものとは異なる Databricks Runtime 5.4 ML に含まれるライブラリについて説明します。The following sections list the libraries included in Databricks Runtime 5.4 ML that differ from those included in Databricks Runtime 5.4.

最上位層ライブラリTop-tier libraries

Databricks Runtime 5.4 ML には、次の最上位層ライブラリが含まれています。Databricks Runtime 5.4 ML includes the following top-tier libraries:

Python ライブラリPython libraries

Databricks Runtime 5.4 ML では、Python パッケージ管理に Conda を使用します。Databricks Runtime 5.4 ML uses Conda for Python package management. そのため、インストールされている Python ライブラリには Databricks Runtime と比較して大きな違いがあります。As a result, there are major differences in installed Python libraries compared to Databricks Runtime. Conda パッケージマネージャーを使用してインストールされた Python パッケージとバージョンの完全な一覧を次に示します。The following is a full list of provided Python packages and versions installed using Conda package manager.

ライブラリLibrary VersionVersion ライブラリLibrary VersionVersion ライブラリLibrary VersionVersion
absl-.pyabsl-py 0.7.10.7.1 argparseargparse 1.4.01.4.0 asn1cryptoasn1crypto 0.24.00.24.0
astorastor 0.7.10.7.1 backports-abcbackports-abc 0.50.5 backports. ファンク tools-lru-cachebackports.functools-lru-cache 1.51.5
backports. weakrefbackports.weakref 1.0. post11.0.post1 bcryptbcrypt 3.1.63.1.6 bleachbleach 2.1.32.1.3
botoboto 2.48.02.48.0 boto3boto3 1.7.621.7.62 botocorebotocore 1.10.621.10.62
certificertifi 2018.04.162018.04.16 cfficffi 1.11.51.11.5 chardetchardet 3.0.43.0.4
cloudpicklecloudpickle 0.5.30.5.3 ラマcolorama 0.3.90.3.9 configparserconfigparser 3.5.03.5.0
暗号化cryptography 2.2.22.2.2 チェンジャーcycler 0.10.00.10.0 CythonCython 0.28.20.28.2
デコレーターdecorator 4.3.04.3.0 docutilsdocutils 0.140.14 entrypointsentrypoints 0.2.30.2.3
enum34enum34 1.1.61.1.6 et-xmlfileet-xmlfile 1.0.11.0.1 ファンク sigsfuncsigs 1.0.21.0.2
functools32functools32 3.2.3-23.2.3-2 fusepyfusepy 2.0.42.0.4 あとfuture 0.17.10.17.1
期日futures 3.2.03.2.0 gastgast 0.2.20.2.2 grpciogrpcio 1.12.11.12.1
h5pyh5py 2.8.02.8.0 horovodhorovod 0.16.00.16.0 html5libhtml5lib 1.0.11.0.1
hyperopthyperopt 0.1.2 db40.1.2.db4 idnaidna 2.62.6 ipaddressipaddress 1.0.221.0.22
ipythonipython 5.7.05.7.0 ipython_genutilsipython_genutils 0.2.00.2.0 jdcaljdcal 1.41.4
Jinja2Jinja2 2.102.10 jmespathjmespath 0.9.40.9.4 jsonschemajsonschema 2.6.02.6.0
jupyter-クライアントjupyter-client 5.2.35.2.3 jupyter-コアjupyter-core 4.4.04.4.0 KerasKeras 2.2.42.2.4
Keras アプリケーションKeras-Applications 1.0.71.0.7 Keras 前処理Keras-Preprocessing 1.0.91.0.9 kiwisolverkiwisolver 1.1.01.1.0
linecache2linecache2 1.0.01.0.0 llvmlitellvmlite 0.23.10.23.1 lxmllxml 4.2.14.2.1
MarkdownMarkdown 3.1.13.1.1 MarkupSafeMarkupSafe 1.01.0 matplotlibmatplotlib 2.2.22.2.2
mistunemistune 0.8.30.8.3 mkl-fftmkl-fft 1.0.01.0.0 mkl-ランダムmkl-random 1.0.11.0.1
mleapmleap 0.8.10.8.1 擬似mock 2.0.02.0.0 msgpackmsgpack 0.5.60.5.6
nbconvertnbconvert 5.3.15.3.1 nbformatnbformat 4.4.04.4.0 networkxnetworkx 2.22.2
下げnose 1.3.71.3.7 鼻-除外nose-exclude 0.5.00.5.0 numbanumba 0.38.0 +0. g2a2b772fc0.38.0+0.g2a2b772fc.dirty
numpynumpy 1.14.31.14.3 olefileolefile 0.45.10.45.1 openpyxlopenpyxl 2.5.32.5.3
pandaspandas 0.23.00.23.0 pandocfilterspandocfilters 1.4.21.4.2 paramikoparamiko 2.4.12.4.1
pathlib2pathlib2 2.3.22.3.2 patsypatsy 0.5.00.5.0 .pbrpbr 5.1.35.1.3
pexpectpexpect 4.5.04.5.0 picklesharepickleshare 0.7.4 以降0.7.4 PillowPillow 5.1.05.1.0
pippip 10.0.110.0.1 ply 3.113.11 prompt-toolkitprompt-toolkit 1.0.151.0.15
protobufprotobuf 3.7.13.7.1 psutilpsutil 5.6.25.6.2 psycopg2psycopg2 2.7.52.7.5
ptyprocessptyprocess 0.5.20.5.2 pyarrowpyarrow 0.12.10.12.1 pyasn1pyasn1 0.4.50.4.5
pycparserpycparser 2.182.18 PygmentsPygments 2.2.02.2.0 pymongopymongo 3.8.03.8.0
P/AclPyNaCl 1.3.01.3.0 pyOpenSSLpyOpenSSL 18.0.018.0.0 pyparsingpyparsing 2.2.02.2.0
PySocksPySocks 1.6.8 以降1.6.8 PythonPython 2.7.152.7.15 python-dateutilpython-dateutil 2.7.32.7.3
pytzpytz 2018.42018.4 PyYAMLPyYAML 5.15.1 pyzmqpyzmq 17.0.017.0.0
requestsrequests 2.18.42.18.4 s3transfers3transfer 0.1.130.1.13 scandirscandir 1.71.7
scikit-learnscikit-learn 0.19.10.19.1 scipyscipy 1.1.01.1.0 seabornseaborn 0.8.10.8.1
setuptoolssetuptools 39.1.039.1.0 simplegenericsimplegeneric 0.8.10.8.1 singledispatchsingledispatch 3.4.0.33.4.0.3
6six 1.11.01.11.0 statsmodelsstatsmodels 0.9.00.9.0 subprocess32subprocess32 3.5.43.5.4
TensorBoardtensorboard 1.12.21.12.2 マイテナント xtensorboardX 1.61.6 tensorflowtensorflow 1.12.0 以降1.12.0
termcolortermcolor 1.1.01.1.0 testpathtestpath 0.3.10.3.1 torchtorch 0.4.10.4.1
torchvisiontorchvision 0.2.10.2.1 tornadotornado 5.0.25.0.2 tqdmtqdm 4.32.14.32.1
traceback2traceback2 1.4.01.4.0 traitletstraitlets 4.3.24.3.2 unittest2unittest2 1.1.01.1.0
urllib3urllib3 1.221.22 virtualenvvirtualenv 16.0.016.0.0 wcwidthwcwidth 0.1.70.1.7
webencodingswebencodings 0.5.10.5.1 WerkzeugWerkzeug 0.14.10.14.1 wheelwheel 0.31.10.31.1
wraptwrapt 1.10.111.10.11 wsgirefwsgiref 0.1.20.1.2

さらに、次の Spark パッケージには Python モジュールが含まれています。In addition, the following Spark packages include Python modules:

Spark パッケージSpark Package Python モジュールPython Module VersionVersion
graphframesgraphframes graphframesgraphframes 0.7.0-spark 2.40.7.0-db1-spark2.4
spark-ディープラーニングspark-deep-learning sparkdlsparkdl db3-spark 2.41.5.0-db3-spark2.4
すべてのフレームをtensorframes すべてのフレームをtensorframes 0.6.0-s_ 2.110.6.0-s_2.11

R ライブラリR libraries

R ライブラリは、 Databricks Runtime 5.4 の r ライブラリと同じです。The R libraries are identical to the R Libraries in Databricks Runtime 5.4.

Java とスケールのライブラリ (2.11 クラスター)Java and Scala libraries (Scala 2.11 cluster)

Databricks Runtime 5.4 の Java と a のライブラリに加え、Databricks Runtime 5.4 ML には次の Jar が含まれています。In addition to Java and Scala libraries in Databricks Runtime 5.4, Databricks Runtime 5.4 ML contains the following JARs:

グループ IDGroup ID 成果物 IDArtifact ID VersionVersion
databrickscom.databricks spark-ディープラーニングspark-deep-learning db3-spark 2.41.5.0-db3-spark2.4
タイプセーフな. akkacom.typesafe.akka akka-actor_ 2.11akka-actor_2.11 2.3.112.3.11
combust. mleapml.combust.mleap mleap-runtime_ 2.11mleap-databricks-runtime_2.11 0.13.00.13.0
ml (dmlc)ml.dmlc xgboost4jxgboost4j 0.810.81
ml (dmlc)ml.dmlc xgboost4j-sparkxgboost4j-spark 0.810.81
org フレームorg.graphframes graphframes_ 2.11graphframes_2.11 0.7.0-spark 2.40.7.0-db1-spark2.4
組織の "転送フロー"org.tensorflow libtensorflowlibtensorflow 1.12.0 以降1.12.0
組織の "転送フロー"org.tensorflow libtensorflow_jnilibtensorflow_jni 1.12.0 以降1.12.0
組織の "転送フロー"org.tensorflow spark-connector_ 2.11spark-tensorflow-connector_2.11 1.12.0 以降1.12.0
組織の "転送フロー"org.tensorflow tensorflowtensorflow 1.12.0 以降1.12.0
組織の場合org.tensorframes すべてのフレームをtensorframes 0.6.0-s_ 2.110.6.0-s_2.11