Machine Learning の Databricks Runtime 5.4 (サポートされていません)Databricks Runtime 5.4 for Machine Learning (Unsupported)

Databricks は、2019年6月にこのイメージをリリースしました。Databricks released this image in June 2019.

Machine Learning の Databricks Runtime 5.4 は Databricks Runtime 5.4 (サポートされていません)に基づく機械学習とデータサイエンスのための準備が整った環境を提供します。Databricks Runtime 5.4 for Machine Learning provides a ready-to-go environment for machine learning and data science based on Databricks Runtime 5.4 (Unsupported). Databricks Runtime ML には、PyTorch、Keras、XGBoost ストなど、多くの一般的な機械学習ライブラリが含まれています。Databricks Runtime ML contains many popular machine learning libraries, including TensorFlow, PyTorch, Keras, and XGBoost. また、Horovod を使用した分散ディープラーニングトレーニングもサポートしています。It also supports distributed deep learning training using Horovod.

Databricks Runtime ML クラスターを作成する手順など、詳細については、 Machine Learning の Databricks Runtimeを参照してください。For more information, including instructions for creating a Databricks Runtime ML cluster, see Databricks Runtime for Machine Learning.

新機能New features

Databricks Runtime 5.4 ML は Databricks Runtime 5.4 の上に構築されています。Databricks Runtime 5.4 ML is built on top of Databricks Runtime 5.4. Databricks Runtime 5.4 の新機能の詳細については、 Databricks Runtime 5.4 (サポートされていません) リリースノートを参照してください。For information on what’s new in Databricks Runtime 5.4, see the Databricks Runtime 5.4 (Unsupported) release notes.

Databricks Runtime 5.4 ML では、 ライブラリの更新に加えて、次の新機能が導入されています。In addition to library updates, Databricks Runtime 5.4 ML introduces the following new features:

分散ハイパー Opt + 自動 Mlflow の追跡Distributed Hyperopt + automated MLflow tracking

Databricks Runtime 5.4 ML では、ハイパーパラメーターのチューニングをスケーリングおよび簡素化するために、 Apache Sparkによるhyperoptの新しい実装が導入されています。Databricks Runtime 5.4 ML introduces a new implementation of Hyperopt powered by Apache Spark to scale and simplify hyperparameter tuning. Trials SparkTrials Apache Spark を使用して複数のコンピューターとノード間で hyperopt 評価版を配布するために、新しいクラスが実装されています。A new Trials class SparkTrials is implemented to distribute Hyperopt trial runs among multiple machines and nodes using Apache Spark. さらに、チューニング実験はすべて、チューニングされたハイパーパラメーターとターゲットメトリックと共に、 Mlflow 実行に自動的に記録されます。In addition, all tuning experiments, along with the tuned hyperparameters and targeted metrics, are automatically logged to MLflow runs. Scikit-learn と MLflow を使用したハイパーパラメーターチューニングの並列化」を参照してください。See Parallelize hyperparameter tuning with scikit-learn and MLflow.


この機能はパブリック プレビュー段階にあります。This feature is in Public Preview.

Apache Spark MLlib + 自動 mllib 追跡Apache Spark MLlib + automated MLflow tracking

Databricks Runtime 5.4 ML では、PySpark チューニングアルゴリズムおよびを使用して、モデルの Mlflow 実行 の自動ログ記録がサポートされてい CrossValidator TrainValidationSplit ます。Databricks Runtime 5.4 ML supports automatic logging of MLflow runs for models fit using PySpark tuning algorithms CrossValidator and TrainValidationSplit. MLlib と自動 Mllib 追跡の Apache Spark」を参照してください。See Apache Spark MLlib and automated MLflow tracking. この機能は Databricks Runtime 5.4 ML では既定でオンになっていますが、Databricks Runtime 5.3 ML では既定でオフになっていました。This feature is on by default in Databricks Runtime 5.4 ML but was off by default in Databricks Runtime 5.3 ML.


この機能はパブリック プレビュー段階にあります。This feature is in Public Preview.

HorovodRunner の改善HorovodRunner improvement

Horovod から Spark driver ノードに送信される出力は、notebook セルに表示されるようになりました。Output sent from Horovod to the Spark driver node is now visible in notebook cells.

XGBoost スト Python パッケージの更新XGBoost Python package update

Xgboost スト Python パッケージ 0.80 がインストールされています。XGBoost Python package 0.80 is installed.

システム環境System environment

Databricks Runtime 5.4 ML のシステム環境は、次のように Databricks Runtime 5.4 と異なります。The system environment in Databricks Runtime 5.4 ML differs from Databricks Runtime 5.4 as follows:

  • Python: python 2 クラスター用の2.7.15 と python 3 クラスター用3.6.5。Python: 2.7.15 for Python 2 clusters and 3.6.5 for Python 3 clusters.
  • DBUtils: DATABRICKS RUNTIME 5.4 ML に ライブラリユーティリティが含まれていません。DBUtils: Databricks Runtime 5.4 ML does not contain Library utilities.
  • GPU クラスターの場合、次の NVIDIA GPU ライブラリを使用します。For GPU clusters, the following NVIDIA GPU libraries:
    • Tesla ドライバー396.44Tesla driver 396.44
    • CUDA 9.2CUDA 9.2
    • CUDNN 7.2.1CUDNN 7.2.1

ライブラリ Libraries

以下のセクションでは、Databricks Runtime 5.4 に含まれているものとは異なる Databricks Runtime 5.4 ML に含まれるライブラリについて説明します。The following sections list the libraries included in Databricks Runtime 5.4 ML that differ from those included in Databricks Runtime 5.4.

最上位層ライブラリTop-tier libraries

Databricks Runtime 5.4 ML には、次の最上位層 ライブラリが含まれています。Databricks Runtime 5.4 ML includes the following top-tier libraries:

Python ライブラリPython libraries

Databricks Runtime 5.4 ML では、Python パッケージ管理に Conda を使用します。Databricks Runtime 5.4 ML uses Conda for Python package management. そのため、インストールされている Python ライブラリには Databricks Runtime と比較して大きな違いがあります。As a result, there are major differences in installed Python libraries compared to Databricks Runtime. Conda パッケージマネージャーを使用してインストールされた Python パッケージとバージョンの完全な一覧を次に示します。The following is a full list of provided Python packages and versions installed using Conda package manager.

ライブラリLibrary VersionVersion ライブラリLibrary VersionVersion ライブラリLibrary VersionVersion
absl-.pyabsl-py argparseargparse asn1cryptoasn1crypto
astorastor backports-abcbackports-abc 0.50.5 backports. ファンク tools-lru-cachebackports.functools-lru-cache 1.51.5
backports. weakrefbackports.weakref 1.0. post11.0.post1 bcryptbcrypt bleachbleach
botoboto boto3boto3 1.7.621.7.62 botocorebotocore 1.10.621.10.62
certificertifi 2018.04.162018.04.16 cfficffi chardetchardet
cloudpicklecloudpickle ラマcolorama configparserconfigparser
暗号化●あんごうか○cryptography チェンジャーcycler CythonCython
デコレーターdecorator docutilsdocutils 0.140.14 entrypointsentrypoints
enum34enum34 et-xmlfileet-xmlfile ファンク sigsfuncsigs
functools32functools32 3.2.3-23.2.3-2 fusepyfusepy futurefuture
フューチャfutures gastgast grpciogrpcio
h5pyh5py horovodhorovod html5libhtml5lib
hyperopthyperopt 0.1.2 db40.1.2.db4 idnaidna 2.62.6 ipaddressipaddress
ipythonipython ipython_genutilsipython_genutils jdcaljdcal 1.41.4
Jinja2Jinja2 2.102.10 jmespathjmespath jsonschemajsonschema
jupyter-クライアントjupyter-client jupyter-コアjupyter-core KerasKeras
Keras-ApplicationsKeras-Applications Keras-PreprocessingKeras-Preprocessing kiwisolverkiwisolver
linecache2linecache2 llvmlitellvmlite lxmllxml
MarkdownMarkdown MarkupSafeMarkupSafe 1.01.0 matplotlibmatplotlib
mistunemistune mkl-fftmkl-fft mkl-ランダムmkl-random
mleapmleap 擬似mock msgpackmsgpack
nbconvertnbconvert nbformatnbformat networkxnetworkx 2.22.2
下げnose 鼻-除外nose-exclude numbanumba 0.38.0 +0. g2a2b772fc0.38.0+0.g2a2b772fc.dirty
numpynumpy olefileolefile openpyxlopenpyxl
pandaspandas pandocfilterspandocfilters paramikoparamiko
pathlib2pathlib2 patsypatsy .pbrpbr
pexpectpexpect picklesharepickleshare PillowPillow
pippip ply 3.113.11 prompt-toolkitprompt-toolkit
protobufprotobuf psutilpsutil psycopg2psycopg2
ptyprocessptyprocess pyarrowpyarrow pyasn1pyasn1
pycparserpycparser 2.182.18 PygmentsPygments pymongopymongo
P/AclPyNaCl pyOpenSSLpyOpenSSL pyparsingpyparsing
PySocksPySocks PythonPython python-dateutilpython-dateutil
pytzpytz 2018.42018.4 PyYAMLPyYAML 5.15.1 pyzmqpyzmq
requestsrequests s3transfers3transfer scandirscandir 1.71.7
scikit-learnscikit-learn scipyscipy seabornseaborn
setuptoolssetuptools simplegenericsimplegeneric singledispatchsingledispatch
6six statsmodelsstatsmodels subprocess32subprocess32
TensorBoardtensorboard マイテナント xtensorboardX 1.61.6 tensorflowtensorflow
termcolortermcolor testpathtestpath torchtorch
torchvisiontorchvision tornadotornado tqdmtqdm
traceback2traceback2 traitletstraitlets unittest2unittest2
urllib3urllib3 1.221.22 virtualenvvirtualenv wcwidthwcwidth
webencodingswebencodings WerkzeugWerkzeug wheelwheel
wraptwrapt wsgirefwsgiref

さらに、次の Spark パッケージには Python モジュールが含まれています。In addition, the following Spark packages include Python modules:

Spark パッケージSpark Package Python モジュールPython Module VersionVersion
graphframesgraphframes graphframesgraphframes 0.7.0-spark
spark-ディープラーニングspark-deep-learning sparkdlsparkdl db3-spark
すべてのフレームをtensorframes すべてのフレームをtensorframes 0.6.0-s_2。110.6.0-s_2.11

R ライブラリR libraries

R ライブラリは、 Databricks Runtime 5.4 の r ライブラリと同じです。The R libraries are identical to the R Libraries in Databricks Runtime 5.4.

Java とスケールのライブラリ (2.11 クラスター)Java and Scala libraries (Scala 2.11 cluster)

Databricks Runtime 5.4 の Java と a のライブラリに加え、Databricks Runtime 5.4 ML には次の Jar が含まれています。In addition to Java and Scala libraries in Databricks Runtime 5.4, Databricks Runtime 5.4 ML contains the following JARs:

グループ IDGroup ID 成果物 IDArtifact ID VersionVersion
databrickscom.databricks spark-ディープラーニングspark-deep-learning db3-spark
タイプセーフな. akkacom.typesafe.akka akka-actor_2。11akka-actor_2.11
combust. mleapml.combust.mleap mleap-runtime_2。11mleap-databricks-runtime_2.11
ml (dmlc)ml.dmlc xgboost4jxgboost4j 0.810.81
ml (dmlc)ml.dmlc xgboost4j-sparkxgboost4j-spark 0.810.81
org フレームorg.graphframes graphframes_2。11graphframes_2.11 0.7.0-spark
組織の "転送フロー"org.tensorflow libtensorflowlibtensorflow
組織の "転送フロー"org.tensorflow libtensorflow_jnilibtensorflow_jni
組織の "転送フロー"org.tensorflow spark-connector_2. 11spark-tensorflow-connector_2.11
組織の "転送フロー"org.tensorflow tensorflowtensorflow
組織の場合org.tensorframes すべてのフレームをtensorframes 0.6.0-s_2。110.6.0-s_2.11