Databricks Runtime 5.4 for Machine Learning (Niet ondersteund)

Databricks heeft deze afbeelding in juni 2019 uitgebracht.

Databricks Runtime 5.4 voor Machine Learning biedt een kant-en-klaar-omgeving voor machine learning en gegevenswetenschap op basis van Databricks Runtime 5.4 (Niet ondersteund). Databricks Runtime ML bevat veel populaire machine learning bibliotheken, waaronder TensorFlow, PyTorch, Keras en XGBoost. Het biedt ook ondersteuning voor gedistribueerde deep learning-training met horovod.

Zie voor meer informatie, inclusief instructies voor het maken van Databricks Runtime ML cluster, Databricks Runtime voor Machine Learning.

Nieuwe functies

Databricks Runtime 5.4 ML is gebaseerd op Databricks Runtime 5.4. Zie de opmerkingen bij de release Databricks Runtime 5.4 (Niet-ondersteund) voor meer informatie over wat er nieuw is in Databricks Runtime 5.4.

Naast bibliotheekupdates introduceertDatabricks Runtime 5.4 ML de volgende nieuwe functies:

Gedistribueerde Hyperopt + geautomatiseerde MLflow-tracering

Databricks Runtime 5.4 ML wordt een nieuwe implementatie van Hyperopt powered by Apache Spark voor het schalen en vereenvoudigen van de afstemming van hyperparameters. Er wordt Trials een nieuwe klasse geïmplementeerd voor het SparkTrials distribueren van Hyperopt-proefversies over meerdere computers en knooppunten met behulp van Apache Spark. Bovendien worden alle afstemmingsexperimenten, samen met de afgestemde hyperparameters en gerichte metrische gegevens, automatisch geregistreerd bij MLflow-runs. Zie Hyperparameter-afstemming parallelliseren met scikit-learn en MLflow.

Belangrijk

Deze functie is beschikbaar als openbare preview.

Apache Spark MLlib + geautomatiseerde MLflow-tracering

Databricks Runtime 5.4 ML automatische logboekregistratie van MLflow-uitvoeringen voor modellen die passen met behulp van PySpark-afstemmingsalgoritmen CrossValidator en TrainValidationSplit . Zie Apache Spark MLlib en geautomatiseerde MLflow-tracering. Deze functie is standaard ingeschakeld in Databricks Runtime 5.4 ML maar was standaard uitgeschakeld in Databricks Runtime 5.3 ML.

Belangrijk

Deze functie is beschikbaar als openbare preview.

HorovodRunner-verbetering

Uitvoer die van Horovod naar het Spark-stuurprogramma-knooppunt wordt verzonden, is nu zichtbaar in notebookcellen.

XGBoost Python-pakketupdate

XGBoost Python-pakket 0.80 is geïnstalleerd.

Systeemomgeving

De systeemomgeving in Databricks Runtime 5.4 ML verschilt als volgt van Databricks Runtime 5.4:

  • Python: 2.7.15 voor Python 2-clusters en 3.6.5 voor Python 3-clusters.
  • DBUtils: Databricks Runtime 5.4 ML bevat geen bibliotheekprogramma (dbutils.library).
  • Voor GPU-clusters zijn de volgende NVIDIA GPU-bibliotheken beschikbaar:
    • Tesla-stuurprogramma 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

Bibliotheken

In de volgende secties worden de bibliotheken vermeld die zijn opgenomen in Databricks Runtime 5.4 ML die verschillen van de bibliotheken die zijn opgenomen in Databricks Runtime 5.4.

Bibliotheken in de bovenste laag

Databricks Runtime 5.4 ML de volgende bibliotheken in de bovenste laag:

Python-bibliotheken

Databricks Runtime 5.4 ML conda gebruikt voor python-pakketbeheer. Als gevolg hiervan zijn er belangrijke verschillen in geïnstalleerde Python-bibliotheken in vergelijking met Databricks Runtime. Hier volgt een volledige lijst met geleverde Python-pakketten en -versies die zijn geïnstalleerd met behulp van Conda-pakketbeheer.

Bibliotheek Versie Bibliotheek Versie Bibliotheek Versie
absl-py 0.7.1 Argparse 1.4.0 asn1crypto 0.24.0
Astor 0.7.1 backports-abc 0,5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 Bcrypt 3.1.6 Bleekmiddel 2.1.3
Boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certificaat 2018.04.16 Cffi 1.11.5 Chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
Cryptografie 2.2.2 cycler 0.10.0 Cython 0.28.2
Decorator 4.3.0 Docutils 0,14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 Toekomst 0.17.1
Futures 3.2.0 gast 0.2.2 grpcio 1.12.1
h5py 2.8.0 horovod 0.16.0 html5lib 1.0.1
hyperopt 0.1.2.db4 idna 2,6 ipaddress 1.0.22
Ipython 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
Jinja2 2.10 jmespath 0.9.4 jsonschema 2.6.0
jupyter-client 5.2.3 jupyter-core 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Keras-Preprocessing 1.0.9 :solver 1.1.0
linecache2 1.0.0 llvmlite 0.23.1 Lxml 4.2.1
Markdown 3.1.1 MarkupSafe 1.0 matplotlib 2.2.2
mistune 0.8.3 mkl-fft 1.0.0 mkl-random 1.0.1
mleap 0.8.1 Mock 2.0.0 msgpack 0.5.6
:000 5.3.1 nbformat 4.4.0 Networkx 2.2
Neus 1.3.7 neus-uitsluiten 0.5.0 pera 0.38.0+0.g2a2b772fc.dirty
numpy 1.14.3 olefile 0.45.1 openpyxl 2.5.3
Pandas 0.23.0 pandocfilters 1.4.2 Paramiko 2.4.1
pathlib2 2.3.2 Patsy 0.5.0 Pbr 5.1.3
Pexpect 4.5.0 pickleshare 0.7.4 Kussen 5.1.0
Pip 10.0.1 Ply 3.11 prompt-toolkit 1.0.15
protobuf 3.7.1 psutil 5.6.2 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.12.1 pyasn1 0.4.5
pycparser 2.18 Pygments 2.2.0 pymongo 3.8.0
PyNaCl 1.3.0 Pyopenssl 18.0.0 Pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 5.1 pyzmq 17.0.0
requests 2.18.4 s3transfer 0.1.13 scandir 1,7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
Setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
Zes 1.11.0 statsmodels 0.9.0 subproces32 3.5.4
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 Fakkel 0.4.1
vision 0.2.1 Tornado 5.0.2 tqdm 4.32.1
traceback2 1.4.0 lets 4.3.2 unittest2 1.1.0
urllib3 1,22 Virtualenv 16.0.0 wcwidth 0.1.7
webencodings 0.5.1 Werkzeug 0.14.1 wiel 0.31.1
wrapt 1.10.11 Wsgiref 0.1.2

Daarnaast bevatten de volgende Spark-pakketten Python-modules:

Spark-pakket Python-module Versie
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db3-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

R-bibliotheken

De R-bibliotheken zijn identiek aan de R-bibliotheken in Databricks Runtime 5.4.

Java- en Scala-bibliotheken (Scala 2.11-cluster)

Naast Java- en Scala-bibliotheken in Databricks Runtime 5.4 bevat Databricks Runtime 5.4 ML de volgende JAR's:

Groeps-id Artefact-id Versie
com.databricks spark-deep-learning 1.5.0-db3-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11