Databricks Runtime 5.4 för Machine Learning (stöds inte)

Databricks släppte den här avbildningen i juni 2019.

Databricks Runtime 5.4 för Machine Learning tillhandahåller en färdig miljö för maskininlärning och datavetenskap baserad på Databricks Runtime 5.4 (stöds inte). Databricks Runtime ML innehåller många populära maskininlärningsbibliotek, inklusive TensorFlow, PyTorch, Keras och XGBoost. Den stöder även distribuerad djupinlärningsträning med Horovod.

Mer information, inklusive instruktioner för att skapa ett Databricks Runtime ML kluster, finns i Databricks Runtime för Machine Learning.

Nya funktioner

Databricks Runtime 5.4 ML bygger på Databricks Runtime 5.4. Information om vad som är nytt i Databricks Runtime 5.4 finns i viktig information Databricks Runtime 5.4 (stöds inte).

Förutom biblioteksuppdateringar introducerarDatabricks Runtime 5.4 ML följande nya funktioner:

Distribuerad Hyperopt + automatiserad MLflow-spårning

Databricks Runtime 5.4 ML en ny implementering av Hyperopt som drivs av Apache Spark för att skala och förenkla finjustering av hyperparametrar. En ny Trials klass SparkTrials implementeras för att distribuera Hyperopt-utvärderingskörningar mellan flera datorer och noder med hjälp av Apache Spark. Dessutom loggas alla justeringsexperiment, tillsammans med de finjusterade hyperparametrarna och målmåtten, automatiskt till MLflow-körningar. Se Parallellisera hyperparameterjustering med scikit-learn och MLflow.

Viktigt

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Apache Spark MLlib + automatiserad MLflow-spårning

Databricks Runtime 5.4 ML stöder automatisk loggning av MLflow-körningar för modeller som passar med PySpark-justeringsalgoritmer och TrainValidationSplit . Se Apache Spark MLlib och automatiserad MLflow-spårning. Den här funktionen är på som Databricks Runtime 5,4 ML men var inaktiverad som standard i Databricks Runtime 5.3 ML.

Viktigt

Den här funktionen finns som allmänt tillgänglig förhandsversion.

HorovodRunner-förbättring

Utdata som skickas från Horovod till Spark-drivrutinsnoden visas nu i notebook-celler.

XGBoost Python-paketuppdatering

XGBoost Python-paketet 0.80 är installerat.

Systemmiljö

Systemmiljön i Databricks Runtime 5.4 ML från Databricks Runtime 5.4 enligt följande:

  • Python:2.7.15 för Python 2-kluster och 3.6.5 för Python 3-kluster.
  • DBUtils:Databricks Runtime 5.4 ML inte innehåller biblioteksverktyget (dbutils.library).
  • För GPU-kluster, följande NVIDIA GPU-bibliotek:
    • Tesla-drivrutin 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

Bibliotek

I följande avsnitt listas de bibliotek som ingår i Databricks Runtime 5.4 ML som skiljer sig från de som ingår i Databricks Runtime 5.4.

Bibliotek på den översta nivån

Databricks Runtime 5.4 ML innehåller följande bibliotek på den översta nivån:

Python-bibliotek

Databricks Runtime 5.4 ML Conda för Python-pakethantering. Därför finns det stora skillnader i installerade Python-bibliotek jämfört med Databricks Runtime. Följande är en fullständig lista över angivna Python-paket och versioner som installerats med conda-pakethanteraren.

Bibliotek Version Bibliotek Version Bibliotek Version
absl-py 0.7.1 Argparse 1.4.0 asn1crypto 0.24.0
Astor 0.7.1 backports-abc 0,5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 Bcrypt 3.1.6 Blekmedel 2.1.3
Boto 2.48.0 boto3 1.7.62 botocore 1.10.62
Certifi 2018.04.16 Cffi 1.11.5 Chardet 3.0.4
cloudpickle 0.5.3 Colorama 0.3.9 configparser 3.5.0
Kryptografi 2.2.2 Apparat 0.10.0 Cython 0.28.2
Dekoratör 4.3.0 Docutils 0.14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 Framtiden 0.17.1
Terminer 3.2.0 Gast 0.2.2 grpcio 1.12.1
h5py 2.8.0 horovod 0.16.0 html5lib 1.0.1
hyperopt 0.1.2.db4 idna 2,6 Ip 1.0.22
Ipython 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
Jinja2 2,10 jmespath 0.9.4 jsonschema 2.6.0
jupyter-client 5.2.3 jupyter-core 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Keras-Preprocessing 1.0.9 kiwisolver 1.1.0
linecache2 1.0.0 llvmlite 0.23.1 Lxml 4.2.1
Markdown 3.1.1 MarkupSafe 1.0 matplotlib 2.2.2
distune 0.8.3 mkl-fft 1.0.0 mkl-random 1.0.1
mleap 0.8.1 Mock 2.0.0 msgpack 0.5.6
nbconvert 5.3.1 nbformat 4.4.0 Networkx 2.2
Näsa 1.3.7 nos-exkluder 0.5.0 n nce 0.38.0+0.g2a2b772fc.dirty
numpy 1.14.3 olefile 0.45.1 openpyxl 2.5.3
Pandas 0.23.0 pandocfilters 1.4.2 Paramiko 2.4.1
pathlib2 2.3.2 Patsy 0.5.0 Pbr 5.1.3
Pexpect 4.5.0 pickleshare 0.7.4 Kudde 5.1.0
Pip 10.0.1 Ply 3.11 prompt-toolkit 1.0.15
protobuf 3.7.1 Psutil 5.6.2 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.12.1 pyasn1 0.4.5
pycparser 2.18 Pygments 2.2.0 pymongo 3.8.0
PyNaCl 1.3.0 Pyopenssl 18.0.0 Pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 5,1 pyzmq 17.0.0
Begäranden 2.18.4 s3transfer 0.1.13 Scandir 1.7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
Setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
Sex 1.11.0 statsmodels 0.9.0 delprocess32 3.5.4
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 Fackla 0.4.1
vision 0.2.1 Tornado 5.0.2 tqdm 4.32.1
traceback2 1.4.0 egenskaper 4.3.2 unittest2 1.1.0
urllib3 1,22 Virtualenv 16.0.0 wcwidth 0.1.7
webencodings 0.5.1 Werkzeug 0.14.1 hjul 0.31.1
wrapt 1.10.11 Wsgiref 0.1.2

Dessutom innehåller följande Spark-paket Python-moduler:

Spark-paket Python-modul Version
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db3-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

R-bibliotek

R-biblioteken är identiska med R-biblioteken i Databricks Runtime 5.4.

Java- och Scala-bibliotek (Scala 2.11-kluster)

Förutom Java- och Scala-biblioteken i Databricks Runtime 5.4 innehåller Databricks Runtime 5.4 ML följande JAR:er:

Grupp-ID Artefakt-ID Version
com.databricks spark-deep-learning 1.5.0-db3-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11