Databricks Runtime 5,4 ML (stöds inte)

Databricks släpptes den här avbildningen i juni 2019.

Databricks Runtime 5,4 ML tillhandahåller en färdig miljö för maskin inlärning och data vetenskap baserat på Databricks Runtime 5,4 (stöds inte). Databricks Runtime för ML innehåller många populära Machine Learning-bibliotek, inklusive TensorFlow, PyTorch, keras och XGBoost. Den har också stöd för distribuerad djup inlärnings utbildning med Horovod.

Mer information, inklusive anvisningar för hur du skapar ett Databricks Runtime ML-kluster, finns Databricks runtime för Machine Learning.

Nya funktioner

Databricks Runtime 5,4 ML skapas ovanpå Databricks Runtime 5,4. Information om vad som är nytt i Databricks Runtime 5,4 finns i viktig information om Databricks Runtime 5,4 (stöds inte) .

Förutom biblioteks uppdateringarintroducerar DATABRICKS runtime 5,4 ml följande nya funktioner:

Distribuerad Hyperopt + automatiserad MLflow spårning

Databricks Runtime 5,4 ML introducerar en ny implementering av Hyperopt som drivs av Apache Spark för att skala och förenkla inställningen för en parameter. En ny Trials klass SparkTrials implementeras för att distribuera Hyperopt-utvärderingar körs mellan flera datorer och noder som använder Apache Spark. Dessutom loggas alla justerings experiment, tillsammans med de justerade egenskaperna och riktade måtten automatiskt till MLflow-körningar. Se Distributed Hyperopt och automatisk spårning av MLflow.

Viktigt

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Apache Spark MLlib + automatiserad MLflow spårning

Databricks Runtime 5,4 ML stöder automatisk loggning av MLflow-körningar för modeller som passar med PySpark-justering av algoritmer CrossValidator och TrainValidationSplit . Se Apache Spark MLlib och automatiserad MLflow spårning. Den här funktionen är aktive rad som standard i Databricks Runtime 5,4 ML, men var inaktive rad som standard i Databricks Runtime 5,3 ML.

Viktigt

Den här funktionen finns som allmänt tillgänglig förhandsversion.

HorovodRunner -förbättringar

Utdata som skickas från Horovod till Spark-drivrutinens nod visas nu i Notebook-celler.

Uppdatering av XGBoost python-paket

XGBoost python-paket 0,80 har installerats.

Systemmiljö

System miljön i Databricks Runtime 5,4 ML skiljer sig från Databricks Runtime 5,4 på följande sätt:

  • Python: 2.7.15 för python 2-kluster och 3.6.5 för python 3-kluster.
  • DBUtils: DATABRICKS runtime 5,4 ml innehåller inte biblioteks verktyg.
  • För GPU-kluster är följande NVIDIA GPU-bibliotek:
    • Tesla-drivrutin 396,44
    • CUDA 9,2
    • CUDNN 7.2.1

Bibliotek

I följande avsnitt listas de bibliotek som ingår i Databricks Runtime 5,4 ML som skiljer sig från de som ingår i Databricks Runtime 5,4.

Bibliotek på översta nivån

Databricks Runtime 5,4 ML innehåller följande bibliotekpå den översta nivån:

Python-bibliotek

Databricks Runtime 5,4 ML använder Conda för hantering av python-paket. Därför finns det stora skillnader i installerade python-bibliotek jämfört med Databricks Runtime. Följande är en fullständig lista över de python-paket och-versioner som har installerats med Conda Package Manager.

Bibliotek Version Bibliotek Version Bibliotek Version
ABSL – py 0.7.1 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports – ABC 0,5 backports. functools-LRU-cache 1.5
backports.weakref 1.0. post1 bcrypt 3.1.6 medel 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
attestera 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
kryptografi 2.2.2 cykel 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0,14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 längre 0.17.1
Futures 3.2.0 gast 0.2.2 grpcio 1.12.1
h5py 2.8.0 horovod 0.16.0 html5lib 1.0.1
hyperopt 0.1.2.db4 idna 2,6 adresser 1.0.22
ipython 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
Jinja2 2,10 jmespath 0.9.4 jsonschema 2.6.0
Jupyter-klient punkt Jupyter – kärna 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Keras-Preprocessing 1.0.9 kiwisolver 1.1.0
linecache2 1.0.0 llvmlite 0.23.1 lxml 4.2.1
Markdown 3.1.1 MarkupSafe 1,0 matplotlib 2.2.2
feljustera 0.8.3 mkl-fft 1.0.0 MKL – slumpmässig 1.0.1
mleap 0.8.1 modeller 2.0.0 msgpack 0.5.6
nbconvert 5.3.1 nbformat 4.4.0 networkx 2.2
näsa 1.3.7 näsa-exkludera 0.5.0 numba 0.38.0 +0. g2a2b772fc. Dirty
numpy 1.14.3 olefile 0.45.1 openpyxl 2.5.3
Pandas 0.23.0 pandocfilters 1.4.2 paramiko 2.4.1
pathlib2 2.3.2 patsy 0.5.0 PBR 5.1.3
pexpect 4.5.0 pickleshare 0.7.4 Pillow 5.1.0
10.0.1 blad 3,11 prompt-Toolkit 1.0.15
protobuf 3.7.1 psutil 5.6.2 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.12.1 pyasn1 0.4.5
pycparser 2,18 Pygments 2.2.0 pymongo 3.8.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python – dateutil 2.7.3
pytz 2018,4 PyYAML 5,1 pyzmq 17.0.0
autentiseringsbegäran 2.18.4 s3transfer 0.1.13 scandir 1,7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
installations verktyg 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
sex 1.11.0 statsmodels 0.9.0 subprocess32 3.5.4
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 torch 0.4.1
torchvision 0.2.1 Storm 5.0.2 tqdm 4.32.1
traceback2 1.4.0 traitlets 4.3.2 unittest2 1.1.0
urllib3 1,22 virtuell miljö 16.0.0 wcwidth 0.1.7
webbkodningar 0.5.1 Werkzeug 0.14.1 hjul 0.31.1
figursatta 1.10.11 wsgiref 0.1.2

Dessutom innehåller följande Spark-paket python-moduler:

Spark-paket Python-modul Version
graphframes graphframes 0.7.0-DB1-Spark 2.4
Spark-djupgående-inlärning sparkdl 1.5.0-DB3-Spark 2.4
tensorframes tensorframes 0.6.0-s_2.11

R-bibliotek

R-biblioteken är identiska med r-biblioteken i Databricks Runtime 5,4.

Java-och Scala-bibliotek (Scala 2,11-kluster)

Förutom Java-och Scala-biblioteken i Databricks Runtime 5,4 innehåller Databricks Runtime 5,4 ML följande jar v7:

Grupp-ID Artefakt-ID Version
com. databricks Spark-djupgående-inlärning 1.5.0-DB3-Spark 2.4
com. typesafe. Akka Akka-actor_2.11 2.3.11
ml. förbrännings. mleap mleap-databricks-runtime_2.11 0.13.0
ml. dmlc xgboost4j 0,81
ml. dmlc xgboost4j-Spark 0,81
org. graphframes graphframes_2.11 0.7.0-DB1-Spark 2.4
org. tensorflow libtensorflow 1.12.0
org. tensorflow libtensorflow_jni 1.12.0
org. tensorflow Spark-tensorflow-connector_2.11 1.12.0
org. tensorflow tensorflow 1.12.0
org. tensorframes tensorframes 0.6.0-s_2.11