Databricks Runtime 5.4 dla Machine Learning (nieobsługiwane)

Ten obraz został wydany w czerwcu 2019 r. w uściślicie Databricks.

Databricks Runtime 5.4 for Machine Learning zapewnia gotowe do użycia środowisko do uczenia maszynowego i nauki o danych oparte na wersji Databricks Runtime 5.4 (nieobsługiwane). Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego, w tym TensorFlow, PyTorch, Keras i XGBoost. Obsługuje również rozproszone trenowania uczenia głębokiego przy użyciu horovod.

Aby uzyskać więcej informacji, w tym instrukcje dotyczące tworzenia klastra Databricks Runtime ML, zobacz Databricks Runtime for Machine Learning.

Nowe funkcje

Databricks Runtime 5.4 ML jest zbudowana na podstawie Databricks Runtime 5.4. Aby uzyskać informacje o nowościach w wersji ’ Databricks Runtime 5.4, zobacz ’ (nieobsługiwane).

Oprócz aktualizacji bibliotekiprogram Databricks Runtime 5.4 ML wprowadza następujące nowe funkcje:

Rozproszona funkcja Hyperopt i zautomatyzowane śledzenie biblioteki MLflow

Databricks Runtime 5.4 ML wprowadzono nową implementację funkcji Hyperopt obsługiwanej przez program Apache Spark w celu skalowania i upraszczania dostrajania hiperparametrów. Zaimplementowano Trials nową klasę w celu dystrybuowania przebiegów wersji próbnej programu Hyperopt między wieloma maszynami i węzłami przy SparkTrials użyciu Apache Spark. Ponadto wszystkie eksperymenty dostrajania wraz ze dostosowanymi hiperparametrami i metrykami docelowymi są automatycznie rejestrowane w przebiegach MLflow. Zobacz Parallelize hyperparameter tuning with scikit-learn and MLflow (Równoległość dostrajania hiperparametrów za pomocą bibliotek scikit-learn i MLflow).

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Apache Spark MLlib + zautomatyzowane śledzenie MLflow

Databricks Runtime 5.4 ML obsługuje automatyczne rejestrowanie przebiegów MLflow dla modeli dopasowanych przy użyciu algorytmów dostrajania PySpark i TrainValidationSplit . Zobacz Apache Spark MLlib i zautomatyzowane śledzenie MLflow. Ta funkcja jest domyślnie włączona w Databricks Runtime 5.4 ML, ale była domyślnie wyłączona w Databricks Runtime 5.3 ML.

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Ulepszenie horovodRunner

Dane wyjściowe wysyłane z platformy Horovod do węzła sterownika Spark są teraz widoczne w komórkach notesu.

Aktualizacja pakietu XGBoost języka Python

Zainstalowany jest pakiet XGBoost języka Python 0.80.

Środowisko systemu

Środowisko systemowe w programie Databricks Runtime 5.4 ML różni się od Databricks Runtime 5.4 w następujący sposób:

  • Python:2.7.15 dla klastrów języka Python 2 i 3.6.5 dla klastrów języka Python 3.
  • NARZĘDZIA DBUtils:Databricks Runtime 5.4 ML nie zawiera narzędzia biblioteka (dbutils.library).
  • W przypadku klastrów procesorów GPU są to następujące biblioteki procesorów GPU firmy NVIDIA:
    • Sterownik Tesla 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

Biblioteki

W poniższych sekcjach przedstawiono biblioteki zawarte w programie Databricks Runtime 5.4 ML, które różnią się od bibliotek dostępnych w Databricks Runtime 5.4.

Biblioteki najwyższego poziomu

Databricks Runtime 5.4 ML zawiera następujące biblioteki najwyższego poziomu:

Biblioteki języka Python

Databricks Runtime 5.4 ML Conda do zarządzania pakietami w języku Python. W związku z tym istnieją znaczne różnice w zainstalowanych bibliotekach języka Python w porównaniu Databricks Runtime. Poniżej znajduje się pełna lista dostępnych pakietów i wersji języka Python zainstalowanych przy użyciu menedżera pakietów Conda.

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
absl-py 0.7.1 argparse 1.4.0 asn1crypto 0.24.0
Astor 0.7.1 backports-abc 0,5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.6 Bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
Kryptografii 2.2.2 Cycler 0.10.0 Cython 0.28.2
Dekorator 4.3.0 docutils 0.14 punkty wejścia 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 Przyszłości 0.17.1
Futures 3.2.0 Gast 0.2.2 grpcio 1.12.1
h5py 2.8.0 horovod 0.16.0 html5lib 1.0.1
hyperopt 0.1.2.db4 Idna 2,6 Ipaddress 1.0.22
Ipython 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
Jinja2 2,10 jmespath 0.9.4 jsonschema 2.6.0
jupyter-client 5.2.3 jupyter-core 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Keras-Preprocessing 1.0.9 kiwisolver 1.1.0
linecache2 1.0.0 llvmlite 0.23.1 Lxml 4.2.1
Znaczniki języka Markdown 3.1.1 MarkupSafe 1.0 matplotlib 2.2.2
wytrenuj 0.8.3 mkl-fft 1.0.0 mkl-random 1.0.1
mleap 0.8.1 Makiety 2.0.0 msgpack 0.5.6
nbconvert 5.3.1 nbformat 4.4.0 networkx 2,2
Nos 1.3.7 wykluczanie z nosów 0.5.0 numba 0.38.0+0.g2a2b772fc.dirty
numpy 1.14.3 olefile 0.45.1 openpyxl 2.5.3
Pandas 0.23.0 pandocfilters 1.4.2 paramiko 2.4.1
pathlib2 2.3.2 Patsy 0.5.0 Pbr 5.1.3
pexpect 4.5.0 pickleshare 0.7.4 Poduszkę 5.1.0
Pip 10.0.1 Ply 3.11 prompt-toolkit 1.0.15
protobuf 3.7.1 psutil 5.6.2 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.12.1 pyasn1 0.4.5
pycparser 2.18 Pygments 2.2.0 pymongo 3.8.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 5,1 pyzmq 17.0.0
Żądania 2.18.4 s3transfer 0.1.13 scandir 1.7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
Sześć 1.11.0 statsmodels 0.9.0 podproces32 3.5.4
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 ścieżka testowa 0.3.1 Palnika 0.4.1
torchvision 0.2.1 Tornado 5.0.2 tqdm 4.32.1
traceback2 1.4.0 traitlets 4.3.2 unittest2 1.1.0
urllib3 1,22 Virtualenv 16.0.0 wcwidth 0.1.7
webencodings 0.5.1 Przejmij 0.14.1 kółko 0.31.1
wrapt 1.10.11 wsgiref 0.1.2

Ponadto następujące pakiety Spark obejmują moduły języka Python:

Pakiet Platformy Spark Moduł języka Python Wersja
graphframes (ramki grafów) graphframes (ramki grafów) 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db3-spark2.4
tensorframes tensorframes 0.6.0–s_2.11

Biblioteki R

Biblioteki R są identyczne z bibliotekami R w programie Databricks Runtime 5.4.

Biblioteki Java i Scala (klaster Scala 2.11)

Oprócz bibliotek Java i Scala w wersji Databricks Runtime 5.4 Databricks Runtime 5.4 ML następujące pliki JAR:

Identyfikator grupy Identyfikator artefaktu Wersja
com.databricks spark-deep-learning 1.5.0-db3-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0–s_2.11