Databricks Runtime 5.4-es Machine Learning (nem támogatott)

A Databricks 2019 júniusában tette közzé ezt a rendszerképet.

Databricks Runtime 5.4 for Machine Learning használatra kész környezetet biztosít a gépi tanuláshoz és az adattudományhoz az Databricks Runtime 5.4 (nem támogatott)alapján. Databricks Runtime ML gépi tanulási kódtárakat tartalmaz, például a TensorFlow-t, a PyTorch-t, a Kerast és az XGBoostot. Támogatja az elosztott mélytanulás betanítását is a Horovod használatával.

További információkért, beleértve a fürtök létrehozásával kapcsolatos utasításokat Databricks Runtime ML lásd: Databricks Runtime a Machine Learning.

Új funkciók

Databricks Runtime 5.4 ML az 5.4-es Databricks Runtime épül. Az 5.4-es Databricks Runtime újdonságokkal kapcsolatos információkért tekintse meg az Databricks Runtime 5.4 (nem támogatott) kibocsátási megjegyzéseit.

A kódtár frissítéseimellett Databricks Runtime 5.4-es ML a következő új funkciókat is tartalmazza:

Elosztott Hyperopt + automatizált MLflow-követés

Databricks Runtime 5.4-es ML bevezeti a Hyperopt új, Apache Spark-alapú implementációját a hiperparaméterek finomhangolásának méretezése és egyszerűsítése érdekében. Egy új TrialsSparkTrials osztályt vezetünk be a Hyperopt próbaverziós futtatás több gép és csomópont közötti elosztására a Apache Spark. Emellett a hangolási kísérleteket, valamint a hangolt hiperparamétereket és a célzott metrikákat a rendszer automatikusan naplózza az MLflow-futtatásokkal. Lásd: Hiperparaméterek párhuzamoshangolása a scikit-learn és az MLflow segítségével.

Fontos

Ez a funkció a nyilvános előzetes verzióban érhető el.

Apache Spark MLlib + automatizált MLflow-követés

Databricks Runtime 5.4-es ML támogatja az MLflow-futtatás automatikus naplózását a PySpark hangolási algoritmusok és a használatával illeszkedő modellek TrainValidationSplit esetében. Lásd: Apache Spark MLlib és az automatizált MLflow-követés. Ez a funkció az 5.4-es Databricks Runtime alapértelmezés szerint be van kapcsolva ML az 5.3-as Databricks Runtime viszont ML.

Fontos

Ez a funkció a nyilvános előzetes verzióban érhető el.

A HorovodRunner fejlesztései

A Horovodból a Spark-illesztőcsomópontra küldött kimenet mostantól látható a jegyzetfüzetcellákban.

XGBoost Python-csomag frissítése

Az XGBoost Python 0.80-as csomagja telepítve van.

Rendszerkörnyezet

Az 5.4-es Databricks Runtime rendszerkörnyezet ML az 5.4-es Databricks Runtime az alábbiak szerint:

  • Python:2.7.15 Python 2-fürtökhöz és 3.6.5 Python 3-fürtökhöz.
  • DBUtils:Databricks Runtime 5.4 ML nem tartalmazza a Könyvtár segédprogramot (dbutils.library).
  • GPU-fürtök esetén a következő NVIDIA GPU-kódtárak:
    • Tesla-illesztő 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

Könyvtárak

A következő szakaszok az 5.4-es Databricks Runtime kódtárait ML, amelyek eltérnek az 5.4-es Databricks Runtime kódtáraktól.

Legfelső szintű kódtárak

Databricks Runtime 5.4 ML a következő legfelső szintű kódtárakat tartalmazza:

Python-kódtárak

Databricks Runtime 5.4-es ML a Condát használja a Python-csomagkezeléshez. Ennek eredményeképpen jelentős különbségek vannak a telepített Python-kódtárakban a Databricks Runtime. Az alábbiakban a megadott Python-csomagok és -verziók teljes listája található, amelyek a Conda csomagkezelővel vannak telepítve.

Kódtár Verzió Kódtár Verzió Kódtár Verzió
absl-py 0.7.1 argparse 1.4.0 asn1crypto 0.24.0
Astor 0.7.1 backports-abc 0,5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.6 Fehérítő 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet (karakterkészlet) 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
Titkosítás 2.2.2 cycler 0.10.0 Cython 0.28.2
Dekoratőr 4.3.0 docutils 0.14 belépési pontok 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs (funcsigs) 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 Jövőben 0.17.1
Határidős 3.2.0 Gast 0.2.2 grpcio 1.12.1
h5py 2.8.0 horovod 0.16.0 html5lib 1.0.1
hyperopt 0.1.2.db4 idna 2,6 ipaddress (ipaddress) 1.0.22
ipython (ipython) 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
Jinja2 2.10 jmespath (jmespath) 0.9.4 jsonschema 2.6.0
jupyter-client 5.2.3 jupyter-core 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Keras-Preprocessing 1.0.9 kiwisolver 1.1.0
linecache2 1.0.0 llvmlite 0.23.1 lxml 4.2.1
Markdown 3.1.1 MarkupSafe 1.0 matplotlib 2.2.2
une 0.8.3 mkl-fft 1.0.0 mkl-random 1.0.1
mleap 0.8.1 Ál 2.0.0 msgpack 0.5.6
nbconvert 5.3.1 nbformat (formátum) 4.4.0 networkx (hálózat) 2,2
Orr 1.3.7 orr kizárása 0.5.0 1A 0.38.0+0.g2a2b772fc.dirty
numpy 1.14.3 olefile 0.45.1 openpyxl 2.5.3
pandas 0.23.0 pandocfilters 1.4.2 paramiko 2.4.1
pathlib2 2.3.2 Patsy 0.5.0 Pbr 5.1.3
pexpect 4.5.0 pickleshare 0.7.4 Párna 5.1.0
Pip 10.0.1 Réteg 3.11 prompt-toolkit 1.0.15
protobuf 3.7.1 psutil 5.6.2 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow (pyarrow) 0.12.1 pyasn1 0.4.5
pycparser 2.18 Pygments (Pygments) 2.2.0 pymongo 3.8.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing (pyparsing) 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 5,1 pyzmq 17.0.0
Kérelmek 2.18.4 s3transfer (s3-átküldés) 0.1.13 scandir 1.7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
setuptools (telepítésiösszegek) 39.1.0 simplegeneric (egyszerű általános) 0.8.1 singledispatch 3.4.0.3
Hat 1.11.0 statsmodels 0.9.0 alfolyamat32 3.5.4
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor (kifejezésszín) 1.1.0 testpath (tesztpath) 0.3.1 Fáklya 0.4.1
torchvision 0.2.1 Tornádó 5.0.2 tqdm 4.32.1
traceback2 1.4.0 jelmagok 4.3.2 unittest2 1.1.0
urllib3 1,22 virtualenv 16.0.0 wcwidth (wcwidth) 0.1.7
webencodings 0.5.1 Werkzeug 0.14.1 Kerék 0.31.1
wrapt (betörés) 1.10.11 wsgiref 0.1.2

Emellett az alábbi Spark-csomagok Python-modulokat is tartalmaznak:

Spark-csomag Python-modul Verzió
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db3-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

R-kódtárak

Az R-kódtárak megegyeznek az 5.4-esDatabricks Runtime R-kódtárakkal.

Java- és Scala-kódtárak (Scala 2.11-fürt)

Az 5.4-es Databricks Runtime Java- és Scala-kódtárai mellett Databricks Runtime 5.4-es ML is tartalmazza a következő JAR-eket:

Csoportazonosító Összetevő azonosítója Verzió
com.databricks spark-deep-learning 1.5.0-db3-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11