適用於 ML 的 Databricks Runtime 5.4 (不支援)
Databricks 於 2019 年 6 月發行此映射。
Databricks Runtime 5.4 for 機器學習 提供以 Databricks Runtime 5.4 為基礎的機器學習和數據科學的現成環境(不支援)。 Databricks Runtime ML 包含許多熱門機器學習連結庫,包括 TensorFlow、PyTorch、Keras 和 XGBoost。 它也支援使用 Horovod 的分散式深度學習訓練。
如需詳細資訊,包括建立 Databricks Runtime ML 叢集的指示,請參閱 Databricks 上的 AI 和 機器學習。
新功能
Databricks Runtime 5.4 ML 建置在 Databricks Runtime 5.4 之上。 如需 Databricks Runtime 5.4 新功能的詳細資訊,請參閱 Databricks Runtime 5.4(不支援) 版本資訊。
除了 連結庫更新之外,Databricks Runtime 5.4 ML 還引進了下列新功能:
分散式 Hyperopt + 自動化 MLflow 追蹤
Databricks Runtime 5.4 ML 引進由 Apache Spark 提供的新 Hyperopt 實作,以調整和簡化超參數微調。 實作新的 Trials
類別 SparkTrials
,以使用Apache Spark在多部機器和節點之間散發 Hyperopt 試用版執行。 此外,所有微調實驗,以及微調的超參數和目標計量,都會自動記錄至 MLflow 執行。 請參閱 使用 scikit-learn 和 MLflow 平行化超參數微調。
重要
這項功能處於公開預覽狀態。
Apache Spark MLlib + 自動化 MLflow 追蹤
Databricks Runtime 5.4 ML 支援針對使用 PySpark 微調演演算法CrossValidator
和 TrainValidationSplit
適合的模型自動記錄 MLflow 執行。 請參閱 Apache Spark MLlib 和自動化 MLflow 追蹤。 這項功能預設在 Databricks Runtime 5.4 ML 中開啟,但在 Databricks Runtime 5.3 ML 中預設為關閉。
重要
這項功能處於公開預覽狀態。
HorovodRunner 改善
從 Horovod 傳送至 Spark 驅動程式節點的輸出現在會顯示在筆記本數據格中。
XGBoost Python 套件更新
已安裝 XGBoost Python 套件 0.80。
系統環境
Databricks Runtime 5.4 ML 中的系統環境與 Databricks Runtime 5.4 不同,如下所示:
- Python:適用於 Python 2 叢集的 2.7.15,Python 3 叢集為 3.6.5。
- DBUtils:Databricks Runtime 5.4 ML 不包含 連結庫公用程式 (dbutils.library) (legacy)。
- 針對 GPU 叢集,下列 NVIDIA GPU 連結庫:
- 特斯拉司機 396.44
- CUDA 9.2
- CUDNN 7.2.1
圖書館
下列各節列出 Databricks Runtime 5.4 ML 中包含的連結庫,與 Databricks Runtime 5.4 中包含的連結庫不同。
頂層連結庫
Databricks Runtime 5.4 ML 包含下列最上層 連結庫:
Python 程式庫
Databricks Runtime 5.4 ML 使用 Conda 進行 Python 套件管理。 因此,相較於 Databricks Runtime,已安裝的 Python 連結庫有主要差異。 以下是使用 Conda 套件管理員所安裝之 Python 套件和版本的完整清單。
程式庫 | 版本 | 程式庫 | 版本 | 程式庫 | 版本 |
---|---|---|---|---|---|
absl-py | 0.7.1 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
astor | 0.7.1 | backports-abc | 0.5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.post1 | bcrypt | 3.1.6 | bleach | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
cloudpickle | 0.5.3 | colorama | 0.3.9 | configparser | 3.5.0 |
密碼編譯 | 2.2.2 | cycler | 0.10.0 | Cython | 0.28.2 |
decorator | 4.3.0 | docutils | 0.14 | entrypoints | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | future | 0.17.1 |
期貨 | 3.2.0 | gast | 0.2.2 | grpcio | 1.12.1 |
h5py | 2.8.0 | horovod | 0.16.0 | html5lib | 1.0.1 |
hyperopt | 0.1.2.db4 | idna | 2.6 | ipaddress | 1.0.22 |
ipython | 5.7.0 | ipython_genutils | 0.2.0 | jdcal | 1.4 |
Jinja2 | 2.10 | jmespath | 0.9.4 | jsonschema | 2.6.0 |
jupyter-client | 5.2.3 | jupyter-core | 4.4.0 | Keras | 2.2.4 |
Keras-Applications | 1.0.7 | Keras-Preprocessing | 1.0.9 | kiwisolver | 1.1.0 |
linecache2 | 1.0.0 | llvmlite | 0.23.1 | lxml | 4.2.1 |
Markdown | 3.1.1 | MarkupSafe | 1.0 | matplotlib | 2.2.2 |
mistune | 0.8.3 | mkl-fft | 1.0.0 | mkl-random | 1.0.1 |
mleap | 0.8.1 | mock | 2.0.0 | msgpack | 0.5.6 |
nbconvert | 5.3.1 | nbformat | 4.4.0 | networkx | 2.2 |
鼻子 | 1.3.7 | 鼻子排除 | 0.5.0 | numba | 0.38.0+0.g2a2b772fc.dirty |
numpy | 1.14.3 | olefile | 0.45.1 | openpyxl | 2.5.3 |
pandas | 0.23.0 | pandocfilters | 1.4.2 | paramiko | 2.4.1 |
pathlib2 | 2.3.2 | patsy | 0.5.0 | Pbr | 5.1.3 |
pexpect | 4.5.0 | pickleshare | 0.7.4 | Pillow | 5.1.0 |
pip | 10.0.1 | 層 | 3.11 | prompt-toolkit | 1.0.15 |
protobuf | 3.7.1 | psutil | 5.6.2 | psycopg2 | 2.7.5 |
ptyprocess | 0.5.2 | pyarrow | 0.12.1 | pyasn1 | 0.4.5 |
pycparser | 2.18 | Pygments | 2.2.0 | pymongo | 3.8.0 |
PyNaCl | 1.3.0 | pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 |
PySocks | 1.6.8 | Python | 2.7.15 | python-dateutil | 2.7.3 |
pytz | 2018.4 | PyYAML | 5.1 | pyzmq | 17.0.0 |
requests | 2.18.4 | s3transfer | 0.1.13 | scandir | 1.7 |
scikit-learn | 0.19.1 | scipy | 1.1.0 | seaborn | 0.8.1 |
setuptools | 39.1.0 | simplegeneric | 0.8.1 | singledispatch | 3.4.0.3 |
六次 | 1.11.0 | statsmodels | 0.9.0 | subprocess32 | 3.5.4 |
tensorboard | 1.12.2 | tensorboardX | 1.6 | tensorflow | 1.12.0 |
termcolor | 1.1.0 | testpath | 0.3.1 | 火炬 | 0.4.1 |
torchvision | 0.2.1 | tornado | 5.0.2 | tqdm | 4.32.1 |
traceback2 | 1.4.0 | traitlets | 4.3.2 | unittest2 | 1.1.0 |
urllib3 | 1.22 | virtualenv | 16.0.0 | wcwidth | 0.1.7 |
webencodings | 0.5.1 | Werkzeug | 0.14.1 | wheel | 0.31.1 |
wrapt | 1.10.11 | wsgiref | 0.1.2 |
此外,下列 Spark 套件包含 Python 模組:
Spark 套件 | Python 模組 | 版本 |
---|---|---|
graphframes | graphframes | 0.7.0-db1-spark2.4 |
spark-deep-learning | sparkdl | 1.5.0-db3-spark2.4 |
tensorframes | tensorframes | 0.6.0-s_2.11 |
R 程式庫
R 連結庫與 Databricks Runtime 5.4 中的 R 連結庫相同。
Java 和 Scala 連結庫 (Scala 2.11 叢集)
除了 Databricks Runtime 5.4 中的 Java 和 Scala 連結庫之外,Databricks Runtime 5.4 ML 還包含下列 JAR:
群組識別碼 | 成品標識碼 | 版本 |
---|---|---|
com.databricks | spark-deep-learning | 1.5.0-db3-spark2.4 |
com.typesafe.akka | akka-actor_2.11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0.81 |
ml.dmlc | xgboost4j-spark | 0.81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-spark2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | tensorflow | 1.12.0 |
org.tensorframes | tensorframes | 0.6.0-s_2.11 |