用于机器学习的 Databricks Runtime 9.0

Databricks 于 2021 年 8 月发布了此映像。

用于机器学习的 Databricks Runtime 9.0 基于 Databricks Runtime 9.0 和 Databricks Runtime 9.0 Photon,为机器学习和数据科学提供了随时可用的环境。 Databricks Runtime ML 包含许多常用的机器学习库,包括 TensorFlow、PyTorch 和 XGBoost。 它还支持使用 Horovod 进行分布式深度学习训练。

有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅用于机器学习的 Databricks Runtime

更正

这些发行说明的先前版本指出,Databricks Runtime 9.0 ML GPU 不支持使用 Ganglia 监视群集 GPU 指标。 这在 Databricks Runtime 9.0 ML Beta 中确实如此,但该问题已在 Databricks Runtime 9.0 ML GA 中得以解决。 该声明已删除。

新增功能和改进

Databricks Runtime 9.0 ML 基于 Databricks Runtime 9.0 构建。 若要了解 Databricks Runtime 9.0 中的新增功能,包括 Apache Spark MLlib 和 SparkR,请参阅 Databricks Runtime 9.0 和 Databricks Runtime 9.0 Photon 发行说明。

Databricks Autologging (公开预览版)

Databricks Autologging 现在可用于选择区域中机器学习的 Databricks Runtime 9.0。 Databricks Autologging 是一个无代码解决方案,它为 Azure Databricks 上的机器学习培训会话提供自动试验跟踪。 使用 Databricks Autologging 时,当你从各种常见的机器学习库训练模型时,会自动捕获模型参数、指标、文件和沿袭信息。 训练会话作为 MLflow 跟踪运行记录。 还会跟踪模型文件,以便你可以轻松地将它们记录到 MLflow 模型注册表 ,并部署这些文件以通过 MLflow 模型提供实时评分。

有关 Databricks Autologging 的详细信息,请参阅 Databricks Autologging

对 Databricks 特征存储的改进

通过最大程度地减少跨源特征表的联接数,提高了创建训练集时的性能。

与 PySpark 的 XGBoost 集成现在支持分布式训练和 GPU 群集

有关详细信息,请参阅与 Spark MLlib 集成 (Python)

Databricks Runtime ML Python 环境的主要更改

删除了 Conda 环境和 %conda 命令。 Databricks Runtime 9.0 ML 是通过 pipvirtualenv 生成的。 结合使用基于 Conda 的环境和 Databricks 容器服务的自定义映像仍将受支持,但不会具有笔记本范围的库功能。 Databricks 建议将基于 virtualenv 的环境与 Databricks 容器服务和 %pip 一起用于所有笔记本范围的库。

如需了解 Databricks Runtime Python 环境的主要更改,请参阅 Databricks Runtime 9.0 和 Databricks Runtime 9.0 Photon。 如需查看已安装的 Python 包及其版本的完整列表,请参阅 Python 库

升级的 Python 包

  • mlflow 1.18.0- > 1.19。0
  • nltk 3.5- > 3.6。1

添加的 Python 包

  • prophet 1.0.1

删除的 Python 包

  • MKL
  • azure-core
  • azure-storage-blob
  • msrest
  • docker
  • querystring-parser
  • intel-openmp

弃用功能和不支持的功能

  • 在 Databricks Runtime 9.0 ML 中,HorovodRunner 不支持设置 np=0,其中 np 是用于 Horovod 作业的并行进程数。
  • Databricks Runtime 9.0 ML 包含 R-base 4.1.0 以及 R 图形引擎版本 14。 RStudio Server 版本 1.2. x 不支持此内容。
  • Databricks Runtime 9.0 ML GPU 中删除了 nvprof

系统环境

Databricks Runtime 9.0 ML 中的系统环境在以下方面不同于 Databricks Runtime 9.0:

以下部分列出了 Databricks Runtime 9.0 ML 中包含的库,这些库不同于 Databricks Runtime 9.0 中包含的库。

本节内容:

顶层库

Databricks Runtime 9.0 ML 包含以下顶层

Python 库

Databricks Runtime 9.0 ML 使用 Virtualenv 进行 Python 包管理,并且包含许多常用的 ML 包。

除了在下列部分中指定的包外,Databricks Runtime 9.0 ML 还包括以下包:

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db1
  • feature_store 0.3.3
  • automl 1.1.1

CPU 群集上的 Python 库

版本 版本 版本
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async 生成器 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bleach 3.3.0 boto3 1.16.7
botocore 1.19.7 Bottleneck 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
单击 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 convertdate 2.3.2 密码系统 3.4.7
cycler 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbu-python 1.2.16 decorator 5.0.6 defusedxml 0.7.1
dill 0.3.2 diskcache 5.2.1 distlib 0.3.2
distro-info 0.23ubuntu1 entrypoints 0.3 ephem 4.0.0.2
facets-overview 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 future 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
回历 2.1.3 holidays 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-小组件 1.0.1 keras-每夜 2.5.0. dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.1 朝鲜农历-历 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
asyncio 1.5.1 networkx 2.5 nltk 3.6.1
笔记本 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 选择-einsum 3.3.0 打包 20.9
pandas 1.2.4 pandas-分析 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 patsy 0.5.1
petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Pillow 8.2.0 pip 21.0.1
plotly 4.14.3 prometheus-client 0.10.1 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2.20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 tentsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 请求 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 正在重试 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.39.0
simplejson 3.17.2 6 1.15.0 slicer 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulate 0.8.7
混杂-unicode 0.1.0 tensorboard 2.5.0 tensorboard-数据服务器 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 torch 1.9.0 + cpu torchvision 0.10.0 + cpu
tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
typing-extensions 3.7.4.3 ujson 4.0.2 unattended-upgrades 0.1
urllib3 1.25.11 virtualenv 20.4.1 长远 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2

GPU 群集上的 Python 库

版本 版本 版本
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async 生成器 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bleach 3.3.0 boto3 1.16.7
botocore 1.19.7 Bottleneck 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
单击 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 convertdate 2.3.2 密码系统 3.4.7
cycler 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbu-python 1.2.16 decorator 5.0.6 defusedxml 0.7.1
dill 0.3.2 diskcache 5.2.1 distlib 0.3.2
distro-info 0.23ubuntu1 entrypoints 0.3 ephem 4.0.0.2
facets-overview 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 future 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
回历 2.1.3 holidays 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-小组件 1.0.1 keras-每夜 2.5.0. dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.1 朝鲜农历-历 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
asyncio 1.5.1 networkx 2.5 nltk 3.6.1
笔记本 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 选择-einsum 3.3.0 打包 20.9
pandas 1.2.4 pandas-分析 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 patsy 0.5.1
petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Pillow 8.2.0 pip 21.0.1
plotly 4.14.3 prometheus-client 0.11.0 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2.20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 tentsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 请求 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 正在重试 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.39.0
simplejson 3.17.2 6 1.15.0 slicer 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulate 0.8.7
unicode 中的 tangled-up-in-unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 torch 1.9.0+cu111 torchvision 0.10.0+cu111
tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
typing-extensions 3.7.4.3 ujson 4.0.2 unattended-upgrades 0.1
urllib3 1.25.11 virtualenv 20.4.1 愿景 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2

包含 Python 模块的 Spark 包

Spark 包 Python 模块 版本
graphframes graphframes 0.8.1-db3-spark3.1

R 库

R 库与 Databricks Runtime 9.0 中的 R 库完全相同。

Java 库和 Scala 库(Scala 2.12 群集)

除了 Databricks Runtime 9.0 中的 Java 库和 Scala 库,Databricks Runtime 9.0 ML 还包含以下 JAR:

CPU 群集

组 ID 项目 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU 群集

组 ID 项目 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0