適用於 ML 的 Databricks Runtime 10.2 (不支援)
Databricks 於 2021 年 12 月發行此映射。
Databricks Runtime 10.2 for 機器學習 根據 Databricks Runtime 10.2 (不支援)提供機器學習和數據科學的現成環境。 Databricks Runtime ML 包含許多熱門的機器學習連結庫,包括 TensorFlow、PyTorch 和 XGBoost。 Databricks Runtime ML 包含 AutoML,這是自動定型機器學習管線的工具。 Databricks Runtime ML 也支援使用 Horovod 的分散式深度學習訓練。
如需詳細資訊,包括建立 Databricks Runtime ML 叢集的指示,請參閱 Databricks 上的 AI 和 機器學習。
新功能和改善
Databricks Runtime 10.2 ML 建置在 Databricks Runtime 10.2 之上。 如需 Databricks Runtime 10.2 新功能的相關信息,包括 Apache Spark MLlib 和 SparkR,請參閱 Databricks Runtime 10.2 (不支援) 版本資訊。
Databricks 自動記錄 (公開預覽)
Databricks 自動記錄功能現已在所有區域中處於公開預覽狀態。 Databricks 自動記錄是一種無程式代碼解決方案,可為 Azure Databricks 上的機器學習訓練課程提供自動實驗追蹤。 當您從各種熱門機器學習連結庫定型模型時,會自動擷取 Databricks 自動記錄、模型參數、計量、檔案和譜系資訊。 訓練會話會記錄為 MLflow 追蹤執行。 模型檔案也會追蹤,以便您可以輕鬆地將其記錄到 MLflow 模型登錄,並加以部署,以使用 MLflow 模型服務進行即時評分。
如需 Databricks 自動記錄的詳細資訊,請參閱 Databricks Autologging。
Databricks AutoML 的增強功能
Databricks AutoML 已增強下列功能。
- AutoML 會忽略只有單一值的數據行。
- 針對分類和回歸問題,用來將數據集分割成定型、驗證和測試集的時間數據行現在可以是字串類型。 先前只支持時間戳和整數。 如需詳細資訊,請參閱 將數據分割成定型/驗證/測試集 。
Databricks 功能存放區的增強功能
Databricks 功能存放區已增強下列功能。
簡化的 FeatureStoreClient
介面
FeatureStoreClient 介面已簡化。
FeatureStoreClient.create_feature_table()
已被取代。 請改用FeatureStoreClient.create_table()
。FeatureStoreClient.get_feature_table()
已被取代。 請改用FeatureStoreClient.get_table()
。- 和以外的
name
online_store
所有自變數FeatureStoreClient.publish_table()
都必須傳遞為關鍵詞自變數。
僅將選取的數據行發佈至在線商店
Databricks 功能存放區現在僅支援將選取的數據行發佈至在線商店。 如需詳細資訊,請參閱 將選取的功能發佈至在線商店。
Databricks Runtime ML Python 環境的重大變更
Databricks Runtime 10.1 ML 中已被取代的 Apache Spark MLlib 自動化 MLflow 追蹤整合現在預設會在 Databricks Runtime 10.2 ML 中停用。 它已由 MLflow 的 PySpark ML 自動記錄整合所取代,預設會使用 Databricks Autologging 來啟用。 自動記錄除了擷取 MLlib 的自動化 MLflow 追蹤之外的其他資訊,包括與最佳模型相關聯的參數、計量和成品。
已升級 Python 套件
- databricks-cli 0.14.3 => 0.16.2
- keras 2.6.0 => 2.7.0
- lightgbm 3.3.0 => 3.3.1
- mlflow 1.21.0 => 1.22.0
- plotly 5.3.0 => 5.3.1
- shap 0.39.0 => 0.40.0
- spacy 3.1.3 => 3.2.0
- tensorboard 2.6.0 => 2.7.0
- tensorflow 2.6.0 => 2.7.0
- torch 1.9.1 => 1.10.0
- torchvision 0.10.1 => 0.11.1
- transformers 4.11.3 => 4.12.3
- xgboost 1.4.2 => 1.5.0
系統環境
Databricks Runtime 10.2 ML 中的系統環境與 Databricks Runtime 10.2 不同,如下所示:
- DBUtils:D atabricks Runtime ML 不包含 連結庫公用程式 (dbutils.library) (legacy)。
請改用
%pip
命令。 請參閱 筆記本範圍的 Python 連結庫。 - 針對 GPU 叢集,Databricks Runtime ML 包含下列 NVIDIA GPU 連結庫:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
程式庫
下列各節列出 Databricks Runtime 10.2 ML 中包含的連結庫,與 Databricks Runtime 10.2 中包含的連結庫不同。
本節內容:
頂層連結庫
Databricks Runtime 10.2 ML 包含下列最上層 連結庫:
- GraphFrames
- Horovod 和 HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Python 程式庫
Databricks Runtime 10.2 ML 使用 Virtualenv 進行 Python 套件管理,並包含許多熱門 ML 套件。
除了下列各節中指定的套件之外,Databricks Runtime 10.2 ML 也包含下列套件:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.6
- automl 1.5.0
CPU 叢集上的 Python 連結庫
程式庫 | 版本 | 程式庫 | 版本 | 程式庫 | 版本 |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
幸福 | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | 目錄 | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | 按一下 | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | 密碼編譯 | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.4 |
databricks-cli | 0.16.2 | dbus-python | 1.2.16 | decorator | 5.0.6 |
defusedxml | 0.7.1 | dill | 0.3.2 | diskcache | 5.2.1 |
distlib | 0.3.3 | distro-info | 0.23ubuntu1 | entrypoints | 0.3 |
ephem | 4.1.1 | facets-overview | 1.0.0 | fasttext | 0.9.2 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 2.0 |
fsspec | 0.9.0 | future | 0.18.2 | gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | gviz-api | 1.10.0 | h5py | 3.1.0 |
hijri-converter | 2.2.2 | 假日 | 0.11.3.1 | horovod | 0.23.0 |
htmlmin | 0.1.12 | huggingface-hub | 0.1.2 | idna | 2.10 |
ImageHash | 4.2.1 | 不平衡學習 | 0.8.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.7.0 | Keras-Preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | koalas | 1.8.2 | 韓曆月曆 | 0.2.1 |
langcodes | 3.3.0 | libclang | 12.0.0 | lightgbm | 3.3.1 |
llvmlite | 0.37.0 | LunarCalendar | 0.0.9 | Mako | 1.1.3 |
Markdown | 3.3.3 | MarkupSafe | 2.0.1 | matplotlib | 3.4.2 |
missingno | 0.5.0 | mistune | 0.8.4 | mleap | 0.18.1 |
mlflow-skinny | 1.22.0 | multimethod | 1.6 | murmurhash | 1.0.5 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
notebook | 6.3.0 | numba | 0.54.1 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | 封裝 | 21.3 |
pandas | 1.2.4 | pandas-profiling | 3.1.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | pathy | 0.6.0 |
patsy | 0.5.1 | petastorm | 0.11.3 | pexpect | 4.8.0 |
phik | 0.12.0 | pickleshare | 0.7.5 | Pillow | 8.2.0 |
pip | 21.0.1 | plotly | 5.3.1 | preshed | 3.0.5 |
prometheus-client | 0.10.1 | prompt-toolkit | 3.0.17 | prophet | 1.0.1 |
protobuf | 3.17.2 | psutil | 5.8.0 | psycopg2 | 2.8.5 |
ptyprocess | 0.7.0 | pyarrow | 4.0.0 | pyasn1 | 0.4.8 |
pyasn1-modules | 0.2.8 | pybind11 | 2.8.1 | pycparser | 2.20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.4.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | 火熱 | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | python-editor | 1.0.4 |
python-engineio | 4.3.0 | python-socketio | 5.4.1 | pytz | 2020.5 |
PyWavelets | 1.1.1 | PyYAML | 5.4.1 | pyzmq | 20.0.0 |
RegEx | 2021.4.4 | requests | 2.25.1 | requests-oauthlib | 1.3.0 |
requests-unixsocket | 0.2.0 | rsa | 4.7.2 | s3transfer | 0.3.7 |
sacremoses | 0.0.46 | scikit-learn | 0.24.1 | scipy | 1.6.2 |
seaborn | 0.11.1 | Send2Trash | 1.5.0 | setuptools | 52.0.0 |
setuptools-git | 1.2 | shap | 0.40.0 | simplejson | 3.17.2 |
六次 | 1.15.0 | slicer | 0.0.7 | smart-open | 5.2.0 |
smmap | 3.0.5 | spacy | 3.2.0 | spacy-legacy | 3.0.8 |
spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 |
srsly | 2.4.1 | ssh-import-id | 5.10 | statsmodels | 0.12.2 |
tabulate | 0.8.7 | tangled-up-in-unicode | 0.1.0 | tenacity | 6.2.0 |
tensorboard | 2.7.0 | tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 |
tensorboard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.7.0 | tensorflow-estimator | 2.7.0 |
tensorflow-io-gcs-filesystem | 0.22.0 | termcolor | 1.1.0 | terminado | 0.9.4 |
testpath | 0.4.4 | thinc | 8.0.12 | threadpoolctl | 2.1.0 |
tokenizers | 0.10.3 | 火炬 | 1.10.0+cpu | torchvision | 0.11.1+cpu |
tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
變壓器 | 4.12.3 | typer | 0.3.2 | typing-extensions | 3.7.4.3 |
ujson | 4.0.2 | 自動升級 | 0.1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | 願景 | 0.7.4 | 芥末 | 0.8.2 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | wheel | 0.36.2 | widgetsnbextension | 3.5.1 |
wrapt | 1.12.1 | xgboost | 1.5.0 | zipp | 3.4.1 |
GPU 叢集上的 Python 連結庫
程式庫 | 版本 | 程式庫 | 版本 | 程式庫 | 版本 |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
幸福 | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | 目錄 | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | 按一下 | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | 密碼編譯 | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.4 |
databricks-cli | 0.16.2 | dbus-python | 1.2.16 | decorator | 5.0.6 |
defusedxml | 0.7.1 | dill | 0.3.2 | diskcache | 5.2.1 |
distlib | 0.3.3 | distro-info | 0.23ubuntu1 | entrypoints | 0.3 |
ephem | 4.1.1 | facets-overview | 1.0.0 | fasttext | 0.9.2 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 2.0 |
fsspec | 0.9.0 | future | 0.18.2 | gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | gviz-api | 1.10.0 | h5py | 3.1.0 |
hijri-converter | 2.2.2 | 假日 | 0.11.3.1 | horovod | 0.23.0 |
htmlmin | 0.1.12 | huggingface-hub | 0.1.2 | idna | 2.10 |
ImageHash | 4.2.1 | 不平衡學習 | 0.8.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.7.0 | Keras-Preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | koalas | 1.8.2 | 韓曆月曆 | 0.2.1 |
langcodes | 3.3.0 | libclang | 12.0.0 | lightgbm | 3.3.1 |
llvmlite | 0.37.0 | LunarCalendar | 0.0.9 | Mako | 1.1.3 |
Markdown | 3.3.3 | MarkupSafe | 2.0.1 | matplotlib | 3.4.2 |
missingno | 0.5.0 | mistune | 0.8.4 | mleap | 0.18.1 |
mlflow-skinny | 1.22.0 | multimethod | 1.6 | murmurhash | 1.0.5 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
notebook | 6.3.0 | numba | 0.54.1 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | 封裝 | 21.3 |
pandas | 1.2.4 | pandas-profiling | 3.1.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | pathy | 0.6.0 |
patsy | 0.5.1 | petastorm | 0.11.3 | pexpect | 4.8.0 |
phik | 0.12.0 | pickleshare | 0.7.5 | Pillow | 8.2.0 |
pip | 21.0.1 | plotly | 5.3.1 | preshed | 3.0.5 |
prompt-toolkit | 3.0.17 | prophet | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.8.1 | pycparser | 2.20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
火熱 | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 |
python-dateutil | 2.8.1 | python-editor | 1.0.4 | python-engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | RegEx | 2021.4.4 |
requests | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
rsa | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
shap | 0.40.0 | simplejson | 3.17.2 | 六次 | 1.15.0 |
slicer | 0.0.7 | smart-open | 5.2.0 | smmap | 3.0.5 |
spacy | 3.2.0 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | srsly | 2.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabulate | 0.8.7 |
tangled-up-in-unicode | 0.1.0 | tenacity | 6.2.0 | tensorboard | 2.7.0 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.0 |
tensorflow | 2.7.0 | tensorflow-estimator | 2.7.0 | tensorflow-io-gcs-filesystem | 0.22.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | testpath | 0.4.4 |
thinc | 8.0.12 | threadpoolctl | 2.1.0 | tokenizers | 0.10.3 |
火炬 | 1.10.0+cu111 | torchvision | 0.11.1+cu111 | tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | 變壓器 | 4.12.3 |
typer | 0.3.2 | typing-extensions | 3.7.4.3 | ujson | 4.0.2 |
自動升級 | 0.1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
願景 | 0.7.4 | 芥末 | 0.8.2 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
wheel | 0.36.2 | widgetsnbextension | 3.5.1 | wrapt | 1.12.1 |
xgboost | 1.5.0 | zipp | 3.4.1 |
包含 Python 模組的 Spark 套件
Spark 套件 | Python 模組 | 版本 |
---|---|---|
graphframes | graphframes | 0.8.2-db1-spark3.2 |
R 程式庫
R 連結庫與 Databricks Runtime 10.2 中的 R 連結庫 相同。
Java 和 Scala 連結庫 (Scala 2.12 叢集)
除了 Databricks Runtime 10.2 中的 Java 和 Scala 連結庫之外,Databricks Runtime 10.2 ML 還包含下列 JAR:
CPU 叢集
群組識別碼 | 成品標識碼 | 版本 |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.22.0 |
org.mlflow | mlflow-spark | 1.22.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
GPU 叢集
群組識別碼 | 成品標識碼 | 版本 |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.22.0 |
org.mlflow | mlflow-spark | 1.22.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |