適用於 ML 的 Databricks Runtime 10.1 (不支援)
Databricks Runtime 10.1 for 機器學習 提供以 Databricks Runtime 10.1 (不支援)為基礎的機器學習和數據科學的現成環境。 Databricks Runtime ML 包含許多熱門的機器學習連結庫,包括 TensorFlow、PyTorch 和 XGBoost。 它也支援使用 Horovod 的分散式深度學習訓練。
如需詳細資訊,包括建立 Databricks Runtime ML 叢集的指示,請參閱 Databricks 上的 AI 和 機器學習。
新功能和改善
Databricks Runtime 10.1 ML 建置在 Databricks Runtime 10.1 之上。 如需 Databricks Runtime 10.1 新功能的相關信息,包括 Apache Spark MLlib 和 SparkR,請參閱 Databricks Runtime 10.1(不支援) 版本資訊。
Databricks AutoML 的增強功能
在 Databricks Runtime 10.1 中,Databricks AutoML 包含改善的語意類型偵測、訓練期間潛在數據問題的新警示、防止過度學習模型的新功能,以及將輸入數據集分割成定型、驗證和測試集的時間順序。
其他語意類型偵測
AutoML 現在支援其他語意類型偵測:
- 包含類別標籤的數值數據行會被視為類別類型。
- 包含英文文字的字串數據行會被視為文字功能。
您現在可以新增批注來指定資料行資料類型。 如需詳細資訊,請參閱 語意類型偵測。
定型期間潛在數據問題的警示
AutoML 現在會偵測併產生數據集潛在問題的警示。 範例警示包括不支持的數據行類型和高基數數據行。 這些警示會出現在實驗頁面的 [新增警示] 索引標籤底下。數據探索筆記本中包含警示的其他資訊。 如需詳細資訊,請參閱 執行實驗並監視結果。
降低模型過度學習
使用 AutoML 時,有兩項新功能可減少過度學習模型的機會:
- AutoML 現在會報告驗證和定型計量的其他測試計量。
- AutoML 現在使用早期停止。 如果驗證計量不再改善,它會停止定型和微調模型。
以時間順序將數據集分割成定型/驗證/測試集
針對分類和回歸問題,您可以依時間順序將數據集分割成定型、驗證和測試集。 如需詳細資訊,請參閱 將數據分割成定型/驗證/測試集 。
Databricks 功能存放區的增強功能
Databricks 功能存放區現在支援功能資料表的其他資料類型: BinaryType
、 DecimalType
和 MapType
。
Mlflow
從 Mlflow 1.21.0 版開始,下列改進功能已包含在 Databricks Runtime 10.1 ML 中。
- [模型]
fastai
升級模型類別以支援 fastai v2 (2.4.1 和更新版本)。 - [模型]介紹先知時間序列模型的 mlflow.prophet 模型類別。
- [評分]修正架構強制錯誤,錯誤地將類似日期的字串轉換成 datetime 物件。
Hyperopt
SparkTrials
現在支持 early_stopping_fn
的參數 fmin
。 您可以使用早期停止函式來指定 Hyperopt 在達到評估數目上限之前應該停止超參數微調的條件。 例如,如果目標函式不再減少,您可以使用此參數結束微調。 如需詳細資訊,請參閱 fmin()。
Databricks Runtime ML Python 環境的重大變更
已升級 Python 套件
- automl 1.3.1 => 1.4.1
- feature_store 0.3.4 => 0.3.5
- holidays 0.11.2 => 0.11.3.1
- horovod 0.22.1 => 0.23.0
- hyperopt 0.2.5.db2 => 0.2.5.db4
- 不平衡-learn 0.8.0 => 0.8.1
- lightgbm 3.1.1 => 3.3.0
- mlflow 1.20.2 => 1.21.0
- petastorm 0.11.2 => 0.11.3
- plotly 5.1.0 => 5.3.0
- pytorch 1.9.0 => 1.9.1
- spacy 3.1.2 => 3.1.3
- sparkdl 2.2.0_db3 => 2.2.0_db4
- torchvision 0.10.0 => 0.10.1
- transformers 4.9.2 => 4.11.3
已新增 Python 套件
- fasttext => 0.9.2
- tensorboard-plugin-profile => 2.5.0
棄用項目
在執行 Databricks Runtime 10.1 ML 和更新版本之叢集上,MLlib 自動化 MLflow 追蹤 已被取代。 請改為呼叫 mlflow.pyspark.ml.autolog()
來使用 MLflow PySpark ML 自動記錄。 Databricks Autologging 預設會啟用自動記錄。
系統環境
Databricks Runtime 10.1 ML 中的系統環境與 Databricks Runtime 10.1 不同,如下所示:
- DBUtils:D atabricks Runtime ML 不包含 連結庫公用程式 (dbutils.library) (legacy)。
請改用
%pip
命令。 請參閱 筆記本範圍的 Python 連結庫。 - 針對 GPU 叢集,Databricks Runtime ML 包含下列 NVIDIA GPU 連結庫:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
程式庫
下列各節列出 Databricks Runtime 10.1 ML 中包含的連結庫,與 Databricks Runtime 10.1 中包含的連結庫不同。
本節內容:
頂層連結庫
Databricks Runtime 10.1 ML 包含下列最上層 連結庫:
- GraphFrames
- Horovod 和 HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Python 程式庫
Databricks Runtime 10.1 ML 使用 Virtualenv 進行 Python 套件管理,並包含許多熱門 ML 套件。
除了下列各節中指定的套件之外,Databricks Runtime 10.1 ML 也包含下列套件:
- hyperopt 0.2.5.db4
- sparkdl 2.2.0-db4
- feature_store 0.3.5
- automl 1.4.0
注意
Databricks Runtime 10.1 ML 包含 scikit-learn 0.24 版,而不是因為不相容問題而改用 1.0 版。 scikit-learn 套件會與 Databricks Runtime 10.1 ML 中的許多其他套件互動。
您可以升級至 scikit-learn 1.0 版;不過,Databricks 不支援此版本。
若要升級,請使用 筆記本範圍的連結庫。 從筆記本執行 %pip install --upgrade "scikit-learn>=1.0,<1.1"
。
替代方法是使用此 叢集 init 腳稿:
#!/bin/bash
set -e
pip install --upgrade "scikit-learn>=1.0,<1.1"
CPU 叢集上的 Python 連結庫
程式庫 | 版本 | 程式庫 | 版本 | 程式庫 | 版本 |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bleach | 3.3.0 | 幸福 | 0.7.4 |
boto3 | 1.16.7 | botocore | 1.19.7 | cachetools | 4.2.4 |
目錄 | 2.0.6 | certifi | 2020.12.5 | cffi | 1.14.5 |
chardet | 4.0.0 | 鐺 | 5.0 | 按一下 | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | 密碼編譯 | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.3 |
databricks-cli | 0.14.3 | dbus-python | 1.2.16 | decorator | 5.0.6 |
defusedxml | 0.7.1 | dill | 0.3.2 | diskcache | 5.2.1 |
distlib | 0.3.3 | distro-info | 0.23ubuntu1 | entrypoints | 0.3 |
ephem | 4.1 | facets-overview | 1.0.0 | fasttext | 0.9.2 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 1.12 |
fsspec | 0.9.0 | future | 0.18.2 | gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | gviz-api | 1.10.0 | h5py | 3.1.0 |
hijri-converter | 2.2.2 | 假日 | 0.11.3.1 | horovod | 0.23.0 |
htmlmin | 0.1.12 | huggingface-hub | 0.0.19 | idna | 2.10 |
ImageHash | 4.2.1 | 不平衡學習 | 0.8.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.6.0 | Keras-Preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | koalas | 1.8.2 | 韓曆月曆 | 0.2.1 |
lightgbm | 3.3.0 | llvmlite | 0.37.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | mistune | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.21.0 | multimethod | 1.6 |
murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | notebook | 6.3.0 | numba | 0.54.1 |
numpy | 1.19.2 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
封裝 | 20.9 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
pathy | 0.6.0 | patsy | 0.5.1 | petastorm | 0.11.3 |
pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
Pillow | 8.2.0 | pip | 21.0.1 | plotly | 5.3.0 |
preshed | 3.0.5 | prometheus-client | 0.10.1 | prompt-toolkit | 3.0.17 |
prophet | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.8.0 |
pycparser | 2.20 | pydantic | 1.8.2 | Pygments | 2.8.1 |
PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.4.0 |
pyodbc | 4.0.30 | pyparsing | 2.4.7 | 火熱 | 0.17.3 |
pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 |
python-editor | 1.0.4 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | RegEx | 2021.4.4 |
requests | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
rsa | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
shap | 0.39.0 | simplejson | 3.17.2 | 六次 | 1.15.0 |
slicer | 0.0.7 | smart-open | 5.2.0 | smmap | 3.0.5 |
spacy | 3.1.3 | spacy-legacy | 3.0.8 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.1 | srsly | 2.4.1 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | tabulate | 0.8.7 | tangled-up-in-unicode | 0.1.0 |
tenacity | 6.2.0 | tensorboard | 2.6.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.6.0 |
tensorflow-estimator | 2.6.0 | termcolor | 1.1.0 | terminado | 0.9.4 |
testpath | 0.4.4 | thinc | 8.0.9 | threadpoolctl | 2.1.0 |
tokenizers | 0.10.3 | 火炬 | 1.9.1+cpu | torchvision | 0.10.1+cpu |
tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
變壓器 | 4.11.3 | typer | 0.3.2 | typing-extensions | 3.7.4.3 |
ujson | 4.0.2 | 自動升級 | 0.1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | 願景 | 0.7.4 | 芥末 | 0.8.2 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | wheel | 0.36.2 | widgetsnbextension | 3.5.1 |
wrapt | 1.12.1 | xgboost | 1.4.2 | zipp | 3.4.1 |
GPU 叢集上的 Python 連結庫
程式庫 | 版本 | 程式庫 | 版本 | 程式庫 | 版本 |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bleach | 3.3.0 | 幸福 | 0.7.4 |
boto3 | 1.16.7 | botocore | 1.19.7 | cachetools | 4.2.4 |
目錄 | 2.0.6 | certifi | 2020.12.5 | cffi | 1.14.5 |
chardet | 4.0.0 | 鐺 | 5.0 | 按一下 | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | 密碼編譯 | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.3 |
databricks-cli | 0.14.3 | dbus-python | 1.2.16 | decorator | 5.0.6 |
defusedxml | 0.7.1 | dill | 0.3.2 | diskcache | 5.2.1 |
distlib | 0.3.3 | distro-info | 0.23ubuntu1 | entrypoints | 0.3 |
ephem | 4.1 | facets-overview | 1.0.0 | fasttext | 0.9.2 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 1.12 |
fsspec | 0.9.0 | future | 0.18.2 | gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | gviz-api | 1.10.0 | h5py | 3.1.0 |
hijri-converter | 2.2.2 | 假日 | 0.11.3.1 | horovod | 0.23.0 |
htmlmin | 0.1.12 | huggingface-hub | 0.0.19 | idna | 2.10 |
ImageHash | 4.2.1 | 不平衡學習 | 0.8.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.6.0 | Keras-Preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | koalas | 1.8.2 | 韓曆月曆 | 0.2.1 |
lightgbm | 3.3.0 | llvmlite | 0.37.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | mistune | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.21.0 | multimethod | 1.6 |
murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | notebook | 6.3.0 | numba | 0.54.1 |
numpy | 1.19.2 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
封裝 | 20.9 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
pathy | 0.6.0 | patsy | 0.5.1 | petastorm | 0.11.3 |
pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
Pillow | 8.2.0 | pip | 21.0.1 | plotly | 5.3.0 |
preshed | 3.0.5 | prompt-toolkit | 3.0.17 | prophet | 1.0.1 |
protobuf | 3.17.2 | psutil | 5.8.0 | psycopg2 | 2.8.5 |
ptyprocess | 0.7.0 | pyarrow | 4.0.0 | pyasn1 | 0.4.8 |
pyasn1-modules | 0.2.8 | pybind11 | 2.8.1 | pycparser | 2.20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.4.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | 火熱 | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | python-editor | 1.0.4 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | RegEx | 2021.4.4 | requests | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | rsa | 4.7.2 |
s3transfer | 0.3.7 | sacremoses | 0.0.46 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | shap | 0.39.0 |
simplejson | 3.17.2 | 六次 | 1.15.0 | slicer | 0.0.7 |
smart-open | 5.2.0 | smmap | 3.0.5 | spacy | 3.1.3 |
spacy-legacy | 3.0.8 | spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 |
srsly | 2.4.1 | ssh-import-id | 5.10 | statsmodels | 0.12.2 |
tabulate | 0.8.7 | tangled-up-in-unicode | 0.1.0 | tenacity | 6.2.0 |
tensorboard | 2.6.0 | tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 |
tensorboard-plugin-wit | 1.8.0 | tensorflow | 2.6.0 | tensorflow-estimator | 2.6.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | testpath | 0.4.4 |
thinc | 8.0.9 | threadpoolctl | 2.1.0 | tokenizers | 0.10.3 |
火炬 | 1.9.1+cu111 | torchvision | 0.10.1+cu111 | tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | 變壓器 | 4.11.3 |
typer | 0.3.2 | typing-extensions | 3.7.4.3 | ujson | 4.0.2 |
自動升級 | 0.1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
願景 | 0.7.4 | 芥末 | 0.8.2 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
wheel | 0.36.2 | widgetsnbextension | 3.5.1 | wrapt | 1.12.1 |
xgboost | 1.4.2 | zipp | 3.4.1 |
包含 Python 模組的 Spark 套件
Spark 套件 | Python 模組 | 版本 |
---|---|---|
graphframes | graphframes | 0.8.2-db1-spark3.2 |
R 程式庫
R 連結庫與 Databricks Runtime 10.1 中的 R 連結庫 相同。
Java 和 Scala 連結庫 (Scala 2.12 叢集)
除了 Databricks Runtime 10.1 中的 Java 和 Scala 連結庫之外,Databricks Runtime 10.1 ML 還包含下列 JAR:
CPU 叢集
群組識別碼 | 成品標識碼 | 版本 |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-spark_2.12 | 1.4.1 |
ml.dmlc | xgboost4j_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db6-spark3.2 |
org.mlflow | mlflow-client | 1.20.2 |
org.mlflow | mlflow-spark | 1.20.2 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
GPU 叢集
群組識別碼 | 成品標識碼 | 版本 |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-gpu_2.12 | 1.4.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.4.1-spark3.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.21.0 |
org.mlflow | mlflow-spark | 1.21.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |