Databricks Runtime 9.0 für Machine Learning

Databricks hat dieses Image im August 2021 veröffentlicht.

Databricks Runtime 9.0 für Machine Learning bietet eine einsatzbereite Umgebung für Maschinelles Lernen und Data Science, die auf Databricks Runtime 9.0 und Databricks Runtime 9.0 Photonbasiert. Databricks Runtime ML enthält viele beliebte Machine Learning-Bibliotheken, einschließlich TensorFlow, PyTorch und XGBoost. Es unterstützt auch verteiltes Deep Learning-Training mit Horovod.

Weitere Informationen, einschließlich Anweisungen zum Erstellen eines Databricks Runtime ML-Clusters, finden Sie unter Databricks Runtime für Machine Learning.

Korrektur

In einer früheren Version dieser Versionshinweise wurde angegeben, dass die Unterstützung für die Überwachung von CLUSTER-GPU-Metriken mit Ganglia in Databricks Runtime 9.0 ML GPU deaktiviert wurde. Dies gilt für Databricks Runtime 9.0 ML Betaversion, aber das Problem wurde mit Databricks Runtime 9.0 ML GA behoben. Die Anweisung wurde entfernt.

Neue Features und Verbesserungen

Databricks Runtime 9.0-ML basiert auf Databricks Runtime 9.0. Informationen zu neuerungen in Databricks Runtime 9.0, einschließlich Apache Spark MLlib und SparkR, finden Sie in den Anmerkungen zu den Photonen Databricks Runtime 9.0 und Databricks Runtime 9.0.

Automatische Databricks-Public Preview

Die automatische Databricks-Logging ist jetzt für Databricks Runtime 9.0 für Machine Learning in ausgewählten Regionen verfügbar. Die automatische Databricks-Protokollierung ist eine Codefreie Lösung, die eine automatische Experimentnachverfolgung für Machine Learning-Trainingssitzungen auf Azure Databricks ermöglicht. Mit der automatischen Databricks-Analyse werden Modellparameter, Metriken, Dateien und Informationen zur Linie automatisch erfasst, wenn Sie Modelle aus einer Vielzahl beliebter Machine Learning-Bibliotheken trainieren. Trainingssitzungen werden als MLflow-Nachverfolgungsläufeaufgezeichnet. Modelldateien werden ebenfalls nachverfolgt, sodass Sie sie problemlos in der MLflow-Modellregistrierung protokollieren und für die Echtzeitbewertung mit MLflow Model Servingbereitstellen können.

Weitere Informationen zur automatischen Databricks-Logging finden Sie unter Databricks Autologging.

Verbesserungen am Databricks-Feature Store

Die Leistung beim Erstellen eines Trainingssatzes wurde verbessert, indem die Anzahl von Joins in quellübergreifenden Featuretabellen minimiert wurde.

Die XGBoost-Integration mit PySpark unterstützt jetzt verteiltes Training und GPU-Cluster.

Weitere Informationen finden Sie unter Integration mit Spark MLlib (Python).

Wichtige Änderungen an Databricks Runtime ML Python-Umgebung

Conda-Umgebungen werden zusammen mit dem %conda-Befehl entfernt. Databricks Runtime 9.0 ML wird mit und pipvirtualenv erstellt. Benutzerdefinierte Images, die Conda-basierte Umgebungen mit Databricks Container Services verwenden, werden weiterhin unterstützt, verfügen aber nicht über Bibliotheksfunktionen im Notebookbereich. Databricks empfiehlt die Verwendung virtualenv-basierter Umgebungen mit Databricks Container Services und %pip für alle Bibliotheken im Notebookbereich.

Die wichtigsten Änderungen an der Databricks Runtime Python-Umgebung finden Sie unter Databricks Runtime 9.0 und Databricks Runtime 9.0 Photon. Eine vollständige Liste der installierten Python-Pakete und deren Versionen finden Sie unter Python-Bibliotheken.

Python-Pakete aktualisiert

  • mlflow 1.18.0 - > 1.19.0
  • nltk 3.5 - > 3.6.1

Python-Pakete hinzugefügt

  • js 1.0.1

Entfernte Python-Pakete

  • MKL
  • azure-core
  • azure-storage-blob
  • msrest
  • docker
  • querystring-parser
  • intel-openmp

Veraltete und nicht unterstützte Features

  • In Databricks Runtime 9.0-ML unterstützt HorovodRunner das Festlegen np=0 von nicht, wobei np die Anzahl paralleler Prozesse ist, die für den Horovod-Auftrag verwendet werden sollen.
  • Databricks Runtime 9.0 ML enthält r-base 4.1.0 mit R-Grafik-Engine Version 14. Dies wird von RStudio Server Version 1.2.x nicht unterstützt.
  • nvprofwird in Databricks Runtime 9.0 ML GPU entfernt.

Systemumgebung

Die Systemumgebung in Databricks Runtime 9.0 ML unterscheidet sich von Databricks Runtime 9.0 wie folgt:

Bibliotheken

In den folgenden Abschnitten werden die bibliotheken aufgeführt, die in Databricks Runtime 9.0-ML enthalten sind und sich von denen in Databricks Runtime 9.0 unterscheiden.

In diesem Abschnitt

Bibliotheken der obersten Ebene

Databricks Runtime 9.0-ML enthält die folgenden Bibliothekender obersten Ebene:

Python-Bibliotheken

Databricks Runtime 9.0-ML verwendet Virtualenv für die Python-Paketverwaltung und enthält viele beliebte ML Pakete.

Zusätzlich zu den in den folgenden Abschnitten angegebenen Paketen enthält Databricks Runtime 9.0 ML auch die folgenden Pakete:

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db1
  • feature_store 0.3.3
  • automl 1.1.1

Python-Bibliotheken in CPU-Clustern

Bibliothek Version Bibliothek Version Bibliothek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
asynchroner Generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bleach 3.3.0 boto3 1.16.7
botocore 1.19.7 Bottleneck 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
click 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 convertdate 2.3.2 Kryptografie 3.4.7
cycler 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 decorator 5.0.6 defusedxml 0.7.1
dill 0.3.2 diskcache 5.2.1 distlib 0.3.2
Distributionsinformationen 0.23ubuntu1 entrypoints 0,3 kurzlebig 4.0.0.2
Übersicht über Facets 1.0.0 filelock 3.0.12 Flask 1.1.2
Flatbuffers 1.12 fsspec 0.9.0 future 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
hijri-converter 2.1.3 Feiertage 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-nightly 2.5.0.dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.1 korean-lunar-calendar 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
Notebook 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Packen 20.9
Pandas 1.2.4 Pandas-Profilerstellung 3.0.0 pandocfilters 1.4.3
Paramiko 2.7.2 parso 0.7.0 patsy 0.5.1
petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Pillow 8.2.0 pip 21.0.1
plotly 4.14.3 prometheus-client 0.10.1 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 -NSISTENT 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 Python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 requests 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 retrying 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.39.0
Simplejson 3.17.2 sechs 1.15.0 Datenschnitt 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulate 0.8.7
tangled-up-in-unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 torch 1.9.0+CPU torchvision 0.10.0+CPU
tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
typing-extensions 3.7.4.3 ujson 4.0.2 unbeaufsichtigte Upgrades 0.1
urllib3 1.25.11 Virtualenv 20.4.1 Visionen 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 Xgboost 1.4.2

Python-Bibliotheken in GPU-Clustern

Bibliothek Version Bibliothek Version Bibliothek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
asynchroner Generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bleach 3.3.0 boto3 1.16.7
botocore 1.19.7 Bottleneck 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
click 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 convertdate 2.3.2 Kryptografie 3.4.7
cycler 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 decorator 5.0.6 defusedxml 0.7.1
dill 0.3.2 diskcache 5.2.1 distlib 0.3.2
Distributionsinformationen 0.23ubuntu1 entrypoints 0,3 kurzlebig 4.0.0.2
Übersicht über Facets 1.0.0 filelock 3.0.12 Flask 1.1.2
Flatbuffers 1.12 fsspec 0.9.0 future 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
hijri-converter 2.1.3 Feiertage 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-nightly 2.5.0.dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.1 korean-lunar-calendar 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
Notebook 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Packen 20.9
Pandas 1.2.4 Pandas-Profilerstellung 3.0.0 pandocfilters 1.4.3
Paramiko 2.7.2 parso 0.7.0 patsy 0.5.1
petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Pillow 8.2.0 pip 21.0.1
plotly 4.14.3 prometheus-client 0.11.0 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 -NSISTENT 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 Python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 requests 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 retrying 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.39.0
Simplejson 3.17.2 sechs 1.15.0 Datenschnitt 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulate 0.8.7
tangled-up-in-unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 torch 1.9.0+cu111 torchvision 0.10.0+cu111
tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
typing-extensions 3.7.4.3 ujson 4.0.2 unbeaufsichtigte Upgrades 0.1
urllib3 1.25.11 Virtualenv 20.4.1 Visionen 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 Xgboost 1.4.2

Spark-Pakete mit Python-Modulen

Spark-Paket Python-Modul Version
Graphframes Graphframes 0.8.1-db3-spark3.1

R-Bibliotheken

Die R-Bibliotheken sind mit den R-Bibliotheken in Databricks Runtime 9.0 identisch.

Java- und Scala-Bibliotheken (Scala 2.12-Cluster)

Zusätzlich zu den Java- und Scala-Bibliotheken in Databricks Runtime 9.0 enthält Databricks Runtime 9.0 ML die folgenden JARs:

CPU-Cluster

Gruppen-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-Cluster

Gruppen-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0