Databricks Runtime 9.0 för Machine Learning

Databricks släppte den här bilden i augusti 2021.

Databricks Runtime 9.0 för Machine Learning är en färdig miljö för maskininlärning och datavetenskap som bygger på Databricks Runtime 9.0 och Databricks Runtime 9.0 Photon. Databricks Runtime ML innehåller många populära maskininlärningsbibliotek, inklusive TensorFlow, PyTorch och XGBoost. Det stöder även distribuerad djupinlärningsträning med Horovod.

Mer information, inklusive anvisningar för att skapa ett Databricks Runtime ML kluster, finns i Databricks Runtime för Machine Learning.

Korrigering

En tidigare version av denna viktiga information angav att stöd för övervakning av kluster-GPU-mått med Ganglia inaktiverades i Databricks Runtime 9.0 ML GPU. Det stämmer för Databricks Runtime 9.0 ML Beta, men problemet åtgärdades med Databricks Runtime 9.0 ML GA. -instruktionen har tagits bort.

Nya funktioner och förbättringar

Databricks Runtime 9.0 ML bygger på Databricks Runtime 9.0. Information om vad som är nytt i Databricks Runtime 9.0, inklusive Apache Spark MLlib och SparkR, se versionerna Databricks Runtime 9.0 och Databricks Runtime 9.0 Photon.

Databricks Autologging (allmänt tillgängliga förhandsversion)

Databricks Autologging är nu tillgängligt för Databricks Runtime 9.0 för Machine Learning i utvalda regioner. Databricks Autologging är en kodad lösning som tillhandahåller automatisk experimentspårning för maskininlärningsträningssessioner på Azure Databricks. Med Databricks Autologging samlas modellparametrar, mått, filer och härledningsinformation automatiskt in när du tränar modeller från en mängd olika populära maskininlärningsbibliotek. Träningssessioner registreras som MLflow-spårningskörningar. Modellfiler spåras också så att du enkelt kan logga dem till MLflow Model Registry och distribuera dem för realtidsbedömning med MLflow Model Serving.

Mer information om Databricks Autologging finns i Databricks Autologging.

Förbättringar av Databricks-funktionslagret

Prestanda när du skapar en träningsuppsättning har förbättrats genom att minimera antalet kopplingar mellan källfunktionstabeller.

XGBoost-integrering med PySpark stöder nu distribuerad träning och GPU-kluster

Mer information finns i Integrering med Spark MLlib (Python).

Större ändringar i Databricks Runtime ML Python-miljö

Conda-miljöer, tillsammans med kommandot %conda, tas bort. Databricks Runtime 9.0 ML med pip och virtualenv . Anpassade avbildningar som använder Conda-baserade miljöer med Databricks Container Services kommer fortfarande att stödjas, men kommer inte att ha biblioteksfunktioner med notebook-omfång. Databricks rekommenderar att du använder virtualenv-baserade miljöer med Databricks Container Services och %pip för alla bibliotek med notebook-omfång.

Se Databricks Runtime 9.0 och Databricks Runtime 9.0 Photon för de större ändringarna i Databricks Runtime Python-miljön. En fullständig lista över installerade Python-paket och deras versioner finns i Python-bibliotek.

Python-paket har uppgraderats

  • mlflow 1.18.0 – > 1.19.0
  • nltk 3.5 – > 3.6.1

Python-paket har lagts till

  • 1.0.1

Python-paket har tagits bort

  • MKL
  • azure-core
  • azure-storage-blob
  • msrest
  • Docker
  • querystring-parser
  • intel-openmp

Utfasningar och funktioner som inte stöds

  • I Databricks Runtime 9.0 ML HorovodRunner inte inställningen , där är antalet parallella processer som ska användas för np=0np Horovod-jobbet.
  • Databricks Runtime 9.0 ML r-base 4.1.0 med R-grafikmotor version 14. Detta stöds inte av RStudio Server version 1.2.x.
  • nvproftas bort i Databricks Runtime 9.0 ML GPU.

Systemmiljö

Systemmiljön i Databricks Runtime 9.0 ML från Databricks Runtime 9.0 enligt följande:

Bibliotek

I följande avsnitt listas de bibliotek som ingår i Databricks Runtime 9.0 ML som skiljer sig från dem ingår i Databricks Runtime 9.0.

I det här avsnittet:

Bibliotek på toppnivå

Databricks Runtime 9.0 ML innehåller följande bibliotek på den översta nivån:

Python-bibliotek

Databricks Runtime 9.0 ML Virtualenv för Python-pakethantering och innehåller många populära ML paket.

Förutom de paket som anges i följande avsnitt innehåller Databricks Runtime 9.0 ML även följande paket:

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db1
  • feature_store 0.3.3
  • automl 1.1.1

Python-bibliotek på CPU-kluster

Bibliotek Version Bibliotek Version Bibliotek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
Bcrypt 3.2.0 Blekmedel 3.3.0 boto3 1.16.7
botocore 1.19.7 Flaskhals 1.3.2 cachetools 4.2.2
Certifi 2020.12.5 Cffi 1.14.5 Chardet 4.0.0
klickar du på 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 convertdate 2.3.2 Kryptografi 3.4.7
Apparat 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 Dekoratör 5.0.6 defusedxml 0.7.1
Dill 0.3.2 diskcache 5.2.1 distlib 0.3.2
distributionsinformation 0.23ubuntu1 entrypoints 0.3 tillfälliga 4.0.0.2
facets-overview 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 Framtiden 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-sök 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
hijri-converter 2.1.3 Semester 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 idna 2,10 ImageHash 4.2.1
ipykernel 5.3.4 Ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-nightly 2.5.0.dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koalas 1.8.1 koreanska månskala 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 Månskala 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 une 0.8.4
mleap 0.17.0 mlflow-tany 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 Networkx 2.5 nltk 3.6.1
notebook-fil 6.3.0 nöj 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-opt-opt-optsum 3.3.0 Förpackning 20.9
Pandas 1.2.4 Pandas-profilering 3.0.0 pandocfilters 1.4.3
Paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.1 Pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Kudde 8.2.0 Pip 21.0.1
plotly 4.14.3 prometheus-client 0.10.1 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 Psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2.20
pydantic 1.8.2 Pygments 2.8.1 Pygobject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
Pyparsing 2.4.7 tagetsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 Begäranden 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Försöker 1.3.3
Rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
Setuptools 52.0.0 setuptools-git 1.2 Shap 0.39.0
Simplejson 3.17.2 Sex 1.15.0 utsnitt 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 Tabellform 0.8.7
tangled-up-in-unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 termin adobe 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 Fackla 1.9.0+cpu vision 0.10.0+cpu
Tornado 6.1 tqdm 4.59.0 egenskaper 5.0.5
skriva tillägg 3.7.4.3 crashson 4.0.2 obevakade uppgraderingar 0.1
urllib3 1.25.11 Virtualenv 20.4.1 Visioner 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 hjul 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2

Python-bibliotek på GPU-kluster

Bibliotek Version Bibliotek Version Bibliotek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
Bcrypt 3.2.0 Blekmedel 3.3.0 boto3 1.16.7
botocore 1.19.7 Flaskhals 1.3.2 cachetools 4.2.2
Certifi 2020.12.5 Cffi 1.14.5 Chardet 4.0.0
klickar du på 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 convertdate 2.3.2 Kryptografi 3.4.7
Apparat 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 Dekoratör 5.0.6 defusedxml 0.7.1
Dill 0.3.2 diskcache 5.2.1 distlib 0.3.2
distributionsinformation 0.23ubuntu1 entrypoints 0.3 tillfälliga 4.0.0.2
facets-overview 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 Framtiden 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-sök 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
hijri-converter 2.1.3 Semester 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 idna 2,10 ImageHash 4.2.1
ipykernel 5.3.4 Ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-nightly 2.5.0.dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koalas 1.8.1 koreanska månskala 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 Månskalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 distune 0.8.4
mleap 0.17.0 mlflow-tany 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 Networkx 2.5 nltk 3.6.1
notebook-fil 6.3.0 n nce 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-opt-opt-opt 3.3.0 Förpackning 20.9
Pandas 1.2.4 Pandas-profilering 3.0.0 pandocfilters 1.4.3
Paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.1 Pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Kudde 8.2.0 Pip 21.0.1
plotly 4.14.3 prometheus-client 0.11.0 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 Psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2.20
pydantic 1.8.2 Pygments 2.8.1 Pygobject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
Pyparsing 2.4.7 tagetsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 Begäranden 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Försöker 1.3.3
Rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
Setuptools 52.0.0 setuptools-git 1.2 Shap 0.39.0
Simplejson 3.17.2 Sex 1.15.0 utsnitt 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 Tabellform 0.8.7
tangled-up-in-unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 termin adobe 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 Fackla 1.9.0+cu111 vision 0.10.0+cu111
Tornado 6.1 tqdm 4.59.0 egenskaper 5.0.5
skriva tillägg 3.7.4.3 ujson 4.0.2 obevakade uppgraderingar 0.1
urllib3 1.25.11 Virtualenv 20.4.1 Visioner 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 hjul 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2

Spark-paket som innehåller Python-moduler

Spark-paket Python-modul Version
graphframes graphframes 0.8.1-db3-spark3.1

R-bibliotek

R-biblioteken är identiska med R-biblioteken i Databricks Runtime 9.0.

Java- och Scala-bibliotek (Scala 2.12-kluster)

Förutom Java- och Scala-bibliotek i Databricks Runtime 9.0 innehåller Databricks Runtime 9.0 ML följande JAR:

CPU-kluster

Grupp-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-kluster

Grupp-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0