Databricks Runtime 10.4 LTS pro machine Učení

Databricks Runtime 10.4 LTS pro strojové Učení poskytuje připravené prostředí pro strojové učení a datové vědy založené na databricks Runtime 10.4 LTS. Databricks Runtime ML obsahuje mnoho oblíbených knihoven strojového učení, včetně TensorFlow, PyTorch a XGBoost. Databricks Runtime ML zahrnuje AutoML, nástroj pro automatické trénování kanálů strojového učení. Databricks Runtime ML také podporuje distribuované trénování hlubokého učení pomocí Horovodu.

Poznámka:

LTS znamená, že tato verze je dlouhodobě podporována. Viz životní cyklus verze LTS modulu Databricks Runtime.

Další informace, včetně pokynů k vytvoření clusteru Databricks Runtime ML, najdete v tématu AI a machine Učení v Databricks.

Nové funkce a vylepšení

Databricks Runtime 10.4 LTS ML je postaven na Databricks Runtime 10.4 LTS. Informace o novinkách v Databricks Runtime 10.4 LTS, včetně Apache Spark MLlib a SparkR, najdete v poznámkách k verzi Databricks Runtime 10.4 LTS .

Vylepšení Databricks AutoML

V Databricks AutoML jsme provedli následující vylepšení.

Databricks AutoML je obecně dostupný.

Od Databricks Runtime 10.4 LTS ML je databricks AutoML obecně dostupný.

Imputace chybějících hodnot

Teď můžete určit, jak jsou imputovány hodnoty null. AutoML ve výchozím nastavení vybere metodu imputace na základě typu sloupce a obsahu. Viz Imputace chybějících hodnot.

Výběr sloupce z uživatelského rozhraní

U problémů s klasifikací a regresí teď můžete pomocí uživatelského rozhraní kromě rozhraní API určit sloupce, které by autoML mělo během výpočtů ignorovat. Podrobnosti najdete v části Výběr sloupce.

Nový datový typ

AutoML teď podporuje číselné typy polí.

Vlastní umístění vygenerovaných poznámkových bloků a experimentu

Teď můžete zadat umístění v pracovním prostoru, kde by autoML mělo ukládat vygenerované poznámkové bloky a experimenty. experiment_dir Použijte parametr. Viz parametry klasifikace a regrese.

Vylepšení úložiště funkcí Databricks

V úložišti funkcí Databricks jsme provedli následující vylepšení.

Prostředí systému

Systémové prostředí v Databricks Runtime 10.4 LTS ML se liší od Databricks Runtime 10.4 LTS následujícím způsobem:

Knihovny

Následující části obsahují seznam knihoven zahrnutých v Databricks Runtime 10.4 LTS ML, které se liší od knihoven zahrnutých v Databricks Runtime 10.4 LTS.

V této části:

Knihovny nejvyšší úrovně

Databricks Runtime 10.4 LTS ML obsahuje následující knihovny nejvyšší úrovně:

Knihovny Pythonu

Databricks Runtime 10.4 LTS ML používá virtualenv pro správu balíčků Pythonu a obsahuje mnoho oblíbených balíčků ML.

Kromě balíčků uvedených v následujících částech obsahuje Databricks Runtime 10.4 LTS ML také následující balíčky:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.8
  • automl 1.7.2

Knihovny Pythonu v clusterech procesorů

Pokud chcete reprodukovat prostředí Databricks Runtime ML Python v místním virtuálním prostředí Pythonu, stáhněte si soubor requirements-10.4.txt a spusťte pip install -r requirements-10.4.txt. Tento příkaz nainstaluje všechny opensourcové knihovny, které Databricks Runtime ML používá, ale nenainstaluje knihovny vyvinuté v Azure Databricks, například databricks-automl, databricks-feature-storenebo fork Databricks fork hyperopt.

Knihovna Verze Knihovna Verze Knihovna Verze
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
šifra 3.2.0 bidict 0.21.4 Bělidla 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 Katalog 2.0.6 Certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 kliknutí 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 Kryptografie 3.4.7 Cyklovač 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
Databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
Dekoratér 5.0.6 defusedxml 0.7.1 Kopr 0.3.2
diskcache 5.2.1 distlib 0.3.4 informace o distribuci 0.23ubuntu1
vstupní body 0.3 ephem 4.1.3 přehled omezujících vlastností 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 Budoucnosti 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.3 Dovolená 0.12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 nevyvážené učení 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
jehodangerous 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgety 1.0.0 keras 2.8.0
Předběžné zpracování Kerasu 1.1.2 verizonsolver 1.3.1 Koaly 1.8.2
korejský lunární kalendář 0.2.1 langcodes 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 LunárníCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 Revize Sejf 2.0.1
matplotlib 3.4.2 missingno 0.5.1 špatně zamyšlení 0.8.4
mleap 0.18.1 mlflow-hubená 1.24.0 multimethod 1,7
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 poznámkový blok 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
Obalu 21.3 pandas 1.2.4 profilace pandas 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 Patsy 0.5.1 petastorm 0.11.4
pexpect 4.8.0 Phik 0.12.0 pickleshare 0.7.5
Polštář 8.2.0 Pip 21.0.1 plotly 5.5.0
pmdarima 1.8.4 předběžně připravený 3.0.5 prometheus-client 0.10.1
prompt-toolkit 3.0.17 Prorok 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.1 pycparser 2,20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7
python-dateutil 2.8.1 python-editor 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 Regex 2021.4.4
žádosti 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
Shap 0.40.0 simplejson 3.17.2 Šest 1.15.0
Průřezu 0.0.7 inteligentní otevření 5.2.0 smmap 3.0.5
spacy 3.2.1 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulková tabulka 0.8.7
tangled-up-in-unicode 0.1.0 Houževnatost 6.2.0 tensorboard 2.8.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.8.0 tensorflow-estimator 2.8.0 tensorflow-io-gcs-filesystem 0.24.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
tf-estimator-nightly 2.8.0.dev2021122109 tenká 8.0.12 threadpoolctl 2.1.0
tokenizátory 0.10.3 Pochodeň 1.10.2+cpu torchvision 0.11.3+cpu
Tornádo 6.1 tqdm 4.59.0 vlastnosti 5.0.5
Transformátory 4.16.2 Typer 0.3.2 typing-extensions 3.7.4.3
ujson 4.0.2 bezobslužné upgrady 0,1 urllib3 1.25.11
virtualenv 20.4.1 Vize 0.7.4 Wasabi 0.8.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 Kolo 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.5.2 zipp 3.4.1

Knihovny Pythonu v clusterech GPU

Knihovna Verze Knihovna Verze Knihovna Verze
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
šifra 3.2.0 bidict 0.21.4 Bělidla 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 Katalog 2.0.6 Certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 kliknutí 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 Kryptografie 3.4.7 Cyklovač 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
Databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
Dekoratér 5.0.6 defusedxml 0.7.1 Kopr 0.3.2
diskcache 5.2.1 distlib 0.3.4 informace o distribuci 0.23ubuntu1
vstupní body 0.3 ephem 4.1.3 přehled omezujících vlastností 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 Budoucnosti 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.3 Dovolená 0.12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 nevyvážené učení 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
jehodangerous 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgety 1.0.0 keras 2.8.0
Předběžné zpracování Kerasu 1.1.2 verizonsolver 1.3.1 Koaly 1.8.2
korejský lunární kalendář 0.2.1 langcodes 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 LunárníCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 Revize Sejf 2.0.1
matplotlib 3.4.2 missingno 0.5.1 špatně zamyšlení 0.8.4
mleap 0.18.1 mlflow-hubená 1.24.0 multimethod 1,7
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 poznámkový blok 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
Obalu 21.3 pandas 1.2.4 profilace pandas 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 Patsy 0.5.1 petastorm 0.11.4
pexpect 4.8.0 Phik 0.12.0 pickleshare 0.7.5
Polštář 8.2.0 Pip 21.0.1 plotly 5.5.0
pmdarima 1.8.4 předběžně připravený 3.0.5 prompt-toolkit 3.0.17
Prorok 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.1
pycparser 2,20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7 python-dateutil 2.8.1
python-editor 1.0.4 python-engineio 4.3.0 python-socketio 5.4.1
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 žádosti 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 Shap 0.40.0
simplejson 3.17.2 Šest 1.15.0 Průřezu 0.0.7
inteligentní otevření 5.2.0 smmap 3.0.5 spacy 3.2.1
spacy-legacy 3.0.8 spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 tabulková tabulka 0.8.7 tangled-up-in-unicode 0.1.0
Houževnatost 6.2.0 tensorboard 2.8.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1 tensorflow 2.8.0
tensorflow-estimator 2.8.0 tensorflow-io-gcs-filesystem 0.24.0 termcolor 1.1.0
terminado 0.9.4 testpath 0.4.4 tf-estimator-nightly 2.8.0.dev2021122109
tenká 8.0.12 threadpoolctl 2.1.0 tokenizátory 0.10.3
Pochodeň 1.10.2+cu111 torchvision 0.11.3+cu111 Tornádo 6.1
tqdm 4.59.0 vlastnosti 5.0.5 Transformátory 4.16.2
Typer 0.3.2 typing-extensions 3.7.4.3 ujson 4.0.2
bezobslužné upgrady 0,1 urllib3 1.25.11 virtualenv 20.4.1
Vize 0.7.4 Wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
Kolo 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.5.2 zipp 3.4.1

Balíčky Spark obsahující moduly Pythonu

Balíček Spark Modul Pythonu Verze
graphframes graphframes 0.8.2-db1-spark3.2

Knihovny jazyka R

Knihovny R jsou stejné jako knihovny R v Databricks Runtime 10.4 LTS.

Knihovny Java a Scala (cluster Scala 2.12)

Kromě knihoven Java a Scala v Databricks Runtime 10.4 LTS obsahuje Databricks Runtime 10.4 LTS ML následující žádosti o přijetí změn:

Clustery procesoru

ID skupiny ID artefaktu Verze
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Clustery GPU

ID skupiny ID artefaktu Verze
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0