Databricks Runtime 10.1 for Machine Learning

Databricks runtime 10.1 for Machine Learning egy használatra kész környezetet biztosít a gépi tanuláshoz és az adatelemzéshez Databricks Runtime 10.1-en alapul. Databricks Runtime ML számos népszerű gépi tanulási kódtárat tartalmaz, köztük a TensorFlow-t, a PyTorch-t és az XGBoost-t. Támogatja a Horovod használatával végzett elosztott mélytanulási betanítást is.

További információkért, beleértve a Databricks Runtime ML-fürt létrehozásának utasításait, tekintse meg Databricks Machine Learning futtatókörnyezetét.

Új funkciók és fejlesztések

Databricks Runtime 10.1 ML Databricks Runtime 10.1-re épül. A Databricks Runtime 10.1 újdonságairól , beleértve az Apache Spark MLlib-t és a SparkR-t, tekintse meg a Databricks Runtime 10.1 kibocsátási megjegyzéseit.

Az AutoML Databricks fejlesztései

A Databricks Runtime 10.1-ben Databricks AutoML továbbfejlesztett szemantikai típusészlelést, új riasztásokat tartalmaz a betanítás során felmerülő lehetséges adatproblémákra vonatkozóan, új képességek a modellek túlillesztésének megakadályozására, valamint a bemeneti adathalmaz időrendben történő felosztása betanítási, érvényesítési és tesztelési készletekre.

További szemantikai típusészlelések

Az AutoML mostantól támogatja a további szemantikai típusészlelést:

  • A kategorikus címkéket tartalmazó numerikus oszlopokat kategorikus típusként kezeli a rendszer.
  • Az angol szöveget tartalmazó sztringoszlopokat a rendszer szöveges funkcióként kezeli.

Mostantól széljegyzeteket is hozzáadhat az oszlop adattípusának megadásához. További információ: Szemantikai típusészlelés.

Riasztások a betanítás során lehetséges adatproblémák esetén

Az AutoML mostantól észleli és riasztásokat hoz létre az adatkészlettel kapcsolatos lehetséges problémákra vonatkozóan. A riasztások közé tartoznak például a nem támogatott oszloptípusok és a magas számosságú oszlopok. Ezek a riasztások az új Riasztások lap kísérletoldalán jelennek meg. A riasztásokkal kapcsolatos további információk az adatfeltárási jegyzetfüzetben találhatók. További információ: A kísérlet futtatása és az eredmények monitorozása.

Csökkentett modelltúlillesztés

Az AutoML használatakor két új képesség csökkenti a modell túlillesztésének esélyét:

  • Az AutoML mostantól az ellenőrzési és betanítási metrikák mellett a tesztmetrikákat is jelenti.
  • Az AutoML most már korai leállítást használ. Leállítja a modellek betanítását és finomhangolását, ha az érvényesítési metrika már nem javul.

Adathalmaz felosztása betanítási/ellenőrzési/tesztelési készletekre időrendben

Besorolási és regressziós problémák esetén az adathalmazt időrendben feloszthatja betanítási, érvényesítési és tesztelési készletekre. A részletekért lásd: A betanítási/ellenőrzési/tesztelési felosztás szabályozása .

A funkciótároló Databricks fejlesztései

Databricks Szolgáltatástár mostantól további adattípusokat is támogat a szolgáltatástáblákhoz: BinaryType, DecimalTypeés MapType. További információ: Támogatott adattípusok.

Mlflow

Az alábbi fejlesztések az Mlflow 1.21.0-s verziójától érhetők el, amely a Databricks Runtime 10.1 ML része.

  • [Modellek] Frissítse a fastai modell ízét a fastai v2 (2.4.1 és újabb verziók) támogatásához.
  • [Modellek] Az mlflow.prophet modell ízének bemutatása a Prophet idősorozat-modellekhez.
  • [Pontozás] Kijavítottunk egy sémakényszerítési hibát, amely helytelenül öntött dátumszerű sztringeket datetime objektumokra.

Hyperopt

SparkTrialsA mostantól támogatja a early_stopping_fn következő paramétert:fmin A korai leállítási függvénnyel megadhatja azokat a feltételeket, amikor a Hyperoptnak le kell állítania a hiperparaméterek finomhangolását a kiértékelések maximális számának elérése előtt. Ezzel a paraméterel például befejezheti a finomhangolást, ha a célfüggvény már nem csökken. Részletekért lásd: fmin().

Databricks Futtatókörnyezet ML Python környezetének jelentős változásai

Python csomagok frissítve

  • automl 1.3.1 => 1.4.1
  • feature_store 0.3.4 => 0.3.5
  • ünnepnapok 0.11.2 => 0.11.3.1
  • horovod 0.22.1 => 0.23.0
  • hyperopt 0.2.5.db2 => 0.2.5.db4
  • kiegyensúlyozatlan-learn 0.8.0 => 0.8.1
  • lightgbm 3.1.1 => 3.3.0
  • mlflow 1.20.2 => 1.21.0
  • petastorm 0.11.2 => 0.11.3
  • plotly 5.1.0 => 5.3.0
  • pytorch 1.9.0 => 1.9.1
  • spacy 3.1.2 => 3.1.3
  • sparkdl 2.2.0_db3 => 2.2.0_db4
  • torchvision 0.10.0 => 0.10.1
  • transzformátorok 4.9.2 => 4.11.3

Python hozzáadott csomagok

  • fasttext => 0.9.2
  • tensorboard-plugin-profile => 2.5.0

Elavulások

Az MLlib automatikus MLflow-követés elavult az Databricks Runtime 10.1 ML vagy újabb verziót futtató fürtökön. Ehelyett használja az MLflow PySparkot, ML az automatikus naplózást a hívássalmlflow.pyspark.ml.autolog(). Az automatikus naplózás alapértelmezés szerint engedélyezve van Databricks automatikus naplózással.

Rendszerkörnyezet

A Databricks Runtime 10.1 ML rendszerkörnyezete a következőképpen különbözik Databricks Runtime 10.1-től:

Kódtárak

Az alábbi szakaszok a Databricks Runtime 10.1 ML által tartalmazott kódtárakat sorolják fel, amelyek eltérnek a Databricks Runtime 10.1-ben találhatóaktól.

Ebben a szakaszban:

Felső szintű kódtárak

Databricks Runtime 10.1 ML a következő legfelső szintű kódtárakat tartalmazza:

Python-kódtárak

Databricks Runtime 10.1 ML a Virtualenv-t használja Python csomagkezeléshez, és számos népszerű ML csomagot tartalmaz.

A következő szakaszokban megadott csomagokon kívül Databricks Runtime 10.1 ML a következő csomagokat is tartalmazza:

  • hyperopt 0.2.5.db4
  • sparkdl 2.2.0-db4
  • feature_store 0.3.5
  • automl 1.4.0

Megjegyzés

Databricks Runtime 10.1 ML inkompatibilitási problémák miatt a scikit-learn 0.24-es verzióját tartalmazza az 1.0-s verzió helyett. A scikit-learn csomag számos más csomaggal is együttműködik Databricks Runtime 10.1 ML.

Frissíthet a scikit-learn 1.0-s verziójára; Databricks azonban nem támogatja ezt a verziót.

A frissítéshez használjon jegyzetfüzet-hatókörön belüli kódtárakat. Futtassa %pip install --upgrade "scikit-learn>=1.0,<1.1"egy jegyzetfüzetből.

Másik lehetőségként használhatja ezt a fürt inicializálási szkriptet:

#!/bin/bash

set -e

pip install --upgrade "scikit-learn>=1.0,<1.1"

Python kódtárak a CPU-fürtökön

Kódtár Verzió Kódtár Verzió Kódtár Verzió
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 visszahívás 0.2.0
bcrypt 3.2.0 Fehérítő 3.3.0 blis 0.7.4
boto3 1.16.7 botocore 1.19.7 cachetools 4.2.4
Katalógus clickstream minősítés 2020.12.5 cffi 1.14.5
karakterkészlet 4.0.0 clang 5.0 Kattintson 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
konvertálás 2.3.2 Titkosítás 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.3
databricks-cli 0.14.3 dbus-python 1.2.16 Dekoratőr 5.0.6
defusedxml 0.7.1 Kapros 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0,23ubuntu1 belépési pontok 0.3
ephem 4.1 aspektusok áttekintése 1.0.0 gyorsszöveg 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 Jövőben 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-hitelesítés 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-átalakító 2.2.2 Ünnepek 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 idna 2.10
ImageHash 4.2.1 kiegyensúlyozatlan tanulás 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgetek 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koalák 1.8.2 koreai-holdnaptár 0.2.1
lightgbm 3.3.0 llvmlite 0.37.0 Holdnaptár 0.0.9
Makó 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.21.0 többmetódos 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 jegyzetfüzet 6.3.0 numba 0.54.1
numpy 1.19.2 oauthlib 3.1.0 opt-einsum 3.3.0
Csomagolás 20.9 pandas 1.2.4 pandas-profilkészítés 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 Patsy 0.5.1 petastorm 0.11.3
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Párna 8.2.0 Pip 21.0.1 plotly 5.3.0
előre meg van nyitható 3.0.5 prometheus-client 0.10.1 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.8.0
pycparser 2.20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1
python-editor 1.0.4 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 Regex 2021.4.4
Kérelmek 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
Rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 tengeri 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
shap 0.39.0 simplejson 3.17.2 Hat 1.15.0
slicer 0.0.7 smart-open 5.2.0 smmap 3.0.5
spacy 3.1.3 spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 tabulátor 0.8.7 tangled-up-in-unicode 0.1.0
Kitartás 6.2.0 tensorboard 2.6.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0
tensorflow-estimator 2.6.0 termcolor 1.1.0 terminado 0.9.4
tesztútvonal 0.4.4 vékony 8.0.9 threadpoolctl 2.1.0
tokenizers 0.10.3 Fáklya 1.9.1+cpu torchvision 0.10.1+cpu
Tornádó 6.1 tqdm 4.59.0 traitlets 5.0.5
Transformers 4.11.3 Typer 0.3.2 gépelési bővítmények 3.7.4.3
ujson 4.0.2 felügyelet nélküli frissítések 0.1 urllib3 1.25.11
virtualenv 20.4.1 Látomások 0.7.4 Wasabi 0.8.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 Kerék 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2 zipp 3.4.1

GPU-fürtök Python kódtárak

Kódtár Verzió Kódtár Verzió Kódtár Verzió
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
aszinkron generátor 1.10 attrs 20.3.0 visszahívás 0.2.0
bcrypt 3.2.0 Fehérítő 3.3.0 blis 0.7.4
boto3 1.16.7 botocore 1.19.7 gyorsítótárazások 4.2.4
Katalógus clickstream minősítés 2020.12.5 cffi 1.14.5
karakterkészlet 4.0.0 clang 5.0 Kattintson 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
konvertálás 2.3.2 Titkosítás 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.3
databricks-cli 0.14.3 dbus-python 1.2.16 Dekoratőr 5.0.6
defusedxml 0.7.1 Kapros 0.3.2 diskcache 5.2.1
distlib 0.3.3 disztribúciós információk 0,23ubuntu1 belépési pontok 0.3
ephem 4.1 aspektusok áttekintése 1.0.0 gyorsszöveg 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 Jövőben 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-hitelesítés 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-konverter 2.2.2 Ünnepek 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 idna 2.10
ImageHash 4.2.1 kiegyensúlyozatlan tanulás 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgetek 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koalák 1.8.2 koreai holdnaptár 0.2.1
lightgbm 3.3.0 llvmlite 0.37.0 LunarCalendar 0.0.9
Makó 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.21.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 jegyzetfüzet 6.3.0 numba 0.54.1
numpy 1.19.2 oauthlib 3.1.0 opt-einsum 3.3.0
Csomagolás 20.9 pandas 1.2.4 pandas-profilkészítés 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 Patsy 0.5.1 petastorm 0.11.3
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Párna 8.2.0 Pip 21.0.1 plotly 5.3.0
előre meg van nyitható 3.0.5 prompt-toolkit 3.0.17 prophet 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.8.1 pycparser 2.20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.4.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 Kérelmek 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Rsa 4.7.2
s3transfer 0.3.7 sacremosok 0.0.46 scikit-learn 0.24.1
scipy 1.6.2 tengeri 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.39.0
simplejson 3.17.2 Hat 1.15.0 slicer 0.0.7
smart-open 5.2.0 smmap 3.0.5 spacy 3.1.3
spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1
srsly 2.4.1 ssh-import-id 5.10 statsmodels 0.12.2
tabulátor 0.8.7 tangled-up-in-unicode 0.1.0 Kitartás 6.2.0
tensorboard 2.6.0 tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0
tensorboard-plugin-wit 1.8.0 tensorflow 2.6.0 tensorflow-estimator 2.6.0
termcolor 1.1.0 terminado 0.9.4 tesztútvonal 0.4.4
vékony 8.0.9 threadpoolctl 2.1.0 tokenizers 0.10.3
Fáklya 1.9.1+cu111 torchvision 0.10.1+cu111 Tornádó 6.1
tqdm 4.59.0 traitlets 5.0.5 Transformers 4.11.3
Typer 0.3.2 gépelési bővítmények 3.7.4.3 ujson 4.0.2
felügyelet nélküli frissítések 0.1 urllib3 1.25.11 virtualenv 20.4.1
Látomások 0.7.4 Wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
Kerék 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.4.2 zipp 3.4.1

Python modulokat tartalmazó Spark-csomagok

Spark-csomag Python modul Verzió
gráfkeretek gráfkeretek 0.8.2-db1-spark3.2

R-kódtárak

Az R-kódtárak megegyeznek a Databricks Runtime 10.1 R-kódtáraival.

Java- és Scala-kódtárak (Scala 2.12-fürt)

A Databricks Runtime 10.1-ben a Java- és Scala-kódtárak mellett Databricks Runtime 10.1 ML a következő JAR-eket tartalmazza:

CPU-fürtök

Csoportazonosító Összetevő azonosítója Verzió
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db6-spark3.2
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-fürtök

Csoportazonosító Összetevő azonosítója Verzió
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1-spark3.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.21.0
org.mlflow mlflow-spark 1.21.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0