Machine Learning için Databricks Runtime 10.4 LTS

Machine Learning için Databricks Runtime 10.4 LTS, Databricks Runtime 10.4 LTS'yi temel alan makine öğrenmesi ve veri bilimi için kullanıma hazır bir ortam sağlar. Databricks Runtime ML, TensorFlow, PyTorch ve XGBoost gibi birçok popüler makine öğrenmesi kitaplığı içerir. Databricks Runtime ML, makine öğrenmesi işlem hatlarını otomatik olarak eğitmeye yönelik bir araç olan AutoML'yi içerir. Databricks Runtime ML, Horovod kullanarak dağıtılmış derin öğrenme eğitimini de destekler.

Not

LTS, bu sürümün uzun vadeli destek altında olduğu anlamına gelir. Bkz. Databricks Runtime LTS sürüm yaşam döngüsü.

Databricks Runtime ML kümesi oluşturma yönergeleri de dahil olmak üzere daha fazla bilgi için bkz . Databricks'te AI ve Machine Learning.

Yeni özellikler ve geliştirmeler

Databricks Runtime 10.4 LTS ML, Databricks Runtime 10.4 LTS üzerine kurulmuştur. Apache Spark MLlib ve SparkR dahil olmak üzere Databricks Runtime 10.4 LTS'deki yenilikler hakkında bilgi için bkz . Databricks Runtime 10.4 LTS sürüm notları .

Databricks AutoML geliştirmeleri

Databricks AutoML'de aşağıdaki geliştirmeler yapılmıştır.

Databricks AutoML genel kullanıma sunuldu

Databricks Runtime 10.4 LTS ML'den başlayarak Databricks AutoML genel kullanıma sunulmuştur.

Eksik değerlerin belirtilmesi

Artık null değerlerin nasıl işaretleneceğini belirtebilirsiniz. Varsayılan olarak, AutoML sütun türüne ve içeriğe göre bir imputation yöntemi seçer. Bkz . Eksik değerlerin belirtilmesi.

Kullanıcı arabiriminden sütun seçimi

Sınıflandırma ve regresyon sorunları için artık API'ye ek olarak kullanıcı arabirimini kullanarak AutoML'nin hesaplamaları sırasında yoksayması gereken sütunları belirtebilirsiniz. Ayrıntılar için bkz . Sütun seçimi .

Yeni veri türü

AutoML artık sayısal dizi türlerini destekliyor.

Oluşturulan not defterlerinin ve denemenin özel konumu

Artık çalışma alanında AutoML'nin oluşturulan not defterlerini ve denemeleri kaydetmesi gereken bir konum belirtebilirsiniz. parametresini experiment_dir kullanın. Bkz . Sınıflandırma ve regresyon parametreleri.

Databricks Özellik Deposu geliştirmeleri

Databricks Özellik Deposu'na aşağıdaki geliştirmeler yapılmıştır.

Sistem ortamı

Databricks Runtime 10.4 LTS ML'deki sistem ortamı, Databricks Runtime 10.4 LTS'den aşağıdaki gibi farklıdır:

  • DBUtils: Databricks Runtime ML, Kitaplık yardımcı programını (dbutils.library) (eski) içermez. Bunun yerine komutları kullanın %pip . Bkz. Not defteri kapsamlı Python kitaplıkları.
  • GPU kümeleri için Databricks Runtime ML aşağıdaki NVIDIA GPU kitaplıklarını içerir:
    • CUDA 11.0
    • cuDNN 8.0.5.39
    • NCCL 2.10.3
    • TensorRT 7.2.2

Kitaplıklar

Aşağıdaki bölümlerde Databricks Runtime 10.4 LTS ML'de bulunan ve Databricks Runtime 10.4 LTS'de bulunan kitaplıklardan farklı kitaplıklar listelenmiştir.

Bu bölümde:

Üst katman kitaplıkları

Databricks Runtime 10.4 LTS ML aşağıdaki üst katman kitaplıklarını içerir:

Python kitaplıkları

Databricks Runtime 10.4 LTS ML, Python paket yönetimi için Virtualenv kullanır ve birçok popüler ML paketi içerir.

Aşağıdaki bölümlerde belirtilen paketlere ek olarak Databricks Runtime 10.4 LTS ML de aşağıdaki paketleri içerir:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.8
  • automl 1.7.2

CPU kümelerinde Python kitaplıkları

Databricks Runtime ML Python ortamını yerel Python sanal ortamınızda yeniden oluşturmak için requirements-10.4.txt dosyasını indirin ve çalıştırınpip install -r requirements-10.4.txt. Bu komut, Databricks Runtime ML'nin kullandığı tüm açık kaynak kitaplıklarını yükler, ancak , databricks-feature-storeveya Databricks çatalı hyperoptgibi databricks-automlAzure Databricks tarafından geliştirilen kitaplıkları yüklemez.

Kitaplık Sürüm Kitaplık Sürüm Kitaplık Sürüm
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 geri arama 0.2.0
bcrypt 3.2.0 bidict 0.21.4 Çamaşır suyu 3.3.0
Blıs 0.7.4 boto3 1.16.7 botocore 1.19.7
önbellek araçları 4.2.4 Katalog 2.0.6 sertifikalı 2020.12.5
cffi 1.14.5 chardet 4.0.0 tıklama 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 yapılandırmaparser 5.0.1
dönüştürme tarihi 2.3.2 Şifreleme 3.4.7 Cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
Dekoratör 5.0.6 defusedxml 0.7.1 Dereotu 0.3.2
diskcache 5.2.1 daistlib 0.3.4 distro-info 0.23ubuntu1
Entrypoints 0.3 ephem 4.1.3 modellere genel bakış 1.0.0
fasttext 0.9.2 dosya kilidi 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 Gelecek 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.3 Tatil 0,12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
ıdna 2.10 ImageHash 4.2.1 dengesiz-öğrenme 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 izodat 0.6.0
itsdangerous 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab pencere öğeleri 1.0.0 keras 2.8.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 Koala 1.8.2
korece-ay takvimi 0.2.1 langcodes 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 İşaretlemeyi Kasa 2.0.1
matplotlib 3.4.2 missingno 0.5.1 yanlış 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 multimethod 1.7
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 not defteri 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
Ambalaj 21.3 pandas 1.2.4 pandas profili oluşturma 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 Patsy 0.5.1 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Yastık 8.2.0 Pip 21.0.1 çizim 5.5.0
pmdarima 1.8.4 önceden gösterilmiş 3.0.5 prometheus-client 0.10.1
prompt-toolkit 3.0.17 Peygamber 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
serçe 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.1 pycparser 2.20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing 2.4.7
pirsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7
python-dateutil 2.8.1 python düzenleyicisi 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 Regex 2021.4.4
istekler 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 Sinan 0.11.1
Send2Trash 1.5.0 kurulum araçları 52.0.0 setuptools-git 1.2
Shap 0.40.0 simplejson 3.17.2 Altı 1.15.0
Dilimleyici 0.0.7 akıllı açma 5.2.0 smmap 3.0.5
spacy 3.2.1 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5.10 statsmodeller 0.12.2 sekmeli 0.8.7
unicode'da karışık 0.1.0 Azim 6.2.0 tensorboard 2.8.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.8.0 tensorflow-estimator 2.8.0 tensorflow-io-gcs-filesystem 0.24.0
termcolor 1.1.0 terminado 0.9.4 test yolu 0.4.4
tf-estimator-nightly 2.8.0.dev2021122109 thinc 8.0.12 threadpoolctl 2.1.0
belirteç oluşturucular 0.10.3 Meşale 1.10.2+cpu torchvision 0.11.3+cpu
Kasırga 6.1 tqdm 4.59.0 traitlets 5.0.5
Transformers 4.16.2 Typer 0.3.2 yazma uzantıları 3.7.4.3
ujson 4.0.2 katılımsız yükseltmeler 0,1 urllib3 1.25.11
virtualenv 20.4.1 Vizyon 0.7.4 Wasabi 0.8.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 Tekerlek 0.36.2 widgetsnbextension 3.5.1
kaydırma 1.12.1 xgboost 1.5.2 zipp 3.4.1

GPU kümelerinde Python kitaplıkları

Kitaplık Sürüm Kitaplık Sürüm Kitaplık Sürüm
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 geri arama 0.2.0
bcrypt 3.2.0 bidict 0.21.4 Çamaşır suyu 3.3.0
Blıs 0.7.4 boto3 1.16.7 botocore 1.19.7
önbellek araçları 4.2.4 Katalog 2.0.6 sertifikalı 2020.12.5
cffi 1.14.5 chardet 4.0.0 tıklama 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 yapılandırmaparser 5.0.1
dönüştürme tarihi 2.3.2 Şifreleme 3.4.7 Cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
Dekoratör 5.0.6 defusedxml 0.7.1 Dereotu 0.3.2
diskcache 5.2.1 daistlib 0.3.4 distro-info 0.23ubuntu1
Entrypoints 0.3 ephem 4.1.3 modellere genel bakış 1.0.0
fasttext 0.9.2 dosya kilidi 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 Gelecek 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.3 Tatil 0,12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
ıdna 2.10 ImageHash 4.2.1 dengesiz-öğrenme 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 izodat 0.6.0
itsdangerous 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab pencere öğeleri 1.0.0 keras 2.8.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 Koala 1.8.2
korece-ay takvimi 0.2.1 langcodes 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 İşaretlemeyi Kasa 2.0.1
matplotlib 3.4.2 missingno 0.5.1 yanlış 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 multimethod 1.7
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 not defteri 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
Ambalaj 21.3 pandas 1.2.4 pandas profili oluşturma 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 Patsy 0.5.1 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Yastık 8.2.0 Pip 21.0.1 çizim 5.5.0
pmdarima 1.8.4 önceden gösterilmiş 3.0.5 prompt-toolkit 3.0.17
Peygamber 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 serçe 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.1
pycparser 2.20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pirsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7 python-dateutil 2.8.1
python düzenleyicisi 1.0.4 python-engineio 4.3.0 python-socketio 5.4.1
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 istekler 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
scipy 1.6.2 Sinan 0.11.1 Send2Trash 1.5.0
kurulum araçları 52.0.0 setuptools-git 1.2 Shap 0.40.0
simplejson 3.17.2 Altı 1.15.0 Dilimleyici 0.0.7
akıllı açma 5.2.0 smmap 3.0.5 spacy 3.2.1
spacy-legacy 3.0.8 spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodeller 0.12.2 sekmeli 0.8.7 unicode'da karışık 0.1.0
Azim 6.2.0 tensorboard 2.8.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1 tensorflow 2.8.0
tensorflow-estimator 2.8.0 tensorflow-io-gcs-filesystem 0.24.0 termcolor 1.1.0
terminado 0.9.4 test yolu 0.4.4 tf-estimator-nightly 2.8.0.dev2021122109
thinc 8.0.12 threadpoolctl 2.1.0 belirteç oluşturucular 0.10.3
Meşale 1.10.2+cu111 torchvision 0.11.3+cu111 Kasırga 6.1
tqdm 4.59.0 traitlets 5.0.5 Transformers 4.16.2
Typer 0.3.2 yazma uzantıları 3.7.4.3 ujson 4.0.2
katılımsız yükseltmeler 0,1 urllib3 1.25.11 virtualenv 20.4.1
Vizyon 0.7.4 Wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
Tekerlek 0.36.2 widgetsnbextension 3.5.1 kaydırma 1.12.1
xgboost 1.5.2 zipp 3.4.1

Python modülleri içeren Spark paketleri

Spark Paketi Python Modülü Sürüm
graf çerçeveleri graf çerçeveleri 0.8.2-db1-spark3.2

R kitaplıkları

R kitaplıkları Databricks Runtime 10.4 LTS'deki R Kitaplıklarıyla aynıdır.

Java ve Scala kitaplıkları (Scala 2.12 kümesi)

Databricks Runtime 10.4 LTS'deki Java ve Scala kitaplıklarına ek olarak, Databricks Runtime 10.4 LTS ML aşağıdaki JAR'leri içerir:

CPU kümeleri

Grup Kimliği Yapıt Kimliği Sürüm
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU kümeleri

Grup Kimliği Yapıt Kimliği Sürüm
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0