Databricks Runtime 14.1 for Machine Edukacja

Środowisko Databricks Runtime 14.1 for Machine Edukacja zapewnia gotowe do użycia środowisko do uczenia maszynowego i nauki o danych oparte na środowisku Databricks Runtime 14.1. Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego, w tym TensorFlow, PyTorch i XGBoost. Środowisko Databricks Runtime ML obejmuje rozwiązanie AutoML— narzędzie do automatycznego trenowania potoków uczenia maszynowego. Środowisko Databricks Runtime ML obsługuje również trenowanie rozproszonego uczenia głębokiego przy użyciu struktury Horovod.

Nowe funkcje i ulepszenia

Środowisko Databricks Runtime 14.1 ML jest oparte na środowisku Databricks Runtime 14.1. Aby uzyskać informacje na temat nowości w środowisku Databricks Runtime 14.1, w tym apache Spark MLlib i SparkR, zobacz informacje o wersji środowiska Databricks Runtime 14.1 .

Ulepszenia rozwiązania AutoML usługi Databricks

Notesy wygenerowane przez rozwiązanie AutoML usługi Databricks są teraz zapisywane jako artefakty MLflow.

Ulepszenia magazynu funkcji usługi Databricks

Teraz możesz automatycznie wnioskować i rejestrować przykład danych wejściowych podczas rejestrowania modelu. W tym celu ustaw wartość na infer_model_exampleTrue po wywołaniu metody log_model. Przykład jest oparty na danych treningowych określonych w parametrze training_set .

Aby uzyskać więcej informacji na temat usługi Databricks Feature Store, zobacz Co to jest magazyn funkcji?.

Środowisko systemu

Środowisko systemowe w środowisku Databricks Runtime 14.1 ML różni się od środowiska Databricks Runtime 14.1 w następujący sposób:

Środowisko Databricks Runtime 14.1 ML zawiera bibliotekę XGBoost 1.7.6, która nie obsługuje klastrów procesora GPU z możliwościami obliczeniowymi 5.2 i nowszymi.

Biblioteki

W poniższych sekcjach wymieniono biblioteki zawarte w środowisku Databricks Runtime 14.1 ML, które różnią się od bibliotek zawartych w środowisku Databricks Runtime 14.1.

W tej sekcji:

Biblioteki najwyższego poziomu

Środowisko Databricks Runtime 14.1 ML obejmuje następujące biblioteki najwyższego poziomu:

Biblioteki języka Python

Środowisko Databricks Runtime 14.1 ML używa usługi Virtualenv do zarządzania pakietami języka Python i zawiera wiele popularnych pakietów uczenia maszynowego.

Oprócz pakietów określonych w poniższych sekcjach środowisko Databricks Runtime 14.1 ML zawiera również następujące pakiety:

  • hyperopt 0.2.7+db4
  • sparkdl 3.0.0_db1
  • automl 1.22.0

Aby odtworzyć środowisko Języka Python środowiska Databricks Runtime ML w lokalnym środowisku wirtualnym języka Python, pobierz plik requirements-14.1.txt i uruchom polecenie pip install -r requirements-14.1.txt. To polecenie instaluje wszystkie biblioteki typu open source używane przez usługę Databricks Runtime ML, ale nie instaluje bibliotek opracowanych przez usługę Databricks, takich jak databricks-automl, databricks-feature-storelub rozwidlenie usługi Databricks .hyperopt

Biblioteki języka Python w klastrach procesora CPU

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
absl-py 1.0.0 Przyspieszyć 0.21.0 aiohttp 3.8.5
aiosignal 1.3.1 anyio 3.5.0 appdirs 1.4.4
argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0 Astor 0.8.1
asttokens 2.0.5 astunparse 1.6.3 limit czasu asynchronicznego 4.0.3
attrs 22.1.0 audioread 3.0.0 azure-core 1.29.1
azure-cosmos 4.3.1 azure-storage-blob 12.18.1 azure-storage-file-datalake 12.13.1
backcall 0.2.0 bcrypt 3.2.0 beautifulsoup4 4.11.1
black (czarny) 22.6.0 Bleach 4.1.0 migacz 1.4
blis 0.7.10 boto3 1.24.28 botocore 1.27.96
cachetools 5.3.1 Katalog 2.0.9 kodery kategorii 2.6.2
certifi 2022.12.7 cffi 1.15.1 chardet 4.0.0
charset-normalizer 2.0.4 kliknięcie 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.1.0 Comm 0.1.2 Konfekcji 0.1.3
configparser 5.2.0 konturowy 1.0.5 konwertuj 2.4.0
Kryptografii 39.0.1 Cycler 0.11.0 cymem 2.0.8
Cython 0.29.32 dacite 1.8.1 databricks-automl-runtime 0.2.19
databricks-cli 0.17.7 databricks-feature-store 0.15.1 databricks-sdk 0.1.6
dataclasses-json 0.5.14 usługi Power BI 2.14.4 dbl-tempo 0.1.23
dbus-python 1.2.18 debugpy 1.6.7 Dekorator 5.1.1
deepspeed 0.10.0 defusedxml 0.7.1 Koperek 0.3.6
diskcache 5.6.3 distlib 0.3.7 docstring-to-markdown 0,11
punkty wejścia 0,4 efem 4.1.4 evaluate 0.4.0
Wykonywanie 0.8.3 aspekty — omówienie 1.1.1 fastapi 0.98.0
fastjsonschema 2.18.0 fasttext 0.9.2 filelock 3.9.0
Flask 2.2.5 flatbuffers 23.5.26 fonttools 4.25.0
zamrożona lista 1.4.0 fsspec 2022.11.0 Przyszłości 0.18.3
Gast 0.4.0 Biblioteka środowiska uruchomieniowego GCC 1.10.0 gitdb 4.0.10
GitPython 3.1.27 google-api-core 2.11.1 google-auth 2.21.0
google-auth-oauthlib 1.0.0 google-cloud-core 2.3.3 google-cloud-storage 2.10.0
google-crc32c 1.5.0 makaron google 0.2.0 google-resumable-media 2.6.0
googleapis-common-protos 1.60.0 greenlet 2.0.1 grpcio 1.48.2
stan obiektu grpcio 1.48.1 gunicorn 20.1.0 gviz-api 1.10.0
h11 0.14.0 h5py 3.7.0 hjson 3.1.0
Wakacje 0,30 horovod 0.28.1 htmlmin 0.1.12
httplib2 0.20.2 httptools 0.6.0 przytulanieface-hub 0.14.1
Idna 3.4 ImageHash 4.3.1 niezrównoważona nauka 0.10.1
importlib-metadata 4.11.3 importlib-resources 6.0.1 ipykernel 6.25.0
Ipython 8.14.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 jegodangerous 2.0.1 Jedi 0.18.1
Jeepney 0.7.1 Jinja2 3.1.2 jmespath 0.10.0
joblib 1.2.0 joblibspark 0.5.1 jsonschema 4.17.3
jupyter-client 7.3.4 jupyter-server 1.23.4 jupyter_core 5.2.0
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.13.1
Brelok 23.5.0 kiwisolver 1.4.4 langchain 0.0.267
langcodes 3.3.0 langsmith 0.0.38 launchpadlib 1.10.16
lazr.restfulclient 0.14.4 lazr.uri 1.0.6 lazy_loader 0.3
libclang 15.0.6.1 librosa 0.10.1 lightgbm 4.0.0
llvmlite 0.39.1 KsiężycowyCalendar 0.0.9 Lxml 4.9.1
Mako 1.2.0 Znaczniki języka Markdown 3.4.1 Znaczniki Sejf 2.1.1
Zefir 3.20.1 matplotlib 3.7.0 biblioteka matplotlib-inline 0.1.6
Mccabe 0.7.0 mistune 0.8.4 mlflow-skinny 2.7.1
więcej itertools 8.10.0 mpmath 1.2.1 msgpack 1.0.5
multidict 6.0.4 multimethod 1.9.1 przetwarzanie wieloprocesowe 0.70.14
szmurhash 1.0.10 mypy-extensions 0.4.3 nbclassic 0.5.2
nbclient 0.5.13 nbconvert 6.5.4 nbformat 5.7.0
nest-asyncio 1.5.6 networkx 2.8.4 Ninja 1.11.1
nltk 3.7 nodeenv 1.8.0 notes 6.5.2
notebook_shim 0.2.2 numba 0.56.4 numexpr 2.8.4
Numpy 1.23.5 oauthlib 3.2.0 openai 0.27.8
openapi-schema-pydantic 1.2.4 opt-einsum 3.3.0 Opakowania 22,0
Pandas 1.5.3 pandocfilters 1.5.0 paramiko 2.9.2
parso 0.8.3 pathspec 0.10.3 pathy 0.10.2
Patsy 0.5.3 petastorm 0.12.1 pexpect 4.8.0
phik 0.12.3 pickleshare 0.7.5 Poduszkę 9.4.0
Pip 22.3.1 platformdirs 2.5.2 kreślenie 5.9.0
wtyczka 1.0.0 pmdarima 2.0.3 Psisko 1.4.0
preshed 3.0.9 prometheus-client 0.14.1 prompt-toolkit 3.0.36
Proroka 1.1.4 protobuf 4.24.0 psutil 5.9.0
psycopg2 2.9.3 ptyprocess 0.7.0 pure-eval 0.2.2
py-cpuinfo 9.0.0 pyarrow 8.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.11.1 pycparser 2.21
pydantic 1.10.6 pyflakes 3.0.1 Pygments 2.11.2
PyGObject 3.42.1 PyJWT 2.3.0 PyMeeus 0.5.12
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing 3.0.9
pyright 1.1.294 pirstent 0.18.0 pytesseract 0.3.10
python-dateutil 2.8.2 python-dotenv 1.0.0 Python-editor 1.0.4
python-lsp-jsonrpc 1.0.0 python-lsp-server 1.7.1 pytoolconfig 1.2.5
pytz 2022.7 PyWavelets 1.4.1 PyYAML 6.0
pyzmq 23.2.0 Regex 2022.7.9 żądania 2.28.1
requests-oauthlib 1.3.1 Odpowiedzi 0.18.0 Liny 1.7.0
rsa 4.9 s3transfer 0.6.2 bezpiecznetensory 0.3.3
scikit-learn 1.1.1 seaborn 0.12.2 SecretStorage 3.3.1
Send2Trash 1.8.0 transformatory zdań 2.2.2 element zdania 0.1.99
setuptools 65.6.3 Shap 0.42.1 simplejson 3.17.6
Sześć 1.16.0 Fragmentatora 0.0.7 smart-open 5.2.1
smmap 5.0.0 wąchanie 1.2.0 soundfile 0.12.1
zupy 2.3.2.post1 soxr 0.3.6 spacy 3.6.1
spacy-legacy 3.0.12 spacy-loggers 1.0.5 spark-tensorflow-distributor 1.0.0
SQLAlchemy 1.4.39 sqlparse 0.4.2 srsly 2.4.7
ssh-import-id 5,11 stack-data 0.2.0 gwiazdka 0.27.0
statsmodels 0.13.5 sympy 1.11.1 tabulacji 0.8.10
splątane-up-in-unicode 0.2.0 Wytrzymałość 8.1.0 tablica tensorboard 2.13.0
tensorboard-data-server 0.7.1 tensorboard-plugin-profile 2.13.1 tensorflow-cpu 2.13.0
tensorflow-estimator 2.13.0 tensorflow-io-gcs-filesystem 0.34.0 termcolor 2.3.0
terminado 0.17.1 cienki 8.1.12 threadpoolctl 2.2.0
tiktoken 0.4.0 tinycss2 1.2.1 tokenize-rt 4.2.1
tokenizatory 0.13.3 tomli 2.0.1 Palnika 2.0.1+ procesor
torchvision 0.15.2+procesor Tornado 6.1 tqdm 4.64.1
traitlety 5.7.1 Transformatory 4.31.0 osłona typów 2.13.3
typer 0.9.0 inspekcja wpisywania 0.9.0 typing_extensions 4.4.0
ujson 5.4.0 nienadzorowane uaktualnienia 0.1 urllib3 1.26.14
uvicorn 0.23.2 uvloop 0.17.0 Virtualenv 20.16.7
Wizje 0.7.5 wadllib 1.3.6 Wasabi 1.1.2
watchfiles 0.20.0 wcwidth 0.2.5 webencodings 0.5.1
websocket-client 0.58.0 Websocket 11.0.3 Werkzeug 2.2.2
whatthepatch 1.0.2 Koła 0.38.4 widgetsnbextension 3.6.1
wordcloud 1.9.2 zawijanie 1.14.1 xgboost 1.7.6
xxhash 3.3.0 yapf 0.31.0 Yarl 1.9.2
profilowanie danych 4.2.0 zipp 3.11.0

Biblioteki języka Python w klastrach gpu

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
absl-py 1.0.0 Przyspieszyć 0.21.0 aiohttp 3.8.5
aiosignal 1.3.1 anyio 3.5.0 appdirs 1.4.4
argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0 Astor 0.8.1
asttokens 2.0.5 astunparse 1.6.3 limit czasu asynchronicznego 4.0.3
attrs 22.1.0 audioread 3.0.0 azure-core 1.29.1
azure-cosmos 4.3.1 azure-storage-blob 12.18.1 azure-storage-file-datalake 12.13.1
backcall 0.2.0 bcrypt 3.2.0 beautifulsoup4 4.11.1
black (czarny) 22.6.0 Bleach 4.1.0 migacz 1.4
blis 0.7.10 boto3 1.24.28 botocore 1.27.96
cachetools 5.3.1 Katalog 2.0.9 kodery kategorii 2.6.2
certifi 2022.12.7 cffi 1.15.1 chardet 4.0.0
charset-normalizer 2.0.4 kliknięcie 8.0.4 cloudpickle 2.0.0
Cmake 3.27.5 cmdstanpy 1.1.0 Comm 0.1.2
Konfekcji 0.1.3 configparser 5.2.0 konturowy 1.0.5
konwertuj 2.4.0 Kryptografii 39.0.1 Cycler 0.11.0
cymem 2.0.8 Cython 0.29.32 dacite 1.8.1
databricks-automl-runtime 0.2.19 databricks-cli 0.17.7 databricks-feature-store 0.15.1
databricks-sdk 0.1.6 dataclasses-json 0.5.14 usługi Power BI 2.14.4
dbl-tempo 0.1.23 dbus-python 1.2.18 debugpy 1.6.7
Dekorator 5.1.1 deepspeed 0.10.0 defusedxml 0.7.1
Koperek 0.3.6 diskcache 5.6.3 distlib 0.3.7
docstring-to-markdown 0,11 einops 0.6.1 punkty wejścia 0,4
efem 4.1.4 evaluate 0.4.0 Wykonywanie 0.8.3
aspekty — omówienie 1.1.1 fastapi 0.98.0 fastjsonschema 2.18.0
fasttext 0.9.2 filelock 3.9.0 flash-attn 2.0.8
Flask 2.2.5 flatbuffers 23.5.26 fonttools 4.25.0
zamrożona lista 1.4.0 fsspec 2022.11.0 Przyszłości 0.18.3
Gast 0.4.0 Biblioteka środowiska uruchomieniowego GCC 1.10.0 gitdb 4.0.10
GitPython 3.1.27 google-api-core 2.11.1 google-auth 2.21.0
google-auth-oauthlib 1.0.0 google-cloud-core 2.3.3 google-cloud-storage 2.10.0
google-crc32c 1.5.0 makaron google 0.2.0 google-resumable-media 2.6.0
googleapis-common-protos 1.60.0 greenlet 2.0.1 grpcio 1.48.2
stan obiektu grpcio 1.48.1 gunicorn 20.1.0 gviz-api 1.10.0
h11 0.14.0 h5py 3.7.0 hjson 3.1.0
Wakacje 0,30 horovod 0.28.1 htmlmin 0.1.12
httplib2 0.20.2 httptools 0.6.0 przytulanieface-hub 0.14.1
Idna 3.4 ImageHash 4.3.1 niezrównoważona nauka 0.10.1
importlib-metadata 4.11.3 importlib-resources 6.0.1 ipykernel 6.25.0
Ipython 8.14.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 jegodangerous 2.0.1 Jedi 0.18.1
Jeepney 0.7.1 Jinja2 3.1.2 jmespath 0.10.0
joblib 1.2.0 joblibspark 0.5.1 jsonschema 4.17.3
jupyter-client 7.3.4 jupyter-server 1.23.4 jupyter_core 5.2.0
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.13.1
Brelok 23.5.0 kiwisolver 1.4.4 langchain 0.0.267
langcodes 3.3.0 langsmith 0.0.38 launchpadlib 1.10.16
lazr.restfulclient 0.14.4 lazr.uri 1.0.6 lazy_loader 0.3
libclang 15.0.6.1 librosa 0.10.1 lightgbm 4.0.0
Zapalił 16.0.6 llvmlite 0.39.1 KsiężycowyCalendar 0.0.9
Lxml 4.9.1 Mako 1.2.0 Znaczniki języka Markdown 3.4.1
Znaczniki Sejf 2.1.1 Zefir 3.20.1 matplotlib 3.7.0
biblioteka matplotlib-inline 0.1.6 Mccabe 0.7.0 mistune 0.8.4
mlflow-skinny 2.7.1 więcej itertools 8.10.0 mpmath 1.2.1
msgpack 1.0.5 multidict 6.0.4 multimethod 1.9.1
przetwarzanie wieloprocesowe 0.70.14 szmurhash 1.0.10 mypy-extensions 0.4.3
nbclassic 0.5.2 nbclient 0.5.13 nbconvert 6.5.4
nbformat 5.7.0 nest-asyncio 1.5.6 networkx 2.8.4
Ninja 1.11.1 nltk 3.7 nodeenv 1.8.0
notes 6.5.2 notebook_shim 0.2.2 numba 0.56.4
numexpr 2.8.4 Numpy 1.23.5 oauthlib 3.2.0
openai 0.27.8 openapi-schema-pydantic 1.2.4 opt-einsum 3.3.0
Opakowania 22,0 Pandas 1.5.3 pandocfilters 1.5.0
paramiko 2.9.2 parso 0.8.3 pathspec 0.10.3
pathy 0.10.2 Patsy 0.5.3 petastorm 0.12.1
pexpect 4.8.0 phik 0.12.3 pickleshare 0.7.5
Poduszkę 9.4.0 Pip 22.3.1 platformdirs 2.5.2
kreślenie 5.9.0 wtyczka 1.0.0 pmdarima 2.0.3
Psisko 1.4.0 preshed 3.0.9 prompt-toolkit 3.0.36
Proroka 1.1.4 protobuf 4.24.0 psutil 5.9.0
psycopg2 2.9.3 ptyprocess 0.7.0 pure-eval 0.2.2
py-cpuinfo 9.0.0 pyarrow 8.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.11.1 pycparser 2.21
pydantic 1.10.6 pyflakes 3.0.1 Pygments 2.11.2
PyGObject 3.42.1 PyJWT 2.3.0 PyMeeus 0.5.12
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing 3.0.9
pyright 1.1.294 pirstent 0.18.0 pytesseract 0.3.10
python-dateutil 2.8.2 python-dotenv 1.0.0 Python-editor 1.0.4
python-lsp-jsonrpc 1.0.0 python-lsp-server 1.7.1 pytoolconfig 1.2.5
pytz 2022.7 PyWavelets 1.4.1 PyYAML 6.0
pyzmq 23.2.0 Regex 2022.7.9 żądania 2.28.1
requests-oauthlib 1.3.1 Odpowiedzi 0.18.0 Liny 1.7.0
rsa 4.9 s3transfer 0.6.2 bezpiecznetensory 0.3.3
scikit-learn 1.1.1 seaborn 0.12.2 SecretStorage 3.3.1
Send2Trash 1.8.0 transformatory zdań 2.2.2 element zdania 0.1.99
setuptools 65.6.3 Shap 0.42.1 simplejson 3.17.6
Sześć 1.16.0 Fragmentatora 0.0.7 smart-open 5.2.1
smmap 5.0.0 wąchanie 1.2.0 soundfile 0.12.1
zupy 2.3.2.post1 soxr 0.3.6 spacy 3.6.1
spacy-legacy 3.0.12 spacy-loggers 1.0.5 spark-tensorflow-distributor 1.0.0
SQLAlchemy 1.4.39 sqlparse 0.4.2 srsly 2.4.7
ssh-import-id 5,11 stack-data 0.2.0 gwiazdka 0.27.0
statsmodels 0.13.5 sympy 1.11.1 tabulacji 0.8.10
splątane-up-in-unicode 0.2.0 Wytrzymałość 8.1.0 tablica tensorboard 2.13.0
tensorboard-data-server 0.7.1 tensorboard-plugin-profile 2.13.1 tensorflow 2.13.0
tensorflow-estimator 2.13.0 tensorflow-io-gcs-filesystem 0.34.0 termcolor 2.3.0
terminado 0.17.1 cienki 8.1.12 threadpoolctl 2.2.0
tiktoken 0.4.0 tinycss2 1.2.1 tokenize-rt 4.2.1
tokenizatory 0.13.3 tomli 2.0.1 Palnika 2.0.1+cu118
torchvision 0.15.2+cu118 Tornado 6.1 tqdm 4.64.1
traitlety 5.7.1 Transformatory 4.31.0 Triton 2.0.0
osłona typów 2.13.3 typer 0.9.0 inspekcja wpisywania 0.9.0
typing_extensions 4.4.0 ujson 5.4.0 nienadzorowane uaktualnienia 0.1
urllib3 1.26.14 uvicorn 0.23.2 uvloop 0.17.0
Virtualenv 20.16.7 Wizje 0.7.5 wadllib 1.3.6
Wasabi 1.1.2 watchfiles 0.20.0 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.58.0 Websocket 11.0.3
Werkzeug 2.2.2 whatthepatch 1.0.2 Koła 0.38.4
widgetsnbextension 3.6.1 wordcloud 1.9.2 zawijanie 1.14.1
xgboost 1.7.6 xxhash 3.3.0 yapf 0.31.0
Yarl 1.9.2 profilowanie danych 4.2.0 zipp 3.11.0

Biblioteki języka R

Biblioteki języka R są identyczne z bibliotekami języka R w środowisku Databricks Runtime 14.1.

Biblioteki Java i Scala (klaster Scala 2.12)

Oprócz bibliotek Java i Scala w środowisku Databricks Runtime 14.1 środowisko Databricks Runtime 14.1 ML zawiera następujące jednostki JAR:

Klastry procesora CPU

Identyfikator grupy Identyfikator artefaktu Wersja
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-spark_2.12 1.7.3
ml.dmlc xgboost4j_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.7.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Klastry procesora GPU

Identyfikator grupy Identyfikator artefaktu Wersja
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-gpu_2.12 1.7.3
ml.dmlc xgboost4j-spark-gpu_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.7.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0