Databricks Runtime 9.1 LTS for Machine Edukacja

Artykuł
03/01/2024

Usługa Databricks opublikowała ten obraz i ogłosiła, że wsparcie długoterminowe (LTS) zostało opublikowane we wrześniu 2021 r.

Środowisko Databricks Runtime 9.1 LTS for Machine Edukacja zapewnia gotowe do użycia środowisko do uczenia maszynowego i nauki o danych oparte na środowisku Databricks Runtime 9.1 LTS. Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego, w tym TensorFlow, PyTorch i XGBoost. Środowisko Databricks Runtime ML obejmuje rozwiązanie AutoML— narzędzie do automatycznego trenowania potoków uczenia maszynowego. Środowisko Databricks Runtime ML obsługuje również trenowanie rozproszonego uczenia głębokiego przy użyciu struktury Horovod.

Uwaga

LTS oznacza, że ta wersja jest objęta długoterminową pomocą techniczną. Zobacz Cykl życia wersji LTS środowiska Databricks Runtime.

Aby uzyskać więcej informacji, w tym instrukcje dotyczące tworzenia klastra uczenia maszynowego usługi Databricks, zobacz AI and Machine Edukacja on Databricks (Sztuczna inteligencja i maszyna Edukacja w usłudze Databricks).

Nowe funkcje i ulepszenia

AutoML

Poniższe ulepszenia są dostępne w środowisku Databricks Runtime 9.1 LTS ML lub nowszym.

Rozwiązanie AutoML obsługuje większe zestawy danych przez próbkowanie

Rozwiązanie AutoML teraz próbkuje zestawy danych, które mogą przekraczać ograniczenia pamięci, co pozwala na uruchamianie ich na większych zestawach danych z mniejszym ryzykiem błędów braku pamięci. Aby uzyskać szczegółowe informacje, zobacz Próbkowanie dużych zestawów danych.

AutoML preprocessuje kolumny na podstawie typu semantycznego

Rozwiązanie AutoML wykrywa niektóre kolumny, które mają typ semantyczny, który różni się od typu danych platformy Spark lub biblioteki pandas. Następnie rozwiązanie AutoML konwertuje i stosuje kroki przetwarzania wstępnego danych na podstawie wykrytego typu semantycznego. W szczególności rozwiązanie AutoML wykonuje następujące konwersje:

Kolumny ciągów i liczb całkowitych reprezentujące dane daty lub znacznika czasu są konwertowane na typ znacznika czasu.
Kolumny ciągów reprezentujące dane liczbowe są konwertowane na typ liczbowy.

Ulepszenia notesów generowanych przez rozwiązanie AutoML

Kroki wstępnego przetwarzania kolumn daty i znacznika czasu są teraz uwzględniane w databricks-automl-runtime pakiecie, upraszczając notesy generowane przez trenowanie rozwiązania AutoML. databricks-automl-runtime jest zawarty w środowisku Databricks Runtime 9.1 LTS ML i nowszym, a także jest dostępny w interfejsie PyPI.

Magazyn funkcji

Poniższe ulepszenia są dostępne w środowisku Databricks Runtime 9.1 LTS ML lub nowszym.

Po utworzeniu zestawu TrainingSet można teraz ustawić opcję label=None obsługi aplikacji uczenia nienadzorowanego.
Teraz można określić więcej niż jedną funkcję w jednym FeatureLookupelemecie .
Teraz możesz określić niestandardową ścieżkę dla tabel funkcji. Użyj parametru path w pliku create_feature_table(). Wartość domyślna to lokalizacja bazy danych.
Nowe obsługiwane typy danych PySpark: ArrayType i ShortType.

Przepływ uczenia maszynowego

Poniższe ulepszenia są dostępne od wersji 1.20.2 mlflow, która jest zawarta w środowisku Databricks Runtime 9.1 LTS ML.

Automatyczne rejestrowanie dla biblioteki scikit-learn rejestruje teraz metryki po trenowaniu za każdym razem, gdy wywoływany jest interfejs API oceny biblioteki scikit-learn, taki jak sklearn.metrics.mean_squared_error, .
Automatyczne rejestrowanie dla usługi PySpark ML rejestruje teraz metryki po trenowaniu za każdym razem, gdy wywoływany jest interfejs API oceny modelu, taki jak Evaluator.evaluate(), .
mlflow.*.log_model i mlflow.*.save_model teraz mają pip_requirements argumenty i extra_pip_requirements , aby można było bezpośrednio określić wymagania pip modelu do rejestrowania lub zapisywania.
mlflow.*.log_model a mlflow.*.save_model teraz automatycznie wywnioskować wymagania pip modelu w celu rejestrowania lub zapisywania na podstawie bieżącego środowiska oprogramowania.
stdMetrics wpisy są teraz rejestrowane jako metryki trenowania podczas automatycznego rejestrowania PySpark CrossValidator.
Automatyczne rejestrowanie PyTorch Lightning obsługuje teraz rozproszone wykonywanie.

Automatyczne rejestrowanie usługi Databricks (publiczna wersja zapoznawcza)

Publiczna wersja zapoznawcza automatycznego rejestrowania usługi Databricks została rozszerzona do nowych regionów. Automatyczne rejestrowanie usługi Databricks to rozwiązanie bez kodu, które zapewnia automatyczne śledzenie eksperymentów na potrzeby sesji uczenia maszynowego w usłudze Azure Databricks. Dzięki funkcji automatycznego rejestrowania usługi Databricks parametry modelu, metryki, pliki i informacje o pochodzenia są automatycznie przechwytywane podczas trenowania modeli z różnych popularnych bibliotek uczenia maszynowego. Sesje szkoleniowe są rejestrowane jako przebiegi śledzenia MLflow. Pliki modelu są również śledzone, dzięki czemu można je łatwo rejestrować w rejestrze modeli MLflow i wdrażać je na potrzeby oceniania w czasie rzeczywistym za pomocą usługi MLflow Model Serving.

Aby uzyskać więcej informacji na temat automatycznego rejestrowania w usłudze Databricks, zobacz Automatyczne rejestrowanie w usłudze Databricks.

Istotne zmiany w środowisku języka Python środowiska Databricks Runtime ML

Uaktualnione pakiety języka Python

automl 1.1.1 => 1.2.1
feature_store 0.3.3 => 0.3.4.1
dni wolne 0.10.5.2 => 0.11.2
keras 2.5.0 => 2.6.0
mlflow 1.19.0 => 1.20.2
petastorm 0.11.1 => 0.11.2
plotly 4.14.3 => 5.1.0
spark-tensorflow-distributor 0.1.0 => 1.0.0
sparkdl 2.2.0_db1 => 2.2.0_db3
tensorboard 2.5.0 => 2.6.0
tensorflow 2.5.0 => 2.6.0

Dodane pakiety języka Python

databricks-automl-runtime 0.1.0

Środowisko systemu

Środowisko systemowe w środowisku Databricks Runtime 9.1 LTS ML różni się od środowiska Databricks Runtime 9.1 LTS w następujący sposób:

DBUtils: Środowisko uruchomieniowe Databricks Runtime ML nie zawiera narzędzia biblioteki (dbutils.library) (starsza wersja). Zamiast tego użyj %pip poleceń. Zobacz Biblioteki języka Python o zakresie notesu.
W przypadku klastrów gpu środowisko Databricks Runtime ML obejmuje następujące biblioteki procesora GPU FIRMY NVIDIA:
- CUDA 11.0
- cuDNN 8.1.0.77
- NCCL 2.10.3
- TensorRT 7.2.2

Biblioteki

W poniższych sekcjach wymieniono biblioteki zawarte w środowisku Databricks Runtime 9.1 LTS ML, które różnią się od bibliotek zawartych w środowisku Databricks Runtime 9.1 LTS.

W tej sekcji:

Biblioteki najwyższego poziomu
Biblioteki języka Python
Biblioteki języka R
Biblioteki Java i Scala (klaster Scala 2.12)

Biblioteki najwyższego poziomu

Środowisko Databricks Runtime 9.1 LTS ML obejmuje następujące biblioteki najwyższego poziomu:

Biblioteki języka Python

Środowisko Databricks Runtime 9.1 LTS ML używa usługi Virtualenv do zarządzania pakietami języka Python i zawiera wiele popularnych pakietów uczenia maszynowego.

Oprócz pakietów określonych w poniższych sekcjach środowisko Databricks Runtime 9.1 LTS ML zawiera również następujące pakiety:

hyperopt 0.2.5.db2
sparkdl 2.2.0_db3
feature_store 0.3.4.1
automl 1.2.1

Biblioteki języka Python w klastrach procesora CPU

Biblioteka	Wersja	Biblioteka	Wersja	Biblioteka	Wersja
absl-py	0.11.0	Antergos Linux	2015.10 (rolling ISO)	appdirs	1.4.4
argon2-cffi	20.1.0	Astor	0.8.1	astunparse	1.6.3
async-generator	1.10	attrs	20.3.0	backcall	0.2.0
bcrypt	3.2.0	Bleach	3.3.0	boto3	1.16.7
botocore	1.19.7	Wąskie gardło	1.3.2	cachetools	4.2.2
certifi	2020.12.5	cffi	1.14.5	chardet	4.0.0
Clang	5,0	kliknięcie	7.1.2	cloudpickle	1.6.0
cmdstanpy	0.9.68	configparser	5.0.1	konwertuj	2.3.2
Kryptografii	3.4.7	Cycler	0.10.0	Cython	0.29.23
databricks-automl-runtime	0.1.0	databricks-cli	0.14.3	dbus-python	1.2.16
Dekorator	5.0.6	defusedxml	0.7.1	Koperek	0.3.2
diskcache	5.2.1	distlib	0.3.2	dystrybucja informacji	0.23ubuntu1
punkty wejścia	0.3	efem	4.0.0.2	aspekty — omówienie	1.0.0
filelock	3.0.12	Flask	1.1.2	flatbuffers	1.12
fsspec	0.9.0	Przyszłości	0.18.2	Gast	0.4.0
gitdb	4.0.7	GitPython	3.1.12	google-auth	1.22.1
google-auth-oauthlib	0.4.2	makaron google	0.2.0	grpcio	1.39.0
gunicorn	20.0.4	h5py	3.1.0	konwerter hidżri	2.2.1
Wakacje	0.11.2	horovod	0.22.1	htmlmin	0.1.12
Idna	2.10	ImageHash	4.2.1	importlib-metadata	3.10.0
ipykernel	5.3.4	Ipython	7.22.0	ipython-genutils	0.2.0
ipywidgets	7.6.3	isodate	0.6.0	jegodangerous	1.1.0
Jedi	0.17.2	Jinja2	2.11.3	jmespath	0.10.0
joblib	1.0.1	joblibspark	0.3.0	jsonschema	3.2.0
jupyter-client	6.1.12	jupyter-core	4.7.1	jupyterlab-pygments	0.1.2
jupyterlab-widgets	1.0.0	keras	2.6.0	Przetwarzanie wstępne protokołu Keras	1.1.2
kiwisolver	1.3.1	Koale	1.8.1	koreański kalendarz księżycowy	0.2.1
lightgbm	3.1.1	llvmlite	0.37.0	KsiężycowyCalendar	0.0.9
Mako	1.1.3	Znaczniki języka Markdown	3.3.3	Znaczniki Sejf	1.1.1
matplotlib	3.4.2	missingno	0.5.0	mistune	0.8.4
mleap	0.17.0	mlflow-skinny	1.20.2	multimethod	1.4
nbclient	0.5.3	nbconvert	6.0.7	nbformat	5.1.3
nest-asyncio	1.5.1	networkx	2,5	nltk	3.6.1
notes	6.3.0	numba	0.54.0	Numpy	1.19.2
oauthlib	3.1.0	opt-einsum	3.3.0	Opakowania	20.9
Pandas	1.2.4	Profilowanie biblioteki pandas	3.0.0	pandocfilters	1.4.3
paramiko	2.7.2	parso	0.7.0	Patsy	0.5.1
petastorm	0.11.2	pexpect	4.8.0	phik	0.12.0
pickleshare	0.7.5	Poduszkę	8.2.0	Pip	21.0.1
kreślenie	5.1.0	prometheus-client	0.10.1	prompt-toolkit	3.0.17
Proroka	1.0.1	protobuf	3.17.2	psutil	5.8.0
psycopg2	2.8.5	ptyprocess	0.7.0	pyarrow	4.0.0
pyasn1	0.4.8	pyasn1-modules	0.2.8	pycparser	2,20
pydantic	1.8.2	Pygments	2.8.1	PyGObject	3.36.0
PyMeeus	0.5.11	PyNaCl	1.3.0	pyodbc	4.0.30
pyparsing	2.4.7	pirstent	0.17.3	pystan	2.19.1.1
python-apt	2.0.0+ubuntu0.20.4.6	python-dateutil	2.8.1	Python-editor	1.0.4
pytz	2020.5	PyWavelets	1.1.1	PyYAML	5.4.1
pyzmq	20.0.0	Regex	2021.4.4	żądania	2.25.1
requests-oauthlib	1.3.0	requests-unixsocket	0.2.0	rsa	4.7.2
s3transfer	0.3.7	scikit-learn	0.24.1	scipy	1.6.2
seaborn	0.11.1	Send2Trash	1.5.0	setuptools	52.0.0
setuptools-git	1.2	Shap	0.39.0	simplejson	3.17.2
Sześć	1.15.0	Fragmentatora	0.0.7	smmap	3.0.5
spark-tensorflow-distributor	1.0.0	sqlparse	0.4.1	ssh-import-id	5.10
statsmodels	0.12.2	tabulacji	0.8.7	splątane-up-in-unicode	0.1.0
Wytrzymałość	6.2.0	tablica tensorboard	2.6.0	tensorboard-data-server	0.6.1
tensorboard-plugin-wit	1.8.0	tensorflow-cpu	2.6.0	tensorflow-estimator	2.6.0
termcolor	1.1.0	terminado	0.9.4	ścieżka testowa	0.4.4
threadpoolctl	2.1.0	Palnika	1.9.0+ procesor	torchvision	0.10.0+procesor
Tornado	6.1	tqdm	4.59.0	traitlety	5.0.5
wpisywanie rozszerzeń	3.7.4.3	ujson	4.0.2	nienadzorowane uaktualnienia	0.1
urllib3	1.25.11	Virtualenv	20.4.1	Wizje	0.7.1
wcwidth	0.2.5	webencodings	0.5.1	websocket-client	0.57.0
Werkzeug	1.0.1	Koła	0.36.2	widgetsnbextension	3.5.1
zawijanie	1.12.1	xgboost	1.4.2	zipp	3.4.1

Biblioteki języka Python w klastrach gpu

Biblioteka	Wersja	Biblioteka	Wersja	Biblioteka	Wersja
absl-py	0.11.0	Antergos Linux	2015.10 (rolling ISO)	appdirs	1.4.4
argon2-cffi	20.1.0	Astor	0.8.1	astunparse	1.6.3
async-generator	1.10	attrs	20.3.0	backcall	0.2.0
bcrypt	3.2.0	Bleach	3.3.0	boto3	1.16.7
botocore	1.19.7	Wąskie gardło	1.3.2	cachetools	4.2.2
certifi	2020.12.5	cffi	1.14.5	chardet	4.0.0
Clang	5,0	kliknięcie	7.1.2	cloudpickle	1.6.0
cmdstanpy	0.9.68	configparser	5.0.1	konwertuj	2.3.2
Kryptografii	3.4.7	Cycler	0.10.0	Cython	0.29.23
databricks-automl-runtime	0.1.0	databricks-cli	0.14.3	dbus-python	1.2.16
Dekorator	5.0.6	defusedxml	0.7.1	Koperek	0.3.2
diskcache	5.2.1	distlib	0.3.2	dystrybucja informacji	0.23ubuntu1
punkty wejścia	0.3	efem	4.0.0.2	aspekty — omówienie	1.0.0
filelock	3.0.12	Flask	1.1.2	flatbuffers	1.12
fsspec	0.9.0	Przyszłości	0.18.2	Gast	0.4.0
gitdb	4.0.7	GitPython	3.1.12	google-auth	1.22.1
google-auth-oauthlib	0.4.2	makaron google	0.2.0	grpcio	1.39.0
gunicorn	20.0.4	h5py	3.1.0	konwerter hidżri	2.2.1
Wakacje	0.11.2	horovod	0.22.1	htmlmin	0.1.12
Idna	2.10	ImageHash	4.2.1	importlib-metadata	3.10.0
ipykernel	5.3.4	Ipython	7.22.0	ipython-genutils	0.2.0
ipywidgets	7.6.3	isodate	0.6.0	jegodangerous	1.1.0
Jedi	0.17.2	Jinja2	2.11.3	jmespath	0.10.0
joblib	1.0.1	joblibspark	0.3.0	jsonschema	3.2.0
jupyter-client	6.1.12	jupyter-core	4.7.1	jupyterlab-pygments	0.1.2
jupyterlab-widgets	1.0.0	keras	2.6.0	Przetwarzanie wstępne protokołu Keras	1.1.2
kiwisolver	1.3.1	Koale	1.8.1	koreański kalendarz księżycowy	0.2.1
lightgbm	3.1.1	llvmlite	0.37.0	KsiężycowyCalendar	0.0.9
Mako	1.1.3	Znaczniki języka Markdown	3.3.3	Znaczniki Sejf	1.1.1
matplotlib	3.4.2	missingno	0.5.0	mistune	0.8.4
mleap	0.17.0	mlflow-skinny	1.20.2	multimethod	1.4
nbclient	0.5.3	nbconvert	6.0.7	nbformat	5.1.3
nest-asyncio	1.5.1	networkx	2,5	nltk	3.6.1
notes	6.3.0	numba	0.54.0	Numpy	1.19.2
oauthlib	3.1.0	opt-einsum	3.3.0	Opakowania	20.9
Pandas	1.2.4	Profilowanie biblioteki pandas	3.0.0	pandocfilters	1.4.3
paramiko	2.7.2	parso	0.7.0	Patsy	0.5.1
petastorm	0.11.2	pexpect	4.8.0	phik	0.12.0
pickleshare	0.7.5	Poduszkę	8.2.0	Pip	21.0.1
kreślenie	5.1.0	prompt-toolkit	3.0.17	Proroka	1.0.1
protobuf	3.17.2	psutil	5.8.0	psycopg2	2.8.5
ptyprocess	0.7.0	pyarrow	4.0.0	pyasn1	0.4.8
pyasn1-modules	0.2.8	pycparser	2,20	pydantic	1.8.2
Pygments	2.8.1	PyGObject	3.36.0	PyMeeus	0.5.11
PyNaCl	1.3.0	pyodbc	4.0.30	pyparsing	2.4.7
pirstent	0.17.3	pystan	2.19.1.1	python-apt	2.0.0+ubuntu0.20.4.6
python-dateutil	2.8.1	Python-editor	1.0.4	pytz	2020.5
PyWavelets	1.1.1	PyYAML	5.4.1	pyzmq	20.0.0
Regex	2021.4.4	żądania	2.25.1	requests-oauthlib	1.3.0
requests-unixsocket	0.2.0	rsa	4.7.2	s3transfer	0.3.7
scikit-learn	0.24.1	scipy	1.6.2	seaborn	0.11.1
Send2Trash	1.5.0	setuptools	52.0.0	setuptools-git	1.2
Shap	0.39.0	simplejson	3.17.2	Sześć	1.15.0
Fragmentatora	0.0.7	smmap	3.0.5	spark-tensorflow-distributor	1.0.0
sqlparse	0.4.1	ssh-import-id	5.10	statsmodels	0.12.2
tabulacji	0.8.7	splątane-up-in-unicode	0.1.0	Wytrzymałość	6.2.0
tablica tensorboard	2.6.0	tensorboard-data-server	0.6.1	tensorboard-plugin-wit	1.8.0
tensorflow	2.6.0	tensorflow-estimator	2.6.0	termcolor	1.1.0
terminado	0.9.4	ścieżka testowa	0.4.4	threadpoolctl	2.1.0
Palnika	1.9.0+cu111	torchvision	0.10.0+cu111	Tornado	6.1
tqdm	4.59.0	traitlety	5.0.5	wpisywanie rozszerzeń	3.7.4.3
ujson	4.0.2	nienadzorowane uaktualnienia	0.1	urllib3	1.25.11
Virtualenv	20.4.1	Wizje	0.7.1	wcwidth	0.2.5
webencodings	0.5.1	websocket-client	0.57.0	Werkzeug	1.0.1
Koła	0.36.2	widgetsnbextension	3.5.1	zawijanie	1.12.1
xgboost	1.4.2	zipp	3.4.1

Pakiety platformy Spark zawierające moduły języka Python

Pakiet Platformy Spark	Moduł języka Python	Wersja
ramki grafu	ramki grafu	0.8.1-db3-spark3.1

Biblioteki języka R

Biblioteki języka R są identyczne z bibliotekami języka R w środowisku Databricks Runtime 9.1 LTS.

Biblioteki Java i Scala (klaster Scala 2.12)

Oprócz bibliotek Java i Scala w środowisku Databricks Runtime 9.1 LTS środowisko Databricks Runtime 9.1 LTS ML zawiera następujące elementy JAR:

Klastry procesora CPU

Identyfikator grupy	Identyfikator artefaktu	Wersja
com.typesafe.akka	akka-actor_2.12	2.5.23
ml.combust.mleap	mleap-databricks-runtime_2.12	0.17.0-4882dc3
ml.dmlc	xgboost4j-spark_2.12	1.4.1
ml.dmlc	xgboost4j_2.12	1.4.1
org.graphframes	graphframes_2.12	0.8.1-db2-spark3.1
org.mlflow	mlflow-client	1.20.2
org.mlflow	mlflow-spark	1.20.2
org.scala-lang.modules	scala-java8-compat_2.12	0.8.0
org.tensorflow	spark-tensorflow-connector_2.12	1.15.0

Klastry procesora GPU

Identyfikator grupy	Identyfikator artefaktu	Wersja
com.typesafe.akka	akka-actor_2.12	2.5.23
ml.combust.mleap	mleap-databricks-runtime_2.12	0.17.0-4882dc3
ml.dmlc	xgboost4j-gpu_2.12	1.4.1
ml.dmlc	xgboost4j-spark-gpu_2.12	1.4.1
org.graphframes	graphframes_2.12	0.8.1-db2-spark3.1
org.mlflow	mlflow-client	1.20.2
org.mlflow	mlflow-spark	1.20.2
org.scala-lang.modules	scala-java8-compat_2.12	0.8.0
org.tensorflow	spark-tensorflow-connector_2.12	1.15.0