Machine Learning에 대 한 Databricks Runtime 9.0

Databricks는 8 월 2021에이 이미지를 릴리스 했습니다.

Machine Learning에 대 한 Databricks Runtime 9.0는 Databricks Runtime 9.0 및 Databricks Runtime 9.0 Photon을 기반으로 하는 기계 학습 및 데이터 과학을 위한 준비 된 환경을 제공 합니다. Databricks Runtime ML에는 TensorFlow, PyTorch 및 xgboost를 비롯 하 여 널리 사용 되는 많은 기계 학습 라이브러리가 포함 되어 있습니다. 또한 Horovod를 사용 하 여 분산형 심층 학습 교육을 지원 합니다.

클러스터 ML Databricks Runtime을 만드는 방법에 대 한 지침을 비롯 한 자세한 내용은 Machine Learning Databricks Runtime을 참조 하십시오.

수정

이러한 릴리스 정보에 대 한 이전 버전에서는 Ganglia를 사용 하 여 클러스터 gpu 메트릭을 모니터링 하는 기능이 Databricks Runtime 9.0 ML GPU에서 사용 하지 않도록 설정 되었습니다. 이는 Databricks Runtime 9.0 ML 베타에 적용 되었지만 Databricks Runtime 9.0 ML GA를 사용 하 여 문제를 해결 했습니다. 문이 제거 되었습니다.

새로운 기능 및 향상 기능

Databricks Runtime 9.0 ML Databricks Runtime 9.0 위에 빌드됩니다. Apache Spark MLlib 및 SparkR를 비롯 한 Databricks Runtime 9.0의 새로운 기능에 대 한 자세한 내용은 Databricks Runtime 9.0 및 Databricks Runtime 9.0 Photon 릴리스 정보를 참조 하세요.

Databricks Autologging (공개 미리 보기)

이제 select 지역에서 Machine Learning의 Databricks Runtime 9.0에 Databricks autologging이 제공 됩니다. Databricks Autologging은 Azure Databricks에서 기계 학습 교육 세션에 대 한 자동 실험 추적을 제공 하는 비 코드 솔루션입니다. Databricks Autologging을 사용 하 여 다양 한 인기 있는 기계 학습 라이브러리에서 모델을 학습 하면 모델 매개 변수, 메트릭, 파일 및 계보 정보가 자동으로 캡처됩니다. 학습 세션은 Mlflow 추적 실행으로 기록 됩니다. 또한 모델 파일을 추적 하 여 Mlflow 모델 레지스트리에 쉽게 기록 하 고 mlflow 모델을 제공 하는 실시간 점수 매기기를 위해 배포할 수 있습니다.

Databricks Autologging에 대 한 자세한 내용은 Databricks autologging를 참조 하세요.

Databricks 기능 저장소의 향상 된 기능

원본 기능 테이블에서의 조인 수를 최소화 하 여 학습 집합을 만들 때 성능이 향상 되었습니다.

PySpark와의 XGBoost 통합은 이제 분산 된 학습 및 GPU 클러스터를 지원 합니다.

자세한 내용은 Spark MLlib (Python)와 통합을 참조 하세요.

Python 환경 Databricks Runtime ML의 주요 변경 내용

% Conda 명령과 함께 Conda 환경을 제거 합니다. Databricks Runtime 9.0 ML는 및를 사용 하 여 빌드됩니다 pipvirtualenv . Databricks Container Services 와 함께 Conda 기반 환경을 사용 하는 사용자 지정 이미지는 계속 지원 되지만 노트북 범위의 라이브러리 기능은 지원 하지 않습니다. Databricks는 Databricks Container Service 및 %pip 모든 노트북 범위 라이브러리에서 virtualenv 기반 환경을 사용 하는 것이 좋습니다.

Databricks Runtime Python 환경의 주요 변경 내용에 대해서는 Databricks Runtime 9.0 및 Databricks Runtime 9.0 Photon 를 참조 하세요. 설치 된 Python 패키지 및 해당 버전의 전체 목록은 python 라이브러리를 참조 하세요.

Python 패키지 업그레이드 됨

  • mlflow 1.18.0- > 1.19.0
  • nltk 3.5- > 3.6.1

추가 된 Python 패키지

  • prophet 1.0.1

Python 패키지가 제거 됨

  • MKL
  • azure-core
  • azure-storage-blob
  • msrest
  • docker
  • querystring-파서
  • intel-openmp

결함 및 지원 되지 않는 기능

  • Databricks Runtime 9.0 ML에서 HorovodRunner은 설정을 지원 하지 않습니다 np=0 . 여기서 np 는 Horovod 작업에 사용할 병렬 프로세스의 수입니다.
  • Databricks Runtime 9.0 ML에는 r 그래픽 엔진 버전 14를 사용 하는 r 기반 4.1.0 포함 됩니다. 이는 RStudio Server 버전 1.2. x에서 지원 되지 않습니다.
  • nvprof는 Databricks Runtime 9.0 ML GPU에서 제거 되었습니다.

시스템 환경

Databricks Runtime 9.0 ML의 시스템 환경은 다음과 같이 Databricks Runtime 9.0와 다릅니다.

라이브러리

다음 섹션에는 Databricks Runtime 9.0에 포함 된 것과 다른 Databricks Runtime 9.0 ML에 포함 된 라이브러리가 나열 되어 있습니다.

이 섹션에서는 다음 작업을 수행합니다.

최상위 계층 라이브러리

Databricks Runtime 9.0 ML에는 다음과 같은 최상위 계층 라이브러리가포함 됩니다.

Python 라이브러리

Databricks Runtime 9.0 ML는 Python 패키지 관리에 virtualenv를 사용 하며 인기 있는 많은 ML 패키지를 포함 합니다.

다음 섹션에 지정 된 패키지 외에도 Databricks Runtime 9.0 ML에는 다음 패키지가 포함 됩니다.

  • hyperopt 0.2.5
  • sparkdl 2.2.0_db1
  • feature_store 0.3.3
  • automl 1.1.1

CPU 클러스터의 Python 라이브러리

라이브러리 버전 라이브러리 버전 라이브러리 버전
absl-py 0.11.0 Antergos Linux 2015.10 (ISO 롤링) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-생성기 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bleach 3.3.0 boto3 1.16.7
botocore 1.19.7 Bottleneck 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
에서 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 convertdate 2.3.2 암호화 3.4.7
cycler 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
6bus-python 1.2.16 decorator 5.0.6 defusedxml 0.7.1
dill 0.3.2 diskcache 5.2.1 distlib 0.3.2
배포판-정보 0.23 ubuntu1 entrypoints 0.3 ephem 4.0.0.2
패싯-개요 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 future 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
회교식 변환기 2.1.3 휴일 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-nightly 2.5.0.dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.1 한국-달-달력 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 multimethod 1.4
클리언트 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
Notebook 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 패키징 20.9
pandas 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
param도메인 2.7.2 parso 0.7.0 patsy 0.5.1
페타스토밍 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Pillow 8.2.0 pip 21.0.1
plotly 4.14.3 prometheus-client 0.10.1 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2.20
py 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 2018년 3월 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 requests 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 retrying 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.39.0
simplejson 3.17.2 six 1.15.0 slicer 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-가져오기-id 5.10 statsmodels 0.12.2 tabulate 0.8.7
얽-유니코드 0.1.0 tensorboard 2.5.0 tensorboard-서버 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 torch 1.9.0 + cpu torchvision 0.10.0 + cpu
tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
typing-extensions 3.7.4.3 ujson 4.0.2 무인 업그레이드 0.1
urllib3 1.25.11 virtualenv 20.4.1 접미사가 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2

GPU 클러스터의 Python 라이브러리

라이브러리 버전 라이브러리 버전 라이브러리 버전
absl-py 0.11.0 Antergos Linux 2015.10 (ISO 롤링) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-생성기 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bleach 3.3.0 boto3 1.16.7
botocore 1.19.7 Bottleneck 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
에서 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 convertdate 2.3.2 암호화 3.4.7
cycler 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 decorator 5.0.6 defusedxml 0.7.1
dill 0.3.2 diskcache 5.2.1 distlib 0.3.2
distro-info 0.23ubuntu1 entrypoints 0.3 임시 4.0.0.2
facets-overview 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 future 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
hijri-converter 2.1.3 휴일 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-위젯 1.0.1 keras-야간 2.5.0. dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.1 한국어-음력-달력 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
중첩-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
Notebook 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 패키징 20.9
pandas 1.2.4 pandas-프로 파일링 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 patsy 0.5.1
페타스토밍 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Pillow 8.2.0 pip 21.0.1
plotly 4.14.3 prometheus-client 0.11.0 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2.20
py 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 2018년 3월 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 requests 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 retrying 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.39.0
simplejson 3.17.2 six 1.15.0 slicer 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulate 0.8.7
tangled-up-in-unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 토치 1.9.0+cu111 torchvision 0.10.0+cu111
tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
typing-extensions 3.7.4.3 ujson 4.0.2 무인 업그레이드 0.1
urllib3 1.25.11 virtualenv 20.4.1 비전 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2

Python 모듈을 포함하는 Spark 패키지

Spark 패키지 Python 모듈 Version
그래프 프레임 그래프 프레임 0.8.1-db3-spark3.1

R 라이브러리

R 라이브러리는 Databricks Runtime 9.0의 R 라이브러리와 동일합니다.

Java 및 Scala 라이브러리(Scala 2.12 클러스터)

Databricks Runtime 9.0의 Java 및 Scala 라이브러리 외에도 Databricks Runtime 9.0 ML 다음과 같은 JA를 포함합니다.

CPU 클러스터

그룹 ID 아티팩트 ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU 클러스터

그룹 ID 아티팩트 ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0