Databricks Runtime 11.3 LTS para Machine Learning
O Databricks Runtime 11.3 LTS para Machine Learning fornece um ambiente pronto para uso em aprendizado de máquina e ciência de dados com base no Databricks Runtime 11.3 LTS. O Databricks Runtime ML contém muitas bibliotecas de aprendizado de máquina populares, inclusive TensorFlow, PyTorch e XGBoost. O Databricks Runtime ML inclui o AutoML, uma ferramenta para treinamento automático de pipelines de aprendizado de máquina. O Databricks Runtime ML também oferece suporte ao treinamento de aprendizado profundo distribuído com o uso do Horovod.
Observação
LTS significa que essa versão possui suporte de longo prazo. Consulte Ciclo de vida da versão de LTS do Databricks Runtime.
Para obter mais informações, como instruções para a criação de um cluster do Databricks Runtime ML, confira IA e Machine Learning no Databricks.
Novos recursos e aprimoramentos
O Databricks Runtime 11.3 LTS para ML tem como base o Databricks Runtime 11.3 LTS. Para obter informações sobre as novidades do Databricks Runtime 11.3 LTS, inclusive o MLlib e o SparkR do Apache Spark, confira as notas sobre a versão do Databricks Runtime 11.3 LTS.
Aprimoramentos no Databricks AutoML
O AutoML do Databricks agora dá suporte ao uso de tabelas de recursos existentes do Repositório de Recursos em seus experimentos de AutoML. Para obter detalhes, confira Integração do Repositório de Recursos.
Os notebooks de avaliação gerados pelo AutoML agora contêm snippets de código que permitem que os usuários executem novamente o ajuste do hiperparâmetro.
O AutoML agora dá suporte a recursos DecimalType
.
Correções de bug
O Databricks Runtime 11.3 LTS para ML inclui uma versão atualizada do sparkdl.xgboost
. As versões anteriores de sparkdl.xgboost
contêm bugs corrigidos nesta versão, portanto, o Databricks recomenda que os usuários da biblioteca atualizem para o Databricks Runtime 11.3 LTS para ML.
Preparar para versões futuras
Uma versão futura do Databricks Runtime ML incluirá a versão 1.0 do sklearn
. Visite a sklearn
documentação para obter informações sobre como se preparar para essa alteração.
O Databricks Runtime ML contém dois pacotes openblas
. O pacote /opt/OpenBLAS
foi preterido no Databricks Runtime 11.3 LTS para ML e será removido em uma próxima versão.
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 11.3 LTS para ML difere do Databricks Runtime 11.3 LTS nestes pontos:
- DBUtils: o Databricks Runtime ML não inclui o Utilitário de biblioteca (dbutils.library) (herdado).
Use os comandos
%pip
. Confira as bibliotecas Python no escopo do notebook. - Para clusters de GPU, o Databricks Runtime ML inclui as seguintes bibliotecas de GPU NVIDIA:
- CUDA 11.3
- cuDNN 8.0.5.39
- NCCL 2.9.9
- TensorRT 7.2.2
O Databricks Runtime 11.3 LTS ML inclui o XGBoost 1.6.1, que não tem suporte para clusters de GPU com capacidade de computação 5.2 e inferior.
Bibliotecas
As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 11.3 LTS para ML que diferem daquelas incluídas no Databricks Runtime 11.3 LTS.
Nesta seção:
- Bibliotecas de camada superior
- Bibliotecas do Python
- Bibliotecas do R
- Bibliotecas do Java e do Scala (cluster do Scala 2.12)
Bibliotecas de camada superior
O Databricks Runtime 11.3 LTS para ML inclui as seguintes bibliotecas de camada superior:
- GraphFrames
- Horovod e HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
- Scikit-learn
Bibliotecas do Python
O Databricks Runtime 11.3 LTS para ML usa o Virtualenv para gerenciamento de pacotes Python e inclui muitos pacotes de ML populares.
Além dos pacotes especificados nas seções a seguir, o Databricks Runtime 11.3 LTS para ML também inclui os seguintes pacotes:
- hyperopt 0.2.7.db1
- sparkdl 2.3.0-db3
- feature_store 0.7.0
- automl 1.13.2
Para reproduzir o ambiente do Python do Databricks Runtime ML no ambiente virtual do Python local, baixe o arquivo requirements-11.3.txt e execute pip install -r requirements-11.3.txt
. Esse comando instala todas as bibliotecas código aberto que o Databricks Runtime ML usa, mas não instala bibliotecas desenvolvidas pelo Databricks, como databricks-automl
, databricks-feature-store
, ou o fork do Databricks de hyperopt
.
Bibliotecas do Python em clusters de CPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
absl-py | 1.0.0 | argon2-cffi | 20.1.0 | astor | 0.8.1 |
astunparse | 1.6.3 | async-generator | 1,10 | attrs | 21.2.0 |
azure-core | 1.22.1 | azure-cosmos | 4.2.0 | backcall | 0.2.0 |
backports.entry-points-selectable | 1.1.1 | bcrypt | 4.0.0 | black | 22.3.0 |
bleach | 4.0.0 | blis | 0.7.8 | boto3 | 1.21.18 |
botocore | 1.24.18 | cachetools | 5.2.0 | catalogue | 2.0.8 |
certifi | 2021.10.8 | cffi | 1.14.6 | chardet | 4.0.0 |
charset-normalizer | 2.0.4 | clique | 8.0.3 | cloudpickle | 2.0.0 |
cmdstanpy | 0.9.68 | confecção | 0.0.1 | configparser | 5.2.0 |
convertdate | 2.4.0 | criptografia | 3.4.8 | cycler | 0.10.0 |
cymem | 2.0.6 | Cython | 0.29.24 | databricks-automl-runtime | 0.2.11 |
databricks-cli | 0.17.3 | dbl-tempo | 0.1.12 | dbus-python | 1.2.16 |
debugpy | 1.4.1 | decorator | 5.1.0 | defusedxml | 0.7.1 |
dill | 0.3.4 | diskcache | 5.4.0 | distlib | 0.3.6 |
entrypoints | 0.3 | ephem | 4.1.3 | facets-overview | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.3.1 | Flask | 1.1.2 |
flatbuffers | 1.12 | fsspec | 2021.8.1 | future | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.9 | GitPython | 3.1.27 |
google-auth | 2.6.0 | google-auth-oauthlib | 0.4.6 | google-pasta | 0.2.0 |
grpcio | 1.44.0 | gunicorn | 20.1.0 | gviz-api | 1.10.0 |
h5py | 3.3.0 | hijri-converter | 2.2.4 | feriados | 0.15 |
horovod | 0.25.0 | htmlmin | 0.1.12 | huggingface-hub | 0.9.1 |
idna | 3.2 | ImageHash | 4.3.0 | imbalanced-learn | 0.8.1 |
importlib-metadata | 4.8.1 | ipykernel | 6.12.1 | ipython | 7.32.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.7.0 | isodate | 0.6.1 |
itsdangerous | 2.0.1 | jedi | 0.18.0 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.5.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.8.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.9.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | korean-lunar-calendar | 0.3.1 |
langcodes | 3.3.0 | libclang | 14.0.6 | lightgbm | 3.3.2 |
llvmlite | 0.37.0 | LunarCalendar | 0.0.9 | Mako | 1.2.0 |
Markdown | 3.3.6 | MarkupSafe | 2.0.1 | matplotlib | 3.4.3 |
matplotlib-inline | 0.1.2 | missingno | 0.5.1 | mistune | 0.8.4 |
mleap | 0.20.0 | mlflow-skinny | 1.29.0 | multimethod | 1.9 |
murmurhash | 1.0.8 | mypy-extensions | 0.4.3 | nbclient | 0.5.3 |
nbconvert | 6.1.0 | nbformat | 5.1.3 | nest-asyncio | 1.5.1 |
networkx | 2.6.3 | nltk | 3.6.5 | notebook | 6.4.5 |
numba | 0.54.1 | numpy | 1.20.3 | oauthlib | 3.2.0 |
opt-einsum | 3.3.0 | empacotando | 21.0 | pandas | 1.3.4 |
pandas-profiling | 3.1.0 | pandocfilters | 1.4.3 | paramiko | 2.9.2 |
parso | 0.8.2 | pathspec | 0.9.0 | pathy | 0.6.2 |
patsy | 0.5.2 | petastorm | 0.11.4 | pexpect | 4.8.0 |
phik | 0.12.2 | pickleshare | 0.7.5 | Pillow | 8.4.0 |
pip | 21.2.4 | platformdirs | 2.5.2 | plotly | 5.9.0 |
pmdarima | 1.8.5 | preshed | 3.0.7 | prometheus-client | 0.11.0 |
prompt-toolkit | 3.0.20 | prophet | 1.0.1 | protobuf | 3.19.4 |
psutil | 5.8.0 | psycopg2 | 2.9.3 | ptyprocess | 0.7.0 |
pyarrow | 7.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.10.0 | pycparser | 2,20 | pydantic | 1.9.2 |
Pygments | 2.10.0 | PyGObject | 3.36.0 | PyJWT | 2.5.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.5.0 | pyodbc | 4.0.31 |
pyparsing | 3.0.4 | pyrsistent | 0.18.0 | pystan | 2.19.1.1 |
python-dateutil | 2.8.2 | python-editor | 1.0.4 | pytz | 2021.3 |
PyWavelets | 1.1.1 | PyYAML | 6,0 | pyzmq | 22.2.1 |
regex | 2021.8.3 | solicitações | 2.26.0 | requests-oauthlib | 1.3.1 |
requests-unixsocket | 0.2.0 | rsa | 4.9 | s3transfer | 0.5.2 |
scikit-learn | 0.24.2 | scipy | 1.7.1 | seaborn | 0.11.3 |
Send2Trash | 1.8.0 | setuptools | 58.0.4 | setuptools-git | 1,2 |
shap | 0.41.0 | simplejson | 3.17.6 | six | 1.16.0 |
slicer | 0.0.7 | smart-open | 5.2.1 | smmap | 5.0.0 |
spacy | 3.4.1 | spacy-legacy | 3.0.10 | spacy-loggers | 1.0.3 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.2 | srsly | 2.4.4 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabulate | 0.8.9 |
tangled-up-in-unicode | 0.1.0 | tenacity | 8.0.1 | tensorboard | 2.9.1 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.8.0 | tensorboard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.9.1 | tensorflow-estimator | 2.9.0 | tensorflow-io-gcs-filesystem | 0.27.0 |
termcolor | 2.0.1 | terminado | 0.9.4 | testpath | 0.5.0 |
thinc | 8.1.2 | threadpoolctl | 2.2.0 | tokenize-rt | 4.2.1 |
criadores de token | 0.12.1 | tomli | 2.0.1 | torch | 1.12.1+cpu |
torchvision | 0.13.1+cpu | tornado | 6.1 | tqdm | 4.62.3 |
traitlets | 5.1.0 | transformers | 4.21.2 | typer | 0.4.2 |
typing-extensions | 3.10.0.2 | ujson | 4.0.2 | unattended-upgrades | 0,1 |
urllib3 | 1.26.7 | virtualenv | 20.8.0 | visions | 0.7.4 |
wasabi | 0.10.1 | wcwidth | 0.2.5 | webencodings | 0.5.1 |
websocket-client | 1.3.1 | Werkzeug | 2.0.2 | wheel | 0.37.0 |
widgetsnbextension | 3.6.0 | wrapt | 1.12.1 | xgboost | 1.6.2 |
zipp | 3.6.0 |
Bibliotecas do Python em clusters de GPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
absl-py | 1.0.0 | argon2-cffi | 20.1.0 | astor | 0.8.1 |
astunparse | 1.6.3 | async-generator | 1,10 | attrs | 21.2.0 |
azure-core | 1.22.1 | azure-cosmos | 4.2.0 | backcall | 0.2.0 |
backports.entry-points-selectable | 1.1.1 | bcrypt | 4.0.0 | black | 22.3.0 |
bleach | 4.0.0 | blis | 0.7.8 | boto3 | 1.21.18 |
botocore | 1.24.18 | cachetools | 5.2.0 | catalogue | 2.0.8 |
certifi | 2021.10.8 | cffi | 1.14.6 | chardet | 4.0.0 |
charset-normalizer | 2.0.4 | clique | 8.0.3 | cloudpickle | 2.0.0 |
cmdstanpy | 0.9.68 | confecção | 0.0.1 | configparser | 5.2.0 |
convertdate | 2.4.0 | criptografia | 3.4.8 | cycler | 0.10.0 |
cymem | 2.0.6 | Cython | 0.29.24 | databricks-automl-runtime | 0.2.11 |
databricks-cli | 0.17.3 | dbl-tempo | 0.1.12 | dbus-python | 1.2.16 |
debugpy | 1.4.1 | decorator | 5.1.0 | defusedxml | 0.7.1 |
dill | 0.3.4 | diskcache | 5.4.0 | distlib | 0.3.6 |
entrypoints | 0.3 | ephem | 4.1.3 | facets-overview | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.3.1 | Flask | 1.1.2 |
flatbuffers | 1.12 | fsspec | 2021.8.1 | future | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.9 | GitPython | 3.1.27 |
google-auth | 2.6.0 | google-auth-oauthlib | 0.4.6 | google-pasta | 0.2.0 |
grpcio | 1.44.0 | gunicorn | 20.1.0 | gviz-api | 1.10.0 |
h5py | 3.3.0 | hijri-converter | 2.2.4 | feriados | 0.15 |
horovod | 0.25.0 | htmlmin | 0.1.12 | huggingface-hub | 0.9.1 |
idna | 3.2 | ImageHash | 4.3.0 | imbalanced-learn | 0.8.1 |
importlib-metadata | 4.8.1 | ipykernel | 6.12.1 | ipython | 7.32.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.7.0 | isodate | 0.6.1 |
itsdangerous | 2.0.1 | jedi | 0.18.0 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.5.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.8.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.9.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | korean-lunar-calendar | 0.3.1 |
langcodes | 3.3.0 | libclang | 14.0.6 | lightgbm | 3.3.2 |
llvmlite | 0.37.0 | LunarCalendar | 0.0.9 | Mako | 1.2.0 |
Markdown | 3.3.6 | MarkupSafe | 2.0.1 | matplotlib | 3.4.3 |
matplotlib-inline | 0.1.2 | missingno | 0.5.1 | mistune | 0.8.4 |
mleap | 0.20.0 | mlflow-skinny | 1.29.0 | multimethod | 1.9 |
murmurhash | 1.0.8 | mypy-extensions | 0.4.3 | nbclient | 0.5.3 |
nbconvert | 6.1.0 | nbformat | 5.1.3 | nest-asyncio | 1.5.1 |
networkx | 2.6.3 | nltk | 3.6.5 | notebook | 6.4.5 |
numba | 0.54.1 | numpy | 1.20.3 | oauthlib | 3.2.0 |
opt-einsum | 3.3.0 | empacotando | 21.0 | pandas | 1.3.4 |
pandas-profiling | 3.1.0 | pandocfilters | 1.4.3 | paramiko | 2.9.2 |
parso | 0.8.2 | pathspec | 0.9.0 | pathy | 0.6.2 |
patsy | 0.5.2 | petastorm | 0.11.4 | pexpect | 4.8.0 |
phik | 0.12.2 | pickleshare | 0.7.5 | Pillow | 8.4.0 |
pip | 21.2.4 | platformdirs | 2.5.2 | plotly | 5.9.0 |
pmdarima | 1.8.5 | preshed | 3.0.7 | prompt-toolkit | 3.0.20 |
prophet | 1.0.1 | protobuf | 3.19.4 | psutil | 5.8.0 |
psycopg2 | 2.9.3 | ptyprocess | 0.7.0 | pyarrow | 7.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.10.0 |
pycparser | 2,20 | pydantic | 1.9.2 | Pygments | 2.10.0 |
PyGObject | 3.36.0 | PyJWT | 2.5.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.5.0 | pyodbc | 4.0.31 | pyparsing | 3.0.4 |
pyrsistent | 0.18.0 | pystan | 2.19.1.1 | python-dateutil | 2.8.2 |
python-editor | 1.0.4 | pytz | 2021.3 | PyWavelets | 1.1.1 |
PyYAML | 6,0 | pyzmq | 22.2.1 | regex | 2021.8.3 |
solicitações | 2.26.0 | requests-oauthlib | 1.3.1 | requests-unixsocket | 0.2.0 |
rsa | 4.9 | s3transfer | 0.5.2 | scikit-learn | 0.24.2 |
scipy | 1.7.1 | seaborn | 0.11.3 | Send2Trash | 1.8.0 |
setuptools | 58.0.4 | setuptools-git | 1,2 | shap | 0.41.0 |
simplejson | 3.17.6 | six | 1.16.0 | slicer | 0.0.7 |
smart-open | 5.2.1 | smmap | 5.0.0 | spacy | 3.4.1 |
spacy-legacy | 3.0.10 | spacy-loggers | 1.0.3 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.2 | srsly | 2.4.4 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | tabulate | 0.8.9 | tangled-up-in-unicode | 0.1.0 |
tenacity | 8.0.1 | tensorboard | 2.9.1 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-profile | 2.8.0 | tensorboard-plugin-wit | 1.8.1 | tensorflow | 2.9.1 |
tensorflow-estimator | 2.9.0 | tensorflow-io-gcs-filesystem | 0.27.0 | termcolor | 2.0.1 |
terminado | 0.9.4 | testpath | 0.5.0 | thinc | 8.1.2 |
threadpoolctl | 2.2.0 | tokenize-rt | 4.2.1 | criadores de token | 0.12.1 |
tomli | 2.0.1 | torch | 1.12.1+cu113 | torchvision | 0.13.1+cu113 |
tornado | 6.1 | tqdm | 4.62.3 | traitlets | 5.1.0 |
transformers | 4.21.2 | typer | 0.4.2 | typing-extensions | 3.10.0.2 |
ujson | 4.0.2 | unattended-upgrades | 0,1 | urllib3 | 1.26.7 |
virtualenv | 20.8.0 | visions | 0.7.4 | wasabi | 0.10.1 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 1.3.1 |
Werkzeug | 2.0.2 | wheel | 0.37.0 | widgetsnbextension | 3.6.0 |
wrapt | 1.12.1 | xgboost | 1.6.2 | zipp | 3.6.0 |
Bibliotecas do R
As bibliotecas do R são idênticas às Bibliotecas do R existentes no Databricks Runtime 11.3 LTS.
Bibliotecas do Java e do Scala (cluster do Scala 2.12)
Além das bibliotecas do Java e do Scala no Databricks Runtime 11.3 LTS, o Databricks Runtime 11.3 LTS para ML contém os seguintes JARs:
Clusters de CPU
ID do Grupo | Artifact ID | Versão |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | v0.20.0-db1 |
ml.dmlc | xgboost4j-spark_2.12 | 1.6.2 |
ml.dmlc | xgboost4j_2.12 | 1.6.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.29.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clusters de GPU
ID do Grupo | Artifact ID | Versão |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | v0.20.0-db1 |
ml.dmlc | xgboost4j-gpu_2.12 | 1.6.2 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.6.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.29.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |