Databricks Runtime 10.3 para ML (sem suporte)
O Databricks Runtime 10.3 para Machine Learning fornece um ambiente de aprendizado de máquina e ciência de dados pronto para uso baseado no Databricks Runtime 10.3 (sem suporte). O Databricks Runtime ML contém muitas bibliotecas de aprendizado de máquina populares, inclusive TensorFlow, PyTorch e XGBoost. O Databricks Runtime ML inclui o AutoML, uma ferramenta para treinamento automático de pipelines de aprendizado de máquina. O Databricks Runtime ML também oferece suporte ao treinamento de aprendizado profundo distribuído com o uso do Horovod.
Para obter mais informações, como instruções para a criação de um cluster do Databricks Runtime ML, confira IA e Machine Learning no Databricks.
Novos recursos e aprimoramentos
O Databricks Runtime 10.3 ML foi criado com base no Databricks Runtime 10.3. Para mais informações sobre as novidades do Databricks Runtime 10.3, inclusive o Apache Spark MLlib e o SparkR, veja as notas sobre a versão do Databricks Runtime 10.3 (sem suporte).
Aprimoramentos no Databricks AutoML
Foram feitos os seguintes aprimoramentos no Databricks AutoML.
O AutoML agora dá suporte ao modelo ARIMA de previsão
Além do Prophet, o AutoML agora cria e avalia modelos ARIMA para prever problemas.
Excluir colunas do conjunto de dados
Ao usar a API do AutoML, você pode especificar colunas que o AutoML deve ignorar durante os cálculos. Isso está disponível apenas para problemas de classificação e regressão. Confira Parâmetros de classificação e regressão para conhecer os detalhes.
Excluir estruturas de algoritmo de uma execução do AutoML
É possível especificar estruturas de algoritmos, como o scikit-learn, que o AutoML não deve considerar ao desenvolver modelos. Consulte Configurações avançadas e Parâmetros de classificação e regressão para obter detalhes.
max_trials
desativado
O parâmetro max_trials
foi desativado e será removido na próxima versão principal do Databricks Runtime ML. Use timeout_minutes
para controlar a duração de uma execução do AutoML. Além disso, no Databricks Runtime 10.1 ML e superior, o AutoML incorpora a parada antecipada; ele interromperá modelos de treinamento e de ajuste se a métrica de validação não estiver mais melhorando.
Aprimoramentos no Databricks Feature Store
Agora você pode aplicar as pesquisas pontuais a tabelas de recursos de série temporal. Consulte Usar tabelas de recursos de série temporal com suporte pontual para obter detalhes.
Databricks Autologging (GA)
O Databricks Autologging agora está disponível para o público em geral no Databricks Runtime 10.3 ML. O Databricks Autologging é uma solução sem código que fornece acompanhamento automático de experimentos nas sessões de treinamento em aprendizado de máquina no Azure Databricks. Com o Databricks Autologging, parâmetros de modelos, métricas, arquivos e informações de linhagem são capturados automaticamente quando você treina modelos de várias bibliotecas de aprendizado de máquina populares. As sessões de treinamento são registradas como Execuções de Acompanhamento do MLflow. Os arquivos de modelo também são rastreados para que você possa registrá-los facilmente no Registro de Modelo do MLflow e implantá-los para pontuação em tempo real com o Serviço de Modelo do MLflow.
Confira Databricks Autologging para obter mais informações.
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 10.3 ML é diferente do Databricks Runtime 10.3 nestes aspectos:
- DBUtils: O Databricks Runtime ML não inclui Utilitário de biblioteca (dbutils.library) (herdado).
Use os comandos
%pip
. Confira as bibliotecas Python no escopo do notebook. - Para clusters de GPU, o Databricks Runtime ML inclui as seguintes bibliotecas de GPU NVIDIA:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Bibliotecas
As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 10.3 ML que diferem daquelas incluídas no Databricks Runtime 10.3.
Nesta seção:
- Bibliotecas de camada superior
- Bibliotecas do Python
- Bibliotecas do R
- Bibliotecas do Java e do Scala (cluster do Scala 2.12)
Bibliotecas de camada superior
O Databricks Runtime 10.3 ML inclui as seguintes bibliotecas de camada superior:
- GraphFrames
- Horovod e HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Bibliotecas do Python
O Databricks Runtime 10.3 ML usa o Virtualenv para gerenciamento de pacotes do Python e inclui muitos pacotes de ML bastante populares.
Além dos pacotes especificados nas seções a seguir, o Databricks Runtime 10.3 ML também inclui os seguintes pacotes:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.7
- automl 1.6.0
Bibliotecas do Python em clusters de CPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (atualização cumulativa de ISO) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | catalogue | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | clique | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | criptografia | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.5 |
databricks-cli | 0.16.2 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
decorator | 5.0.6 | defusedxml | 0.7.1 | dill | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
entrypoints | 0.3 | ephem | 4.1.3 | facets-overview | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2,0 | fsspec | 0.9.0 | future | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.2 | feriados | 0,12 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | imbalanced-learn | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.7.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
korean-lunar-calendar | 0.2.1 | langcodes | 3.3.0 | libclang | 12.0.0 |
lightgbm | 3.3.1 | llvmlite | 0.38.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | mistune | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.23.0 | multimethod | 1.6 |
murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | notebook | 6.3.0 | numba | 0.55.0 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
empacotando | 21.3 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
pathy | 0.6.0 | patsy | 0.5.1 | petastorm | 0.11.3 |
pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
Pillow | 8.2.0 | pip | 21.0.1 | plotly | 5.5.0 |
pmdarima | 1.8.4 | preshed | 3.0.5 | prometheus-client | 0.10.1 |
prompt-toolkit | 3.0.17 | prophet | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.9.0 | pycparser | 2,20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 |
python-dateutil | 2.8.1 | python-editor | 1.0.4 | python-engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
solicitações | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
rsa | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1,2 |
shap | 0.40.0 | simplejson | 3.17.2 | six | 1.15.0 |
slicer | 0.0.7 | smart-open | 5.2.0 | smmap | 3.0.5 |
spacy | 3.2.1 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | srsly | 2.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabulate | 0.8.7 |
tangled-up-in-unicode | 0.1.0 | tenacity | 6.2.0 | tensorboard | 2.7.0 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.7.0 | tensorflow-estimator | 2.7.0 | tensorflow-io-gcs-filesystem | 0.23.1 |
termcolor | 1.1.0 | terminado | 0.9.4 | testpath | 0.4.4 |
thinc | 8.0.12 | threadpoolctl | 2.1.0 | tokenizers | 0.10.3 |
torch | 1.10.1+cpu | torchvision | 0.11.2+cpu | tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | transformers | 4.15.0 |
typer | 0.3.2 | typing-extensions | 3.7.4.3 | ujson | 4.0.2 |
unattended-upgrades | 0,1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
visions | 0.7.4 | wasabi | 0.8.2 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
wheel | 0.36.2 | widgetsnbextension | 3.5.1 | wrapt | 1.12.1 |
xgboost | 1.5.1 | zipp | 3.4.1 |
Bibliotecas do Python em clusters de GPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (atualização cumulativa de ISO) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | catalogue | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | clique | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | criptografia | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.5 |
databricks-cli | 0.16.2 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
decorator | 5.0.6 | defusedxml | 0.7.1 | dill | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
entrypoints | 0.3 | ephem | 4.1.3 | facets-overview | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2,0 | fsspec | 0.9.0 | future | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.2 | feriados | 0,12 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | imbalanced-learn | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.7.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
korean-lunar-calendar | 0.2.1 | langcodes | 3.3.0 | libclang | 12.0.0 |
lightgbm | 3.3.1 | llvmlite | 0.38.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | mistune | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.23.0 | multimethod | 1.6 |
murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | notebook | 6.3.0 | numba | 0.55.0 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
empacotando | 21.3 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
pathy | 0.6.0 | patsy | 0.5.1 | petastorm | 0.11.3 |
pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
Pillow | 8.2.0 | pip | 21.0.1 | plotly | 5.5.0 |
pmdarima | 1.8.4 | preshed | 3.0.5 | prompt-toolkit | 3.0.17 |
prophet | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.9.0 |
pycparser | 2,20 | pydantic | 1.8.2 | Pygments | 2.8.1 |
PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.4.0 |
pyodbc | 4.0.30 | pyparsing | 2.4.7 | pyrsistent | 0.17.3 |
pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 |
python-editor | 1.0.4 | python-engineio | 4.3.0 | python-socketio | 5.4.1 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | solicitações | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | rsa | 4.7.2 |
s3transfer | 0.3.7 | sacremoses | 0.0.46 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1,2 | shap | 0.40.0 |
simplejson | 3.17.2 | six | 1.15.0 | slicer | 0.0.7 |
smart-open | 5.2.0 | smmap | 3.0.5 | spacy | 3.2.1 |
spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.1 | srsly | 2.4.1 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | tabulate | 0.8.7 | tangled-up-in-unicode | 0.1.0 |
tenacity | 6.2.0 | tensorboard | 2.7.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 | tensorflow | 2.7.0 |
tensorflow-estimator | 2.7.0 | tensorflow-io-gcs-filesystem | 0.23.1 | termcolor | 1.1.0 |
terminado | 0.9.4 | testpath | 0.4.4 | thinc | 8.0.12 |
threadpoolctl | 2.1.0 | tokenizers | 0.10.3 | torch | 1.10.1+cu111 |
torchvision | 0.11.2+cu111 | tornado | 6.1 | tqdm | 4.59.0 |
traitlets | 5.0.5 | transformers | 4.15.0 | typer | 0.3.2 |
typing-extensions | 3.7.4.3 | ujson | 4.0.2 | unattended-upgrades | 0,1 |
urllib3 | 1.25.11 | virtualenv | 20.4.1 | visions | 0.7.4 |
wasabi | 0.8.2 | wcwidth | 0.2.5 | webencodings | 0.5.1 |
websocket-client | 0.57.0 | Werkzeug | 1.0.1 | wheel | 0.36.2 |
widgetsnbextension | 3.5.1 | wrapt | 1.12.1 | xgboost | 1.5.1 |
zipp | 3.4.1 |
Pacotes do Spark que contêm módulos do Python
Pacote do Spark | Módulo do Python | Versão |
---|---|---|
graphframes | graphframes | 0.8.2-db1-spark3.2 |
Bibliotecas do R
As bibliotecas do R são idênticas às Bibliotecas do R existentes no Databricks Runtime 10.3.
Bibliotecas do Java e do Scala (cluster do Scala 2.12)
Além das bibliotecas do Java e do Scala no Databricks Runtime 10.3, o Databricks Runtime 10.3 ML contém os seguintes JARs:
Clusters de CPU
ID do Grupo | Artifact ID | Versão |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.23.0 |
org.mlflow | mlflow-spark | 1.23.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clusters de GPU
ID do Grupo | Artifact ID | Versão |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.23.0 |
org.mlflow | mlflow-spark | 1.23.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |