Databricks Runtime 5.4 para ML (sem suporte)
A Databricks divulgou esta imagem em junho de 2019.
O Databricks Runtime 5.4 for Machine Learning fornece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 5.4 (sem suporte). O Databricks Runtime ML contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch, Keras e XGBoost. Ele também suporta treinamento distribuído de aprendizagem profunda usando Horovod.
Para obter mais informações, incluindo instruções para criar um cluster de ML do Databricks Runtime, consulte IA e Machine Learning no Databricks.
Novas funcionalidades
O Databricks Runtime 5.4 ML é construído sobre o Databricks Runtime 5.4. Para obter informações sobre o que há de novo no Databricks Runtime 5.4, consulte as notas de versão do Databricks Runtime 5.4 (sem suporte).
Além das atualizações da biblioteca, o Databricks Runtime 5.4 ML apresenta os seguintes novos recursos:
Hyperopt distribuído + rastreamento automatizado de MLflow
O Databricks Runtime 5.4 ML introduz uma nova implementação do Hyperopt alimentado pelo Apache Spark para dimensionar e simplificar o ajuste de hiperparâmetros. Uma nova Trials
classe SparkTrials
é implementada para distribuir execuções de avaliação do Hyperopt entre várias máquinas e nós usando o Apache Spark. Além disso, todos os experimentos de ajuste, juntamente com os hiperparâmetros ajustados e as métricas direcionadas, são automaticamente registrados em execuções do MLflow. Consulte Paralelizar ajuste de hiperparâmetros com scikit-learn e MLflow.
Importante
Esta funcionalidade está em Pré-visualização Pública.
Apache Spark MLlib + rastreamento automatizado de MLflow
O Databricks Runtime 5.4 ML suporta o registro automático de execuções MLflow para modelos ajustados usando algoritmos CrossValidator
de ajuste PySpark e TrainValidationSplit
. Consulte Apache Spark MLlib e rastreamento automatizado de MLflow. Esse recurso está ativado por padrão no Databricks Runtime 5.4 ML, mas estava desativado por padrão no Databricks Runtime 5.3 ML.
Importante
Esta funcionalidade está em Pré-visualização Pública.
Melhoria do HorovodRunner
A saída enviada do Horovod para o nó do driver Spark agora é visível nas células do notebook.
Atualização do pacote XGBoost Python
XGBoost Python pacote 0.80 está instalado.
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 5.4 ML difere do Databricks Runtime 5.4 da seguinte maneira:
- Python: 2.7.15 para clusters Python 2 e 3.6.5 para clusters Python 3.
- DBUtils: Databricks Runtime 5.4 ML não contém o utilitário Biblioteca (dbutils.library) (legado).
- Para clusters de GPU, as seguintes bibliotecas de GPU NVIDIA:
- Motorista Tesla 396.44
- CUDA 9,2
- CUDNN 7.2.1
Bibliotecas
As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 5.4 ML que diferem daquelas incluídas no Databricks Runtime 5.4.
Bibliotecas de nível superior
O Databricks Runtime 5.4 ML inclui as seguintes bibliotecas de camada superior:
Bibliotecas Python
O Databricks Runtime 5.4 ML usa o Conda para gerenciamento de pacotes Python. Como resultado, há grandes diferenças nas bibliotecas Python instaladas em comparação com o Databricks Runtime. A seguir está uma lista completa dos pacotes Python fornecidos e versões instaladas usando o gerenciador de pacotes Conda.
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
ABSL-PY | 0.7.1 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
Astor | 0.7.1 | backports-abc | 0.5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.POST1 | Cripta | 3.1.6 | lixívia | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
Cloudpickle | 0.5.3 | colorama | 0.3.9 | ConfigParser | 3.5.0 |
criptografia | 2.2.2 | cycler | 0.10.0 | Quisto | 0.28.2 |
decorador | 4.3.0 | docutils | 0.14 | pontos de entrada | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | Futuro | 0.17.1 |
futuros | 3.2.0 | gast | 0.2.2 | Grpcio | 1.12.1 |
H5PY | 2.8.0 | Horovod | 0.16.0 | html5lib | 1.0.1 |
hiperoptia | 0.1.2.db4 | idna | 2.6 | ipaddress | 1.0.22 |
ipython | 5.7.0 | ipython_genutils | 0.2.0 | jdcal | 1.4 |
Jinja2 | 2.10 | jmespath | 0.9.4 | jsonschema | 2.6.0 |
jupyter-cliente | 5.2.3 | Jupyter-core | 4.4.0 | Keras | 2.2.4 |
Keras-Aplicações | 1.0.7 | Pré-processamento de Keras | 1.0.9 | Kiwisolver | 1.1.0 |
LineCache2 | 1.0.0 | llvmlite | 0.23.1 | lxml | 4.2.1 |
Markdown | 3.1.1 | MarkupSafe | 1.0 | matplotlib | 2.2.2 |
Mistune | 0.8.3 | MKL-FFT | 1.0.0 | mkl-aleatório | 1.0.1 |
PEAML | 0.8.1 | simulado | 2.0.0 | msgpack | 0.5.6 |
nbconvert | 5.3.1 | nbformat | 4.4.0 | redex | 2.2 |
nariz | 1.3.7 | nariz-excluir | 0.5.0 | numba | 0.38.0+0.g2a2b772fc.sujo |
numpy | 1.14.3 | olefile | 0.45.1 | openpyxl | 2.5.3 |
pandas | 0.23.0 | PandocFilters | 1.4.2 | Paramiko | 2.4.1 |
pathlib2 | 2.3.2 | patsy | 0.5.0 | PBR | 5.1.3 |
pexpect | 4.5.0 | pickleshare | 0.7.4 | Travesseiro | 5.1.0 |
pip | 10.0.1 | ply | 3.11 | prompt-toolkit | 1.0.15 |
protobuf | 3.7.1 | PSUTIL | 5.6.2 | psycopg2 | 2.7.5 |
ptyprocess | 0.5.2 | pyarrow | 0.12.1 | pyasn1 | 0.4.5 |
pycparser | 2.18 | Pygments | 2.2.0 | Pymongo | 3.8.0 |
PyNaCl | 1.3.0 | pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 |
Meias PySocks | 1.6.8 | Python | 2.7.15 | python-dateutil | 2.7.3 |
pytz | 2018.4 | PyYAML | 5.1 | Pyzmq | 17.0.0 |
pedidos | 2.18.4 | s3transferir | 0.1.13 | Scandir | 1.7 |
scikit-learn | 0.19.1 | scipy | 1.1.0 | seaborn | 0.8.1 |
setuptools | 39.1.0 | simplesgenérico | 0.8.1 | singledispatch | 3.4.0.3 |
seis | 1.11.0 | statsmodels | 0.9.0 | subprocesso32 | 3.5.4 |
TensorBoard | 1.12.2 | tensorboardX | 1.6 | TensorFlow | 1.12.0 |
Termcolor | 1.1.0 | caminho de teste | 0.3.1 | tocha | 0.4.1 |
Torchvision | 0.2.1 | tornado | 5.0.2 | TQDM | 4.32.1 |
traceback2 | 1.4.0 | traços | 4.3.2 | teste unitário2 | 1.1.0 |
urllib3 | 1.22 | virtualenv | 16.0.0 | largura de wc | 0.1.7 |
WebEncodings | 0.5.1 | Werkzeug | 0.14.1 | roda | 0.31.1 |
embrulhado | 1.10.11 | wsgiref | 0.1.2 |
Além disso, os seguintes pacotes do Spark incluem módulos Python:
Pacote Spark | Módulo Python | Versão |
---|---|---|
quadros gráficos | quadros gráficos | 0.7.0-db1-faísca2.4 |
faísca-aprendizagem profunda | Faísca | 1.5.0-DB3-Faísca2.4 |
tensorframes | tensorframes | 0.6.0-s_2.11 |
Bibliotecas R
As bibliotecas R são idênticas às bibliotecas R no Databricks Runtime 5.4.
Bibliotecas Java e Scala (cluster Scala 2.11)
Além das bibliotecas Java e Scala no Databricks Runtime 5.4, o Databricks Runtime 5.4 ML contém os seguintes JARs:
ID do Grupo | ID do Artefacto | Versão |
---|---|---|
com.databricks | faísca-aprendizagem profunda | 1.5.0-DB3-Faísca2.4 |
com.typesafe.akka | AKKA-actor_2,11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0,81 |
ml.dmlc | xgboost4j-faísca | 0,81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-faísca2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | TensorFlow | 1.12.0 |
org.tensorframes | tensorframes | 0.6.0-s_2.11 |