Databricks Runtime 5.4 para ML (sem suporte)

A Databricks divulgou esta imagem em junho de 2019.

O Databricks Runtime 5.4 for Machine Learning fornece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 5.4 (sem suporte). O Databricks Runtime ML contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch, Keras e XGBoost. Ele também suporta treinamento distribuído de aprendizagem profunda usando Horovod.

Para obter mais informações, incluindo instruções para criar um cluster de ML do Databricks Runtime, consulte IA e Machine Learning no Databricks.

Novas funcionalidades

O Databricks Runtime 5.4 ML é construído sobre o Databricks Runtime 5.4. Para obter informações sobre o que há de novo no Databricks Runtime 5.4, consulte as notas de versão do Databricks Runtime 5.4 (sem suporte).

Além das atualizações da biblioteca, o Databricks Runtime 5.4 ML apresenta os seguintes novos recursos:

Hyperopt distribuído + rastreamento automatizado de MLflow

O Databricks Runtime 5.4 ML introduz uma nova implementação do Hyperopt alimentado pelo Apache Spark para dimensionar e simplificar o ajuste de hiperparâmetros. Uma nova Trials classe SparkTrials é implementada para distribuir execuções de avaliação do Hyperopt entre várias máquinas e nós usando o Apache Spark. Além disso, todos os experimentos de ajuste, juntamente com os hiperparâmetros ajustados e as métricas direcionadas, são automaticamente registrados em execuções do MLflow. Consulte Paralelizar ajuste de hiperparâmetros com scikit-learn e MLflow.

Importante

Esta funcionalidade está em Pré-visualização Pública.

Apache Spark MLlib + rastreamento automatizado de MLflow

O Databricks Runtime 5.4 ML suporta o registro automático de execuções MLflow para modelos ajustados usando algoritmos CrossValidator de ajuste PySpark e TrainValidationSplit. Consulte Apache Spark MLlib e rastreamento automatizado de MLflow. Esse recurso está ativado por padrão no Databricks Runtime 5.4 ML, mas estava desativado por padrão no Databricks Runtime 5.3 ML.

Importante

Esta funcionalidade está em Pré-visualização Pública.

Melhoria do HorovodRunner

A saída enviada do Horovod para o nó do driver Spark agora é visível nas células do notebook.

Atualização do pacote XGBoost Python

XGBoost Python pacote 0.80 está instalado.

Ambiente do sistema

O ambiente do sistema no Databricks Runtime 5.4 ML difere do Databricks Runtime 5.4 da seguinte maneira:

  • Python: 2.7.15 para clusters Python 2 e 3.6.5 para clusters Python 3.
  • DBUtils: Databricks Runtime 5.4 ML não contém o utilitário Biblioteca (dbutils.library) (legado).
  • Para clusters de GPU, as seguintes bibliotecas de GPU NVIDIA:
    • Motorista Tesla 396.44
    • CUDA 9,2
    • CUDNN 7.2.1

Bibliotecas

As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 5.4 ML que diferem daquelas incluídas no Databricks Runtime 5.4.

Bibliotecas de nível superior

O Databricks Runtime 5.4 ML inclui as seguintes bibliotecas de camada superior:

Bibliotecas Python

O Databricks Runtime 5.4 ML usa o Conda para gerenciamento de pacotes Python. Como resultado, há grandes diferenças nas bibliotecas Python instaladas em comparação com o Databricks Runtime. A seguir está uma lista completa dos pacotes Python fornecidos e versões instaladas usando o gerenciador de pacotes Conda.

Biblioteca Versão Biblioteca Versão Biblioteca Versão
ABSL-PY 0.7.1 argparse 1.4.0 asn1crypto 0.24.0
Astor 0.7.1 backports-abc 0.5 backports.functools-lru-cache 1.5
backports.weakref 1.0.POST1 Cripta 3.1.6 lixívia 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
Cloudpickle 0.5.3 colorama 0.3.9 ConfigParser 3.5.0
criptografia 2.2.2 cycler 0.10.0 Quisto 0.28.2
decorador 4.3.0 docutils 0.14 pontos de entrada 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 Futuro 0.17.1
futuros 3.2.0 gast 0.2.2 Grpcio 1.12.1
H5PY 2.8.0 Horovod 0.16.0 html5lib 1.0.1
hiperoptia 0.1.2.db4 idna 2.6 ipaddress 1.0.22
ipython 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
Jinja2 2.10 jmespath 0.9.4 jsonschema 2.6.0
jupyter-cliente 5.2.3 Jupyter-core 4.4.0 Keras 2.2.4
Keras-Aplicações 1.0.7 Pré-processamento de Keras 1.0.9 Kiwisolver 1.1.0
LineCache2 1.0.0 llvmlite 0.23.1 lxml 4.2.1
Markdown 3.1.1 MarkupSafe 1.0 matplotlib 2.2.2
Mistune 0.8.3 MKL-FFT 1.0.0 mkl-aleatório 1.0.1
PEAML 0.8.1 simulado 2.0.0 msgpack 0.5.6
nbconvert 5.3.1 nbformat 4.4.0 redex 2.2
nariz 1.3.7 nariz-excluir 0.5.0 numba 0.38.0+0.g2a2b772fc.sujo
numpy 1.14.3 olefile 0.45.1 openpyxl 2.5.3
pandas 0.23.0 PandocFilters 1.4.2 Paramiko 2.4.1
pathlib2 2.3.2 patsy 0.5.0 PBR 5.1.3
pexpect 4.5.0 pickleshare 0.7.4 Travesseiro 5.1.0
pip 10.0.1 ply 3.11 prompt-toolkit 1.0.15
protobuf 3.7.1 PSUTIL 5.6.2 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.12.1 pyasn1 0.4.5
pycparser 2.18 Pygments 2.2.0 Pymongo 3.8.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
Meias PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 5.1 Pyzmq 17.0.0
pedidos 2.18.4 s3transferir 0.1.13 Scandir 1.7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
setuptools 39.1.0 simplesgenérico 0.8.1 singledispatch 3.4.0.3
seis 1.11.0 statsmodels 0.9.0 subprocesso32 3.5.4
TensorBoard 1.12.2 tensorboardX 1.6 TensorFlow 1.12.0
Termcolor 1.1.0 caminho de teste 0.3.1 tocha 0.4.1
Torchvision 0.2.1 tornado 5.0.2 TQDM 4.32.1
traceback2 1.4.0 traços 4.3.2 teste unitário2 1.1.0
urllib3 1.22 virtualenv 16.0.0 largura de wc 0.1.7
WebEncodings 0.5.1 Werkzeug 0.14.1 roda 0.31.1
embrulhado 1.10.11 wsgiref 0.1.2

Além disso, os seguintes pacotes do Spark incluem módulos Python:

Pacote Spark Módulo Python Versão
quadros gráficos quadros gráficos 0.7.0-db1-faísca2.4
faísca-aprendizagem profunda Faísca 1.5.0-DB3-Faísca2.4
tensorframes tensorframes 0.6.0-s_2.11

Bibliotecas R

As bibliotecas R são idênticas às bibliotecas R no Databricks Runtime 5.4.

Bibliotecas Java e Scala (cluster Scala 2.11)

Além das bibliotecas Java e Scala no Databricks Runtime 5.4, o Databricks Runtime 5.4 ML contém os seguintes JARs:

ID do Grupo ID do Artefacto Versão
com.databricks faísca-aprendizagem profunda 1.5.0-DB3-Faísca2.4
com.typesafe.akka AKKA-actor_2,11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0,81
ml.dmlc xgboost4j-faísca 0,81
org.graphframes graphframes_2.11 0.7.0-db1-faísca2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow TensorFlow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11