Databricks Runtime 5.1 ML (Beta)

Databricks divulgou esta imagem em dezembro de 2018.

Databricks O runtime 5.1 ML proporciona um ambiente pronto para a aprendizagem automática e ciência dos dados com base em Databricks Runtime 5.1 (Não suportado). Databricks Os tempos de execução para ML contêm muitas bibliotecas populares de aprendizagem automática, incluindo TensorFlow, PyTorch, Keras e XGBoost. Também suporta o treino de TensorFlow distribuído usando Horovod.

Para obter mais informações, incluindo instruções para a criação de um cluster ML de runtime de databricks, consulte databricks Runtime for Machine Learning.

Novas funcionalidades

Databricks O tempo de execução 5.1 ML é construído em cima do Databricks Runtime 5.1. Para obter informações sobre as novidades em Databricks Runtime 5.1, consulte as notas de lançamento databricks Runtime 5.1 (Não suportadas). Além das atualizações para as bibliotecas existentes nas Bibliotecas,o Databricks Runtime 5.1 ML inclui as seguintes novas funcionalidades:

  • PyTorch para construir redes de aprendizagem profunda.

Nota

As versões de Runtime ML de Databricks captam todas as atualizações de manutenção para o lançamento do prazo de execução databricks base. Para obter uma lista de todas as atualizações de manutenção, consulte as atualizações de manutenção do tempo de execução da Databricks.

Ambiente do sistema

A diferença no ambiente do sistema em Databricks Runtime 5.1 e que em Databricks Runtime 5.1 ML é:

  • Python: 2.7.15 para os aglomerados Python 2 e 3.6.5 para os aglomerados Python 3.
  • DBUtils: Databricks O tempo de execução 5.1 ML não contém utilitários da Biblioteca.
  • Para os clusters GPU, as seguintes bibliotecas gpu da NVIDIA:
    • Piloto da Tesla 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

Bibliotecas

As diferenças nas bibliotecas incluídas no Databricks Runtime 5.1 e as incluídas no Databricks Runtime 5.1 ML estão listadas nesta secção.

Bibliotecas do Python

Databricks Runtime 5.1 ML utiliza Conda para gestão de pacotes Python. Como resultado, há grandes mudanças nas bibliotecas Python pré-instaladas em comparação com databricks Runtime. Segue-se a lista completa de pacotes e versões python fornecidos instalados com o gestor de pacotes Conda.

Biblioteca Versão Biblioteca Versão Biblioteca Versão
absl-py 0.6.1 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0,5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.4 lixívia 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certificado 2018.04.16 cffi 1.11.5 cari de contradeta 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
criptografia 2.2.2 ciclor 0.10.0 Rio Cython 0.28.2
decorador 4.3.0 docutils 0,14 pontos de entrada 0.2.3
enum34 1.1.6 et-xmlfil 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 futuros 3.2.0
gás 0.2.0 grpcio 1.12.1 h5py 2.8.0
horovod 0.15.0 html5lib 1.0.1 idna 2,6
ipaddress 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2,10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-cliente 5.2.3 jupyter-core 4.4.0
Keras 2.2.4 Keras-Applications 1.0.6 Keras-Preprocessing 1.0.5
kiwisolver 1.0.1 linecache2 1.0.0 llvmlite 0.23.1
Lxml 4.2.1 Markdown 3.0.1 MarkupSafe 1,0
matplotlib 2.2.2 mistune 0.8.3 mleap 0.8.1
gozar 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 nariz 1.3.7 nariz-excluir 0.5.0
numba 0.38.0+0.g2a2b772fc.dirty numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 pandas 0.23.0 pandocfiltros 1.4.2
paramiko 2.4.1 pathlib2 2.3.2 Patsy 0.5.0
pbr 5.1.1 pexpect 4.5.0 pickleshare 0.7.4
Travesseiro 5.1.0 pip 10.0.1 ply 3.11
kit de ferramentas de pronta 1.0.15 protobuf 3.6.1 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.8.0 pyasn1 0.4.4
pycparser 2.18 Pigmeus 2.2.0 PyNaCl 1.3.0
pyOpenSSL 18.0.0 pyparsing 2.2.0 PySocks 1.6.8
Python 2.7.15 python-dateutil 2.7.3 pytz 2018.4
PyyAML 3.12 pyzmq 17.0.0 pedidos 2.18.4
s3transfer 0.1.13 scandir 1.7 scikit-learn 0.19.1
scipy 1.1.0 nascidos no mar 0.8.1 armações de configuração 39.1.0
simplínicogeneric 0.8.1 singledispatch 3.4.0.3 Seis 1.11.0
statsmodels 0.9.0 subprocessamento32 3.5.3 tensorboard 1.12.0
tensorboardX 1.4 tensorfluor 1.12.0 termcolor 1.1.0
testpath 0.3.1 tocha 0.4.1 torchvision 0.2.1
tornado 5.0.2 traceback2 1.4.0 traços 4.3.2
unittest2 1.1.0 urllib3 1.22 virtualenv 16.0.0
wcwidth 0.1.7 webencodings 0.5.1 Werkzeug 0.14.1
roda 0.31.1 embrulho 1.10.11 wsgiref 0.1.2

Além disso, os seguintes pacotes Spark incluem módulos Python:

Pacote de faísca Módulo Python Versão
tensorframes tensorframes 0.6.0-s_2.11
quadros gráficos quadros gráficos 0.6.0-db3-spark2.4
faísca-aprendizagem profunda faísca 1.4.0-db2-spark2.4

Bibliotecas R

As bibliotecas R são idênticas às Bibliotecas R em Databricks Runtime 5.1.

Bibliotecas java e scala (cluster Scala 2.11)

Além das bibliotecas Java e Scala em Databricks Runtime 5.1, databricks Runtime 5.1 ML contém os seguintes JARs:

ID do Grupo ID de artefacto Versão
com.databricks faísca-aprendizagem profunda 1.4.0-db2-spark2.4
org.tensorframes tensorframes 0.6.0-s_2.11
org.graphframes graphframes_2.11 0.6.0-db3-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorfluor 1.12.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-faísca 0.81
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0