Databricks Runtime 5.0 ML (sin soporte técnico)
Databricks publicó esta imagen en noviembre de 2018.
Databricks Runtime 5.0 ML proporciona un entorno listo para usar para el aprendizaje automático y la ciencia de datos. Contiene muchas bibliotecas populares, como TensorFlow, Keras y XGBoost. También admite el entrenamiento distribuido de TensorFlow mediante Horovod.
Para más información, incluidas las instrucciones para crear un clúster de Databricks Runtime ML, consulte IA y Machine Learning en Databricks.
Nuevas características
Databricks Runtime 5.0 ML se basa en Databricks Runtime 5.0. Para información sobre las novedades de Databricks Runtime 5.0, consulte las notas de la versión de Databricks Runtime 5.0 (sin soporte técnico). Además de las características nuevas de Databricks Runtime 5.0, Databricks Runtime 5.0 ML incluye las características nuevas siguientes:
- HorovodRunner, para ejecutar trabajos de entrenamiento de aprendizaje profundo distribuido con Horovod.
- Compatibilidad con Conda para la administración de paquetes.
- Integración con MLeap.
- Integración con GraphFrames.
Nota:
Las versiones de Databricks Runtime ML recogen todas las actualizaciones de mantenimiento de la versión base de Databricks Runtime. Para obtener una lista de todas las actualizaciones de mantenimiento, vea Actualizaciones de mantenimiento de Databricks Runtime (archivado).
Entorno del sistema
La diferencia en el entorno del sistema en Databricks Runtime 5.0 y en Databricks Runtime 5.0 ML es la siguiente:
- Python: 2.7.15 para clústeres de Python 2 y 3.6.5 para clústeres de Python 3.
- En el caso de los clústeres de GPU, las bibliotecas de GPU de NVIDIA siguientes:
- Controlador Tesla 396.44
- CUDA 9.2
- CUDNN 7.2.1
Bibliotecas
Las diferencias en las bibliotecas incluidas en Databricks Runtime 5.0 y las incluidas en Databricks Runtime 5.0 ML se enumeran en esta sección.
Bibliotecas de Python
Databricks Runtime 5.0 ML usa Conda para la administración de paquetes de Python. A continuación, se muestra la lista completa de paquetes y versiones de Python proporcionados instalados mediante el administrador de paquetes de Conda.
Biblioteca | Versión | Biblioteca | Versión | Biblioteca | Versión |
---|---|---|---|---|---|
absl-py | 0.6.1 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
astor | 0.7.1 | backports-abc | 0.5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.post1 | bcrypt | 3.1.4 | bleach | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
cloudpickle | 0.5.3 | colorama | 0.3.9 | configparser | 3.5.0 |
criptografía | 2.2.2 | cycler | 0.10.0 | Cython | 0.28.2 |
decorator | 4.3.0 | docutils | 0.14 | entrypoints | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | futuros | 3.2.0 |
gast | 0.2.0 | grpcio | 1.12.1 | h5py | 2.8.0 |
horovod | 0.15.0 | html5lib | 1.0.1 | idna | 2.6 |
ipaddress | 1.0.22 | ipython | 5.7.0 | ipython_genutils | 0.2.0 |
jdcal | 1.4 | Jinja2 | 2,10 | jmespath | 0.9.3 |
jsonschema | 2.6.0 | jupyter-client | 5.2.3 | jupyter-core | 4.4.0 |
Keras | 2.2.4 | Keras-Applications | 1.0.6 | keras-preprocessing | 1.0.5 |
kiwisolver | 1.0.1 | linecache2 | 1.0.0 | llvmlite | 0.23.1 |
lxml | 4.2.1 | Markdown | 3.0.1 | MarkupSafe | 1,0 |
matplotlib | 2.2.2 | mistune | 0.8.3 | mleap | 0.8.1 |
mock | 2.0.0 | msgpack | 0.5.6 | nbconvert | 5.3.1 |
nbformat | 4.4.0 | nariz | 1.3.7 | nose-exclude | 0.5.0 |
numba | 0.38.0+0.g2a2b772fc.dirty | numpy | 1.14.3 | olefile | 0.45.1 |
openpyxl | 2.5.3 | pandas | 0.23.0 | pandocfilters | 1.4.2 |
paramiko | 2.4.1 | pathlib2 | 2.3.2 | patsy | 0.5.0 |
pbr | 5.1.0 | pexpect | 4.5.0 | pickleshare | 0.7.4 |
Pillow | 5.1.0 | pip | 10.0.1 | ply | 3,11 |
prompt-toolkit | 1.0.15 | protobuf | 3.6.1 | psycopg2 | 2.7.5 |
ptyprocess | 0.5.2 | pyarrow | 0.8.0 | pyasn1 | 0.4.4 |
pycparser | 2,18 | Pygments | 2.2.0 | PyNaCl | 1.3.0 |
pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 | PySocks | 1.6.8 |
Python | 2.7.15 | Python-dateutil | 2.7.3 | pytz | 2018.4 |
PyYAML | 3,12 | pyzmq | 17.0.0 | Solicitudes | 2.18.4 |
s3transfer | 0.1.13 | scandir | 1.7 | scikit-learn | 0.19.1 |
scipy | 1.1.0 | seaborn | 0.8.1 | setuptools | 39.1.0 |
simplegeneric | 0.8.1 | singledispatch | 3.4.0.3 | six (seis) | 1.11.0 |
statsmodels | 0.9.0 | subprocess32 | 3.5.3 | tensorboard | 1.10.0 |
tensorflow | 1.10.0 | termcolor | 1.1.0 | testpath | 0.3.1 |
tornado | 5.0.2 | traceback2 | 1.4.0 | traitlets | 4.3.2 |
unittest2 | 1.1.0 | urllib3 | 1.22 | virtualenv | 16.0.0 |
wcwidth | 0.1.7 | webencodings | 0.5.1 | Werkzeug | 0.14.1 |
wheel | 0.31.1 | wrapt | 1.10.11 | wsgiref | 0.1.2 |
Además, los paquetes de Spark siguientes incluyen módulos de Python:
Paquete de Spark | Módulo de Python | Versión |
---|---|---|
tensorframes | tensorframes | 0.5.0-s_2.11 |
graphframes | graphframes | 0.6.0-db3-spark2.4 |
spark-deep-learning | sparkdl | 1.3.0-db2-spark2.4 |
Bibliotecas de R
Las bibliotecas de R son idénticas a las bibliotecas de R de Databricks Runtime 5.0.
Bibliotecas de Java y Scala (clúster de Scala 2.11)
Además de las bibliotecas de Java y Scala de Databricks Runtime 5.0, Databricks Runtime 5.0 ML contiene los archivos JAR siguientes:
Identificador de grupo | Identificador de artefacto | Versión |
---|---|---|
com.databricks | spark-deep-learning | 1.3.0-db2-spark2.4 |
org.tensorframes | tensorframes | 0.5.0-s_2.11 |
org.graphframes | graphframes_2.11 | 0.6.0-db3-spark2.4 |
org.tensorflow | libtensorflow | 1.10.0 |
org.tensorflow | libtensorflow_jni | 1.10.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.10.0-spark2.4-001 |
org.tensorflow | tensorflow | 1.10.0 |
ml.dmlc | xgboost4j | 0.80 |
ml.dmlc | xgboost4j-spark | 0.80 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0-SNAPSHOT |