Databricks Runtime 5.4 för ML (stöds inte)
Databricks släppte den här bilden i juni 2019.
Databricks Runtime 5.4 för Machine Learning ger en färdig miljö för maskininlärning och datavetenskap baserat på Databricks Runtime 5.4 (stöds inte). Databricks Runtime ML innehåller många populära maskininlärningsbibliotek, inklusive TensorFlow, PyTorch, Keras och XGBoost. Den stöder även distribuerad djupinlärningsträning med Horovod.
Mer information, inklusive instruktioner för att skapa ett Databricks Runtime ML-kluster, finns i AI och Machine Learning på Databricks.
Nya funktioner
Databricks Runtime 5.4 ML bygger på Databricks Runtime 5.4. Information om nyheter i Databricks Runtime 5.4 finns i viktig information om Databricks Runtime 5.4 (stöds inte).
Förutom biblioteksuppdateringar introducerar Databricks Runtime 5.4 ML följande nya funktioner:
Distribuerad Hyperopt + automatiserad MLflow-spårning
Databricks Runtime 5.4 ML introducerar en ny implementering av Hyperopt som drivs av Apache Spark för att skala och förenkla justering av hyperparametrar. En ny Trials
klass SparkTrials
implementeras för att distribuera Hyperopt-utvärderingskörningar mellan flera datorer och noder med hjälp av Apache Spark. Dessutom loggas alla justeringsexperiment, tillsammans med de finjusterade hyperparametrar och målmått, automatiskt till MLflow-körningar. Se Parallellisera hyperparameterjustering med scikit-learn och MLflow.
Viktigt!
Den här funktionen finns som allmänt tillgänglig förhandsversion.
Apache Spark MLlib + automatiserad MLflow-spårning
Databricks Runtime 5.4 ML stöder automatisk loggning av MLflow-körningar för modeller som passar med PySpark-justeringsalgoritmer CrossValidator
och TrainValidationSplit
. Se Apache Spark MLlib och automatiserad MLflow-spårning. Den här funktionen är aktiverad som standard i Databricks Runtime 5.4 ML men var inaktiverad som standard i Databricks Runtime 5.3 ML.
Viktigt!
Den här funktionen finns som allmänt tillgänglig förhandsversion.
HorovodRunner förbättring
Utdata som skickas från Horovod till Spark-drivrutinsnoden visas nu i notebook-celler.
XGBoost Python-paketuppdatering
XGBoost Python-paketet 0.80 är installerat.
Systemmiljö
Systemmiljön i Databricks Runtime 5.4 ML skiljer sig från Databricks Runtime 5.4 på följande sätt:
- Python: 2.7.15 för Python 2-kluster och 3.6.5 för Python 3-kluster.
- DBUtils: Databricks Runtime 5.4 ML innehåller inte biblioteksverktyget (dbutils.library) (äldre).
- Följande NVIDIA GPU-bibliotek för GPU-kluster:
- Tesla-förare 396,44
- CUDA 9.2
- CUDNN 7.2.1
Bibliotek
I följande avsnitt visas de bibliotek som ingår i Databricks Runtime 5.4 ML som skiljer sig från de som ingår i Databricks Runtime 5.4.
Bibliotek på den översta nivån
Databricks Runtime 5.4 ML innehåller följande bibliotek på den översta nivån:
Python-bibliotek
Databricks Runtime 5.4 ML använder Conda för Python-pakethantering. Därför finns det stora skillnader i installerade Python-bibliotek jämfört med Databricks Runtime. Följande är en fullständig lista över tillhandahållna Python-paket och versioner som installerats med Conda-pakethanteraren.
Bibliotek | Version | Bibliotek | Version | Bibliotek | Version |
---|---|---|---|---|---|
absl-py | 0.7.1 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
Astor | 0.7.1 | backports-abc | 0,5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.post1 | Bcrypt | 3.1.6 | Blekmedel | 2.1.3 |
Boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
Certifi | 2018.04.16 | Cffi | 1.11.5 | Chardet | 3.0.4 |
cloudpickle | 0.5.3 | Colorama | 0.3.9 | configparser | 3.5.0 |
Kryptografi | 2.2.2 | Apparat | 0.10.0 | Cython | 0.28.2 |
Dekoratör | 4.3.0 | Docutils | 0,14 | entrypoints | 0.2.3 |
uppräkning 34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | Framtiden | 0.17.1 |
Terminer | 3.2.0 | Gast | 0.2.2 | grpcio | 1.12.1 |
h5py | 2.8.0 | horovod | 0.16.0 | html5lib | 1.0.1 |
hyperopt | 0.1.2.db4 | idna | 2,6 | Ip | 1.0.22 |
Ipython | 5.7.0 | ipython_genutils | 0.2.0 | jdcal | 1.4 |
Jinja2 | 2.10 | jmespath | 0.9.4 | jsonschema | 2.6.0 |
jupyter-client | 5.2.3 | jupyter-core | 4.4.0 | Keras | 2.2.4 |
Keras-Applications | 1.0.7 | Keras-förbearbetning | 1.0.9 | kiwisolver | 1.1.0 |
linecache2 | 1.0.0 | llvmlite | 0.23.1 | Lxml | 4.2.1 |
Markdown | 3.1.1 | Markering Valv | 1.0 | matplotlib | 2.2.2 |
mistune | 0.8.3 | mkl-fft | 1.0.0 | mkl-random | 1.0.1 |
mleap | 0.8.1 | Mock | 2.0.0 | msgpack | 0.5.6 |
nbconvert | 5.3.1 | nbformat | 4.4.0 | Networkx | 2,2 |
Näsa | 1.3.7 | näsa-exkludera | 0.5.0 | numba | 0.38.0+0.g2a2b772fc.dirty |
Numpy | 1.14.3 | olefile | 0.45.1 | openpyxl | 2.5.3 |
Pandas | 0.23.0 | pandocfilter | 1.4.2 | Paramiko | 2.4.1 |
pathlib2 | 2.3.2 | Patsy | 0.5.0 | Pbr | 5.1.3 |
Pexpect | 4.5.0 | pickleshare | 0.7.4 | Kudde | 5.1.0 |
Pip | 10.0.1 | Ply | 3.11 | prompt-toolkit | 1.0.15 |
protobuf | 3.7.1 | Psutil | 5.6.2 | psycopg2 | 2.7.5 |
ptyprocess | 0.5.2 | pyarrow | 0.12.1 | pyasn1 | 0.4.5 |
pycparser | 2.18 | Pygments | 2.2.0 | pymongo | 3.8.0 |
PyNaCl | 1.3.0 | Pyopenssl | 18.0.0 | Pyparsing | 2.2.0 |
PySocks | 1.6.8 | Python | 2.7.15 | python-dateutil | 2.7.3 |
pytz | 2018.4 | PyYAML | 5,1 | pyzmq | 17.0.0 |
begäranden | 2.18.4 | s3transfer | 0.1.13 | Scandir | 1,7 |
scikit-learn | 0.19.1 | Scipy | 1.1.0 | seaborn | 0.8.1 |
Setuptools | 39.1.0 | simplegeneric | 0.8.1 | singledispatch | 3.4.0.3 |
Sex | 1.11.0 | statsmodels | 0.9.0 | subprocess32 | 3.5.4 |
tensorboard | 1.12.2 | tensorboardX | 1.6 | tensorflow | 1.12.0 |
termcolor | 1.1.0 | testpath | 0.3.1 | Fackla | 0.4.1 |
torchvision | 0.2.1 | Tornado | 5.0.2 | tqdm | 4.32.1 |
traceback2 | 1.4.0 | traitlets | 4.3.2 | unittest2 | 1.1.0 |
urllib3 | 1.22 | Virtualenv | 16.0.0 | wcwidth | 0.1.7 |
webencodings | 0.5.1 | Werkzeug | 0.14.1 | Hjul | 0.31.1 |
wrapt | 1.10.11 | Wsgiref | 0.1.2 |
Dessutom innehåller följande Spark-paket Python-moduler:
Spark-paket | Python-modul | Version |
---|---|---|
graphframes | graphframes | 0.7.0-db1-spark2.4 |
spark-deep-learning | sparkdl | 1.5.0-db3-spark2.4 |
tensorframes | tensorframes | 0.6.0-s_2.11 |
R-bibliotek
R-biblioteken är identiska med R-biblioteken i Databricks Runtime 5.4.
Java- och Scala-bibliotek (Scala 2.11-kluster)
Förutom Java- och Scala-bibliotek i Databricks Runtime 5.4 innehåller Databricks Runtime 5.4 ML följande JAR:er:
Grupp-ID | Artefakt-ID | Version |
---|---|---|
com.databricks | spark-deep-learning | 1.5.0-db3-spark2.4 |
com.typesafe.akka | akka-actor_2.11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0,81 |
ml.dmlc | xgboost4j-spark | 0,81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-spark2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | tensorflow | 1.12.0 |
org.tensorframes | tensorframes | 0.6.0-s_2.11 |