Databricks Runtime 4.0 (nicht unterstützt)

Artikel
03/01/2024

Dieses Image wurde von Databricks im März 2018 veröffentlicht.

Wichtig

Dieses Release wurde am 1. November 2018 eingestellt. Weitere Informationen zur Databricks Runtime-Veraltungsrichtlinie und zum Zeitplan finden Sie unter Supportlebenszyklus der Databricks Runtime.

Die folgenden Versionshinweise enthalten Informationen zu Databricks Runtime 4.0 mit Unterstützung durch Apache Spark.

Änderungen und Verbesserungen

Die JSON-Datenquelle versucht nun, die Codierung automatisch zu erkennen, anstatt davon auszugehen, dass es sich um UTF-8 handelt. In Fällen, in denen die automatische Erkennung fehlschlägt, können Benutzer die Option charset angeben, um eine bestimmte Codierung zu erzwingen. Weitere Informationen finden Sie unter Automatische Erkennung von Zeichensätzen.
Die Bewertung und Vorhersage mit Spark MLlib-Pipelines in Structured Streaming wird vollständig unterstützt.
Der Databricks ML-Modellexport wird vollständig unterstützt. Mit diesem Feature können Sie ein Spark MLlib-Modell in Databricks trainieren, es mit einem Funktionsaufruf exportieren und eine Databricks-Bibliothek in dem System Ihrer Wahl verwenden, um das Modell zu importieren und neue Daten zu bewerten.
Eine neue Spark-Datenquellenimplementierung bietet skalierbaren Lese-/Schreibzugriff auf Azure Synapse Analytics. Weitere Informationen finden Sie unter Spark: Synapse Analytics-Connector.
Das Schema der from_json-Funktion wird jetzt immer in ein Schema umgewandelt, dass Nullwerte zulässt. Mit anderen Worten: Alle Felder, auch die geschachtelten, lassen Nullwerte zu. Dies stellt sicher, dass die Daten mit dem Schema kompatibel sind und verhindert, dass die Daten nach dem Schreiben in die Parquet-Datei beschädigt werden, wenn ein Feld in den Daten fehlt und das vom Benutzer bereitgestellte Schema das Feld als „Non-Nullable“ (keine Nullwerte zulassend) deklariert.
Einige installierte Python-Bibliotheken haben ein Upgrade erhalten:
- futures: von 3.1.1 auf 3.2.0
- pandas: von 0.18.1 auf 0.19.2
- pyarrow: von 0.4.1 auf 0.8.0
- setuptools: von 38.2.3 auf 38.5.1
- tornado: 4.5.2 auf 4.5.3
Mehrere installierte R-Bibliotheken haben ein Upgrade erhalten. Weitere Informationen finden Sie unter Installierte R-Bibliotheken.
Upgrade des AWS Java SDK von 1.11.126 auf 1.11.253 durchgeführt.
Upgrade des SQL Server JDBC-Treibers von 6.1.0.jre8 auf 6.2.2.jre8 durchgeführt.
Upgrade des PostgreSQL JDBC-Treibers von 9.4-1204-jdbc41 auf 42.1.4 durchgeführt.

Apache Spark

Databricks Runtime 4.0 enthält Apache Spark 2.3.0.

Core, PySpark und Spark SQL

Hauptfeatures

Vektorisierter ORC-Leser: [SPARK-16060]: Fügt Unterstützung für einen neuen ORC-Leser hinzu, der den ORC-Überprüfungsdurchsatz durch Vektorisierung erheblich verbessert (2-5x). Um den Leser zu aktivieren, können Benutzer spark.sql.orc.impl auf native festlegen.
Spark History Server V2: [SPARK-18085]: Ein neues Spark History Server-Back-End (SHS), das eine bessere Skalierbarkeit für umfangreiche Anwendungen mit einem effizienteren Ereignisspeichermechanismus bietet.
Datenquellen-API V2: [SPARK-15689][SPARK-22386]: Eine experimentelle API zum Integrieren neuer Datenquellen in Spark. Die neue API versucht, mehrere Einschränkungen der V1-API zu beheben und soll die Entwicklung hochleistungsfähiger, einfach zu verwaltender und erweiterbarer externer Datenquellen erleichtern. Diese API befindet sich noch in der aktiven Entwicklung und es ist mit Breaking Changes zu rechnen.
PySpark-Leistungsverbesserungen: [SPARK-22216][SPARK-21187]: Erhebliche Verbesserungen der Python-Leistung und -Interoperabilität durch schnelle Datenserialisierung und vektorisierte Ausführung.

Leistung und Stabilität

[SPARK-21975]: Histogrammunterstützung im kostenbasierten Optimierer.
[SPARK-20331]: Bessere Unterstützung für Prädikatpushdown für die Hive-Partitionsbereinigung.
[SPARK-19112]: Unterstützung für den ZStandard-Komprimierungscodec.
[SPARK-21113]: Unterstützung für das Vorauslesen (Read-Ahead) des Eingabestreams zur Amortisierung der Datenträger-E/A-Kosten im Überlaufleser.
[SPARK-22510][SPARK-22692][SPARK-21871]: Weitere Stabilisierung des Frameworks für die Codegenerierung, um zu vermeiden, dass der 64KB JVM-Bytecode-Grenzwert für die Java-Methode und der Grenzwert für den Konstantenpool des Java-Compilers erreicht wird.
[SPARK-23207]: Ein seit langem bestehender Fehler in Spark wurde behoben, bei dem eine aufeinanderfolgende Kombination von Mischen und erneuter Partitionierung für einen Datenrahmen in bestimmten operativen Fällen zu falschen Antworten führen konnte.
[SPARK-22062][SPARK-17788][SPARK-21907]: Verschiedene Ursachen für OOMs beheben.
[SPARK-22489][SPARK-22916][SPARK-22895][SPARK-20758][SPARK-22266][SPARK-19122][SPARK-22662][SPARK-21652]: Verbesserungen im regelbasierten Optimierer und Planer.

Weitere wichtige Änderungen

[SPARK-20236]: Unterstützung der Semantik für das Überschreiben dynamischer Partitionen im Stil von Hive.
[SPARK-4131]: Unterstützung von INSERT OVERWRITE DIRECTORY für das direkte Schreiben von Daten in das Dateisystem aus einer Abfrage heraus.
[SPARK-19285][SPARK-22945][SPARK-21499][SPARK-20586][SPARK-20416][SPARK-20668]: UDF-Verbesserungen.
[SPARK-20463][SPARK-19951][SPARK-22934][SPARK-21055][SPARK-17729][SPARK-20962][SPARK-20963][SPARK-20841][SPARK-17642][SPARK-22475][SPARK-22934]: Verbesserte ANSI SQL-Konformität und Hive-Kompatibilität.
[SPARK-20746]: Umfassendere integrierte SQL-Funktionen.
[SPARK-21485]: Spark SQL-Dokumentationsgenerierung für integrierte Funktionen.
[SPARK-19810]: Unterstützung für Scala 2.10 entfernen.
[SPARK-22324]: Upgrade von Arrow auf 0.8.0 und von Netty auf 4.1.17 durchführen.

Programmierleitfäden: Spark-RDD-Programmierleitfaden und Leitfaden zu Spark SQL-DataFrames und -Datasets.

Strukturiertes Streaming

Kontinuierliche Verarbeitung

Eine neue Ausführungs-Engine, die Streamingabfragen mit einer End-to-End-Wartezeit von weniger als einer Millisekunde ausführen kann, indem sie nur eine einzige Zeile des Benutzercodes ändert. Weitere Informationen finden Sie im Programmierhandbuch.

Stream-Stream-Joins

Möglichkeit zum Verknüpfen von zwei Datenströmen, wobei Zeilen gepuffert werden, bis übereinstimmende Tupel im anderen Datenstrom eintreffen. Prädikate können für Ereigniszeitspalten verwendet werden, um die Menge von Zuständen zu binden, die beibehalten werden muss.

Streaming-API V2

Eine experimentelle API zum Einfügen neuer Quellen und Senken, die für Batch-, Mikrobatch- und fortlaufende Ausführung funktioniert. Diese API befindet sich noch in der aktiven Entwicklung und es ist mit Breaking Changes zu rechnen.

Programmierleitfaden: Programmierleitfaden für strukturiertes Streaming.

MLlib

Highlights

Die ML-Vorhersage funktioniert jetzt mithilfe von aktualisierten APIs mit Structured Streaming. Weitere Informationen folgen.

Neue und verbesserte APIs

[SPARK-21866]: Integrierte Unterstützung für das Einlesen von Bildern in einen Datenrahmen (Scala/Java/Python).
[SPARK-19634]: Datenrahmenfunktionen für deskriptive zusammenfassende Statistiken über Vektorspalten (Scala/Java).
[SPARK-14516]: ClusteringEvaluator zum Optimieren von Clusteringalgorithmen, die die Metrik der Cosinus-Silhouette und der quadrierten euklidischen Silhouette unterstützen (Scala/Java/Python).
[SPARK-3181]: Robuste lineare Regression mit Huber-Verlust (Scala/Java/Python).
[SPARK-13969]: FeatureHasher-Transformator (Scala/Java/Python).
Unterstützung mehrerer Spalten für verschiedene Featuretransformatoren:
- [SPARK-13030]: OneHotEncoderEstimator (Scala/Java/Python)
- [SPARK-22397]: QuantileDiscretizer (Scala/Java)
- [SPARK-20542]: Bucketizer (Scala/Java/Python)
[SPARK-21633] und SPARK-21542]: Verbesserte Unterstützung für benutzerdefinierte Pipelinekomponenten in Python.

Neue Funktionen

[SPARK-21087]: CrossValidator und TrainValidationSplit können alle Modelle bei der Anpassung sammeln (Scala/Java). Dadurch können Sie alle angepassten Modelle überprüfen oder speichern.
[SPARK-19357]: Metaalgorithmen CrossValidator, TrainValidationSplit, OneVsRest unterstützen einen Parallelitätsparameter zur Anpassung mehrerer Teilmodelle in parallelen Spark-Aufträgen.
[SPARK-17139]: Modellzusammenfassung für multinomiale logistische Regression (Scala/Java/Python)
[SPARK-18710]: Offset in GLM hinzufügen.
[SPARK-20199]: Parameter featureSubsetStrategy wurde zu GBTClassifier und GBTRegressor hinzugefügt. Dies zu verwenden, um Teilstichproben der Features zu erstellen, kann die Geschwindigkeit des Trainings erheblich verbessern. Diese Option war eine der Hauptstärken von xgboost.

Weitere wichtige Änderungen

[SPARK-22156]: Word2Vec-Lernratenskalierung mit num Iterationen wurde behoben. Die neue Lernrate ist so festgelegt, dass sie dem ursprünglichen Word2Vec-C-Code entspricht und zu besseren Ergebnissen beim Training führen sollte.
[SPARK-22289]: JSON-Unterstützung für Matrix-Parameter hinzufügen (Damit wurde ein Fehler bei der ML-Persistenz mit LogisticRegressionModel behoben, der auftrat, wenn Grenzen für Koeffizienten verwendet wurden.)
[SPARK-22700]: Bucketizer.transform verwirft fälschlicherweise eine Zeile, die NaN enthält. Wenn der Parameter handleInvalid auf „skip“ (überspringen) festgelegt war, würde Bucketizer eine Zeile mit einem gültigen Wert in der Eingabespalte verwerfen, wenn eine andere (irrelevante) Spalte einen NaN-Wert enthielt.
[SPARK-22446]: Der Catalyst-Optimierer hat gelegentlich StringIndexerModel dazu veranlasst, eine falsche „Unsichtbare Bezeichnung“-Ausnahme auszulösen, wenn handleInvalid auf „Fehler“ festgelegt war. Dies konnte bei gefilterten Daten aufgrund eines Prädikatpushdowns passieren und Fehler verursachen, selbst wenn ungültige Zeilen bereits aus dem Eingabedataset gefiltert worden waren.
[SPARK-21681]: In der multinomialen logistischen Regression wurde ein Fehler behoben, der zu falschen Koeffizienten führte, wenn einige Features eine Varianz von Null aufwiesen.
Wichtige Optimierungen:
- [SPARK-22707]: Arbeitsspeicherverbrauch für CrossValidator wurde verringert.
- [SPARK-22949]: Arbeitsspeicherverbrauch für TrainValidationSplit wurde verringert.
- [SPARK-21690]: Imputer sollte das Training mithilfe eines einzigen Durchlaufs durch die Daten durchführen.
- [SPARK-14371]: OnlineLDAOptimizer vermeidet das Sammeln von Statistiken für den Treiber für jeden Minibatch.

Programmierleitfaden: MLlib-Leitfaden (Machine Learning Library).

SparkR

Das Hauptaugenmerk von SparkR in der Version 2.3.0 lag auf der Verbesserung der Stabilität von UDFs und dem Hinzufügen mehrerer neuer SparkR-Wrapper für bestehende APIs:

Hauptfeatures

Verbesserte Funktionsparität zwischen SQL und R
[SPARK-22933]: Structured Streaming-APIs für withWatermark, trigger, partitionBy und Stream-Stream-Joins.
[SPARK-21266]: SparkR UDF mit Unterstützung für DDL-formatierte Schemas.
[SPARK-20726][SPARK-22924][SPARK-22843]: Mehrere neue Datenrahmen-API-Wrapper.
[SPARK-15767][SPARK-21622][SPARK-20917][SPARK-20307][SPARK-20906]: Mehrere neue SparkML-API-Wrapper.

Programmierleitfaden: SparkR (R in Spark).

GraphX

Optimierungen

[SPARK-5484]: Pregel prüft jetzt regelmäßig, um StackOverflowErrors zu vermeiden.
[SPARK-21491]: Kleine Leistungsverbesserung an mehreren Stellen.

Programmierleitfaden: GraphX-Programmierleitfaden.

Veraltete Funktionen

Python

[SPARK-23122]: register* für UDFs in SQLContext und Catalog in PySpark als veraltet kennzeichnen.

MLlib

[SPARK-13030]: OneHotEncoder wurde als veraltet gekennzeichnet und wird in 3.0 entfernt. Es wurde durch das neue OneHotEncoderEstimator ersetzt. OneHotEncoderEstimator wird in 3.0 in OneHotEncoder umbenannt (aber OneHotEncoderEstimator bleibt als Alias erhalten).

Verhaltensänderungen

SparkSQL

[SPARK-22036]: Bei arithmetischen Operationen zwischen Dezimalwerten wird standardmäßig ein gerundeter Wert zurückgegeben, wenn eine exakte Darstellung nicht möglich ist (anstelle der Rückgabe von NULL in den vorherigen Versionen).
[SPARK-22937]: Wenn alle Eingaben binär sind, gibt SQL elt() eine Ausgabe in binärer Form zurück. Andernfalls wird eine Zeichenfolge zurückgegeben. In früheren Versionen wurde unabhängig von den Eingabetypen immer eine Zeichenfolge zurückgegeben.
[SPARK-22895]: Die deterministischen Prädikate des Joins/Filters, die nach den ersten nicht deterministischen Prädikaten stehen, werden ebenfalls nach unten bzw. durch die untergeordneten Operatoren gepusht, wenn möglich. In den früheren Versionen waren diese Filter nicht für den Prädikatspushdown geeignet.
[SPARK-22771]: Wenn alle Eingaben binär sind, gibt functions.concat() eine Ausgabe in binärer Form zurück. Andernfalls wird eine Zeichenfolge zurückgegeben. In den früheren Versionen wurde unabhängig von den Eingabetypen immer eine Zeichenfolge zurückgegeben.
[SPARK-22489]: Wenn eine der beiden Join-Seiten übertragungsfähig ist, bevorzugen wir die Übertragung der Tabelle, die explizit in einem Broadcasthinweis angegeben ist.
[SPARK-22165]: Der Rückschluss von Partitionsspalten hat zuvor einen falschen gemeinsamen Typ für verschiedene abgeleitete Typen gefunden. Bisher endete es z. B. mit dem double-Typ als gemeinsamen Typ für double und date. Jetzt wird der richtige gemeinsame Typ für solche Konflikte gefunden. Weitere Informationen finden Sie im Migrationsleitfaden.
[SPARK-22100]: Die percentile_approx-Funktion hat zuvor numeric-Typeingaben akzeptiert und double-Typergebnisse ausgegeben. Jetzt werden die Typen date, timestamp und numeric als Eingabetypen unterstützt. Der Ergebnistyp wird ebenfalls geändert, sodass er mit dem Eingabetyp übereinstimmt, was für Perzentile sinnvoller ist.
[SPARK-21610]: Die Abfragen aus JSON-/CSV-Dateien mit Rohdaten sind unzulässig, wenn die Spalten, auf die verwiesen wird, nur die interne Spalte mit beschädigten Datensätzen enthalten (standardmäßig _corrupt_record genannt). Stattdessen können Sie die analysierten Ergebnisse zwischenspeichern oder speichern und dann dieselbe Abfrage senden.
[SPARK-23421]: Seit Spark 2.2.1 und 2.3.0 wird das Schema zur Laufzeit immer abgeleitet, wenn die Datenquellentabellen über die Spalten verfügen, die sowohl im Partitionsschema als auch im Datenschema vorhanden sind. Das abgeleitete Schema verfügt nicht über die partitionierten Spalten. Beim Lesen der Tabelle beachtet Spark die Partitionswerte dieser überlappenden Spalten anstelle der in den Datenquellendateien gespeicherten Werte. In Release 2.2.0 und 2.1.x ist das abgeleitete Schema partitioniert, aber die Daten der Tabelle sind für Benutzer unsichtbar (d. h. das Resultset ist leer).

PySpark

[SPARK-19732]: na.fill() oder fillna akzeptiert auch boolesche Werte und ersetzt Nullwerte durch boolesche Werte. In früheren Spark-Versionen ignoriert PySpark sie einfach und gibt das ursprüngliche Dataset bzw. den ursprünglichen Datenrahmen zurück.
[SPARK-22395]: Pandas 0.19.2 oder „upper“ wird benötigt, um auf Pandas bezogene Funktionalitäten zu verwenden, z. B. toPandas, createDataFrame aus dem Pandas-Datenrahmen usw.
[SPARK-22395]: Das Verhalten von Zeitstempelwerten für Pandas-bezogene Funktionen wurde geändert, um die Sitzungszeitzone zu berücksichtigen, was in den vorherigen Versionen ignoriert wurde.
[SPARK-23328]: df.replace gestattet das Auslassen von value nicht, wenn to_replace kein Wörterbuch ist. Zuvor konnte value in den anderen Fällen ausgelassen werden und hatte standardmäßig None, was nicht intuitiv und fehleranfällig ist.

MLlib

Breaking API Changes: Die Klassen- und Merkmalshierarchie für Zusammenfassungen von logistischen Regressionsmodellen wurde geändert, um sie übersichtlicher zu gestalten und das Hinzufügen der Zusammenfassung mehrerer Klassen besser zu berücksichtigen. Dies ist eine Breaking Change für Benutzercode, der eine LogisticRegressionTrainingSummary in eine BinaryLogisticRegressionTrainingSummary umwandelt. Benutzer sollten stattdessen die model.binarySummary-Methode verwenden. Weitere Informationen finden Sie unter [SPARK-17139]: (beachten Sie, dass dies eine @Experimental-API ist). Dies hat keine Auswirkungen auf die Python-Zusammenfassungsmethode, die sowohl für multinomiale als auch für binäre Fälle weiterhin ordnungsgemäß funktioniert.
[SPARK-21806]: BinaryClassificationMetrics.pr(): Der erste Punkt (0.0, 1.0) ist irreführend und wurde durch (0.0, p) ersetzt, wobei die Präzision „p“ dem niedrigsten Abrufpunkt entspricht.
[SPARK-16957]: In den Entscheidungsstrukturen werden jetzt bei der Auswahl aufgeteilter Werte gewichtete Mittelpunkte verwendet. Dies kann die Ergebnisse des Modelltrainings verändern.
[SPARK-14657]: RFormula ohne Schnittpunkt gibt jetzt bei der Codierung von Zeichenfolgen die Referenzkategorie aus, um dem nativen Verhalten von R zu entsprechen. Dies kann die Ergebnisse des Modelltrainings verändern.
[SPARK-21027]: Die in OneVsRest verwendete Standardparallelität ist jetzt auf 1 festgelegt (d. h. seriell). In Version 2.2 und früheren Versionen wurde der Grad der Parallelität auf die standardmäßige Threadpoolgröße in Scala festgelegt. Dies kann die Leistung ändern.
[SPARK-21523]: Upgrade für Breeze auf 0.13.2 durchgeführt. Dies umfasste eine wichtige Fehlerbehebung bei der starken Wolfe-Zeilensuche für L-BFGS.
[SPARK-15526]: Die JPMML-Abhängigkeit ist jetzt abgestuft.
Lesen Sie auch den Abschnitt „Fehlerbehebungen“ für Verhaltensänderungen, die sich aus der Behebung von Fehlern ergeben.

Bekannte Probleme

[SPARK-23523][SQL]: Falsches Ergebnis, verursacht durch die Regel OptimizeMetadataOnlyQuery.
[SPARK-23406]: Fehler in Stream-Stream-Selbstjoins.

Wartungsupdates

Weitere Informationen finden Sie unter Databricks Runtime 4.0-Wartungsupdates.

Systemumgebung

Betriebssystem: Ubuntu 16.04.4 LTS
Java: 1.8.0_151
Scala: 2.11.8
Python: 2.7.12 (oder 3.5.2 bei Verwendung von Python 3)
R: R-Version 3.4.3 (2017-11-30)
GPU-Cluster: Die folgenden NVIDIA-GPU-Bibliotheken sind installiert:
- Tesla-Treiber 375.66
- CUDA 8.0
- CUDNN 6.0

Installierte Python-Bibliotheken

Bibliothek	Version	Bibliothek	Version	Bibliothek	Version
ansi2html	1.1.1	argparse	1.2.1	backports-abc	0,5
boto	2.42.0	boto3	1.4.1	botocore	1.4.70
brewer2mpl	1.4.1	certifi	2016.2.28	cffi	1.7.0
chardet	2.3.0	colorama	0.3.7	configobj	5.0.6
cryptography	1.5	cycler	0.10.0	Cython	0.24.1
decorator	4.0.10	docutils	0.14	enum34	1.1.6
et-xmlfile	1.0.1	freetype-py	1.0.2	funcsigs	1.0.2
fusepy	2.0.4	futures	3.2.0	ggplot	0.6.8
html5lib	0.999	idna	2.1	ipaddress	1.0.16
ipython	2.2.0	ipython-genutils	0.1.0	jdcal	1.2
Jinja2	2.8	jmespath	0.9.0	llvmlite	0.13.0
lxml	3.6.4	MarkupSafe	0,23	matplotlib	1.5.3
mpld3	0,2	msgpack-python	0.4.7	ndg-httpsclient	0.3.3
numba	0.28.1	numpy	1.11.1	openpyxl	2.3.2
Pandas	0.19.2	pathlib2	2.1.0	patsy	0.4.1
pexpect	4.0.1	pickleshare	0.7.4	Pillow	3.3.1
pip	9.0.1	ply	3.9	prompt-toolkit	1.0.7
psycopg2	2.6.2	ptyprocess	0.5.1	py4j	0.10.3
pyarrow	0.8.0	pyasn1	0.1.9	pycparser	2.14
Pygments	2.1.3	PyGObject	3.20.0	pyOpenSSL	16.0.0
pyparsing	2.2.0	pypng	0.0.18	Python	2.7.12
Python-dateutil	2.5.3	python-geohash	0.8.5	pytz	2016.6.1
requests	2.11.1	s3transfer	0.1.9	scikit-learn	0.18.1
scipy	0.18.1	scour	0,32	seaborn	0.7.1
setuptools	38.5.1	simplejson	3.8.2	simples3	1.0
singledispatch	3.4.0.3	sechs	1.10.0	statsmodels	0.6.1
tornado	4.5.3	traitlets	4.3.0	urllib3	1.19.1
virtualenv	15.0.1	wcwidth	0.1.7	wheel	0.30.0
wsgiref	0.1.2

Installierte R-Bibliotheken

Bibliothek	Version	Bibliothek	Version	Bibliothek	Version
abind	1.4-5	assertthat	0.2.0	backports	1.1.1
base	3.4.3	BH	1.65.0-1	bindr	0,1
bindrcpp	0,2	bit	1.1-12	bit64	0.9-7
bitops	1.0-6	Blob	1.1.0	boot	1.3-20
brew	1.0-6	broom	0.4.3	Auto	2.1-6
caret	6.0-77	chron	2.3-51	class	7.3-14
cluster	2.0.6	codetools	0.2-15	colorspace	1.3-2
commonmark	1.4	compiler	3.4.3	crayon	1.3.4
curl	3.0	CVST	0.2-1	data.table	1.10.4-3
datasets	3.4.3	DBI	0.7	ddalpha	1.3.1
DEoptimR	1,0 - 8	desc	1.1.1	devtools	1.13.4
dichromat	2.0-0	digest	0.6.12	dimRed	0.1.0
doMC	1.3.4	dplyr	0.7.4	DRR	0.0.2
foreach	1.4.3	foreign	0.8-69	gbm	2.1.3
ggplot2	2.2.1	git2r	0.19.0	glmnet	2.0-13
glue	1.2.0	gower	0.1.2	Grafiken	3.4.3
grDevices	3.4.3	grid	3.4.3	gsubfn	0.6-6
gtable	0.2.0	h2o	3.16.0.1	httr	1.3.1
hwriter	1.3.2	hwriterPlus	1.0-3	ipred	0.9-6
iterators	1.0.8	jsonlite	1.5	kernlab	0.9-25
KernSmooth	2.23-15	labeling	0,3	lattice	0.20-35
lava	1.5.1	lazyeval	0.2.1	littler	0.3.2
lme4	1.1-14	lubridate	1.7.1	magrittr	1.5
mapproj	1.2-5	maps	3.2.0	MASS	7.3-48
Matrix	1.2-11	MatrixModels	0.4-1	memoise	1.1.0
methods	3.4.3	mgcv	1.8-23	mime	0,5
minqa	1.2.4	mnormt	1.5-5	ModelMetrics	1.1.0
munsell	0.4.3	mvtnorm	1.0-6	nlme	3.1-131
nloptr	1.0.4	nnet	7.3-12	numDeriv	2016.8-1
openssl	0.9.9	parallel	3.4.3	pbkrtest	0.4-7
pkgconfig	2.0.1	pkgKitten	0.1.4	plogr	0.1-1
plyr	1.8.4	praise	1.0.0	pROC	1.10.0
prodlim	1.6.1	proto	1.0.0	psych	1.7.8
purrr	0.2.4	quantreg	5.34	R.methodsS3	1.7.1
R.oo	1.21.0	R.utils	2.6.0	R6	2.2.2
randomForest	4.6-12	RColorBrewer	1.1-2	Rcpp	0.12.14
RcppEigen	0.3.3.3.1	RcppRoll	0.2.2	RCurl	1.95-4.8
recipes	0.1.1	reshape2	1.4.2	rlang	0.1.4
robustbase	0.92-8	RODBC	1.3-15	roxygen2	6.0.1
rpart	4.1-12	rprojroot	1.2	Rserve	1.7-3
RSQLite	2.0	rstudioapi	0.7	scales	0.5.0
sfsmisc	1.1-1	sp	1.2-5	SparkR	2.3.0
SparseM	1.77	spatial	7.3-11	splines	3.4.3
sqldf	0.4-11	statmod	1.4.30	stats	3.4.3
stats4	3.4.3	stringi	1.1.6	stringr	1.2.0
survival	2.41-3	tcltk	3.4.3	TeachingDemos	2,10
testthat	1.0.2	tibble	1.3.4	tidyr	0.7.2
tidyselect	0.2.3	timeDate	3042.101	tools	3.4.3
utils	3.4.3	viridisLite	0.2.0	whisker	0.3-2
withr	2.1.0	xml2	1.1.1

Installierte Java- und Scala-Bibliotheken (Scala 2.11-Clusterversion)

Gruppen-ID	Artefakt-ID	Version
antlr	antlr	2.7.7
com.amazonaws	amazon-kinesis-client	1.7.3
com.amazonaws	aws-java-sdk-autoscaling	1.11.253
com.amazonaws	aws-java-sdk-cloudformation	1.11.253
com.amazonaws	aws-java-sdk-cloudfront	1.11.253
com.amazonaws	aws-java-sdk-cloudhsm	1.11.253
com.amazonaws	aws-java-sdk-cloudsearch	1.11.253
com.amazonaws	aws-java-sdk-cloudtrail	1.11.253
com.amazonaws	aws-java-sdk-cloudwatch	1.11.253
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.253
com.amazonaws	aws-java-sdk-codedeploy	1.11.253
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.253
com.amazonaws	aws-java-sdk-cognitosync	1.11.253
com.amazonaws	aws-java-sdk-config	1.11.253
com.amazonaws	aws-java-sdk-core	1.11.253
com.amazonaws	aws-java-sdk-datapipeline	1.11.253
com.amazonaws	aws-java-sdk-directconnect	1.11.253
com.amazonaws	aws-java-sdk-directory	1.11.253
com.amazonaws	aws-java-sdk-dynamodb	1.11.253
com.amazonaws	aws-java-sdk-ec2	1.11.253
com.amazonaws	aws-java-sdk-ecs	1.11.253
com.amazonaws	aws-java-sdk-efs	1.11.253
com.amazonaws	aws-java-sdk-elasticache	1.11.253
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.253
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.11.253
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.253
com.amazonaws	aws-java-sdk-emr	1.11.253
com.amazonaws	aws-java-sdk-glacier	1.11.253
com.amazonaws	aws-java-sdk-iam	1.11.253
com.amazonaws	aws-java-sdk-importexport	1.11.253
com.amazonaws	aws-java-sdk-kinesis	1.11.253
com.amazonaws	aws-java-sdk-kms	1.11.253
com.amazonaws	aws-java-sdk-lambda	1.11.253
com.amazonaws	aws-java-sdk-logs	1.11.253
com.amazonaws	aws-java-sdk-machinelearning	1.11.253
com.amazonaws	aws-java-sdk-opsworks	1.11.253
com.amazonaws	aws-java-sdk-rds	1.11.253
com.amazonaws	aws-java-sdk-redshift	1.11.253
com.amazonaws	aws-java-sdk-route53	1.11.253
com.amazonaws	aws-java-sdk-s3	1.11.253
com.amazonaws	aws-java-sdk-ses	1.11.253
com.amazonaws	aws-java-sdk-simpledb	1.11.253
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.253
com.amazonaws	aws-java-sdk-sns	1.11.253
com.amazonaws	aws-java-sdk-sqs	1.11.253
com.amazonaws	aws-java-sdk-ssm	1.11.253
com.amazonaws	aws-java-sdk-storagegateway	1.11.253
com.amazonaws	aws-java-sdk-sts	1.11.253
com.amazonaws	aws-java-sdk-support	1.11.253
com.amazonaws	aws-java-sdk-swf-libraries	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.253
com.amazonaws	jmespath-java	1.11.253
com.carrotsearch	hppc	0.7.2
com.chuusai	shapeless_2.11	2.3.2
com.clearspring.analytics	Datenstrom	2.7.0
com.databricks	Rserve	1.8-3
com.databricks	dbml-local_2.11	0.3.0-db1-spark2.3
com.databricks	dbml-local_2.11-tests	0.3.0-db1-spark2.3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.11	0.4.15-9
com.databricks.scalapb	scalapb-runtime_2.11	0.4.15-9
com.esotericsoftware	kryo-shaded	3.0.3
com.esotericsoftware	minlog	1.3.0
com.fasterxml	classmate	1.0.0
com.fasterxml.jackson.core	jackson-annotations	2.6.7
com.fasterxml.jackson.core	jackson-core	2.6.7
com.fasterxml.jackson.core	jackson-databind	2.6.7.1
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.6.7
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.6.7
com.fasterxml.jackson.module	jackson-module-paranamer	2.6.7
com.fasterxml.jackson.module	jackson-module-scala_2.11	2.6.7.1
com.github.fommil	jniloader	1.1
com.github.fommil.netlib	core	1.1.2
com.github.fommil.netlib	native_ref-java	1.1
com.github.fommil.netlib	native_ref-java-natives	1.1
com.github.fommil.netlib	native_system-java	1.1
com.github.fommil.netlib	native_system-java-natives	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1.1
com.github.luben	zstd-jni	1.3.2-2
com.github.rwl	jtransforms	2.4.0
com.google.code.findbugs	jsr305	2.0.1
com.google.code.gson	gson	2.2.4
com.google.guava	guava	15.0
com.google.protobuf	protobuf-java	2.6.1
com.googlecode.javaewah	JavaEWAH	0.3.2
com.h2database	h2	1.3.174
com.jamesmurty.utils	java-xmlbuilder	1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEASE
com.mchange	c3p0	0.9.5.1
com.mchange	mchange-commons-java	0.2.10
com.microsoft.azure	azure-data-lake-store-sdk	2.0.11
com.microsoft.sqlserver	mssql-jdbc	6.2.2.jre8
com.ning	compress-lzf	1.0.3
com.sun.mail	javax.mail	1.5.2
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.11	0,3
com.twitter	chill-java	0.8.4
com.twitter	chill_2.11	0.8.4
com.twitter	parquet-hadoop-bundle	1.6.0
com.twitter	util-app_2.11	6.23.0
com.twitter	util-core_2.11	6.23.0
com.twitter	util-jvm_2.11	6.23.0
com.typesafe	config	1.2.1
com.typesafe.scala-logging	scala-logging-api_2.11	2.1.2
com.typesafe.scala-logging	scala-logging-slf4j_2.11	2.1.2
com.univocity	univocity-parsers	2.5.9
com.vlkan	flatbuffers	1.2.0-3f79e055
com.zaxxer	HikariCP	2.4.1
commons-beanutils	commons-beanutils	1.7.0
commons-beanutils	commons-beanutils-core	1.8.0
commons-cli	commons-cli	1.2
commons-codec	commons-codec	1.10
commons-collections	commons-collections	3.2.2
commons-configuration	commons-configuration	1.6
commons-dbcp	commons-dbcp	1.4
commons-digester	commons-digester	1.8
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2.4
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-net	commons-net	2.2
commons-pool	commons-pool	1.5.4
info.ganglia.gmetric4j	gmetric4j	1.0.7
io.airlift	aircompressor	0,8
io.dropwizard.metrics	metrics-core	3.1.5
io.dropwizard.metrics	metrics-ganglia	3.1.5
io.dropwizard.metrics	metrics-graphite	3.1.5
io.dropwizard.metrics	metrics-healthchecks	3.1.5
io.dropwizard.metrics	metrics-jetty9	3.1.5
io.dropwizard.metrics	metrics-json	3.1.5
io.dropwizard.metrics	metrics-jvm	3.1.5
io.dropwizard.metrics	metrics-log4j	3.1.5
io.dropwizard.metrics	metrics-servlets	3.1.5
io.netty	netty	3.9.9.Final
io.netty	netty-all	4.1.17.Final
io.prometheus	simpleclient	0.0.16
io.prometheus	simpleclient_common	0.0.16
io.prometheus	simpleclient_dropwizard	0.0.16
io.prometheus	simpleclient_servlet	0.0.16
io.prometheus.jmx	Sammlung	0.7
javax.activation	activation	1.1.1
javax.annotation	javax.annotation-api	1.2
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.servlet	javax.servlet-api	3.1.0
javax.servlet.jsp	jsp-api	2.1
javax.transaction	jta	1.1
javax.validation	validation-api	1.1.0.Final
javax.ws.rs	javax.ws.rs-api	2.0.1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0-2
javolution	javolution	5.5.1
jline	jline	2.11
joda-time	joda-time	2.9.3
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
net.hydromatic	eigenbase-properties	1.1.5
net.iharder	base64	2.3.8
net.java.dev.jets3t	jets3t	0.9.4
net.razorvine	pyrolite	4.13
net.sf.jpam	jpam	1.1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.sourceforge.f2j	arpack_combined_all	0,1
org.acplt	oncrpc	1.0.7
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.4
org.antlr	antlr4-runtime	4,7
org.antlr	stringtemplate	3.2.1
org.apache.ant	ant	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher	1.9.2
org.apache.arrow	arrow-format	0.8.0
org.apache.arrow	arrow-memory	0.8.0
org.apache.arrow	arrow-vector	0.8.0
org.apache.avro	avro	1.7.7
org.apache.avro	avro-ipc	1.7.7
org.apache.avro	avro-ipc-tests	1.7.7
org.apache.avro	avro-mapred-hadoop2	1.7.7
org.apache.calcite	calcite-avatica	1.2.0-incubating
org.apache.calcite	calcite-core	1.2.0-incubating
org.apache.calcite	calcite-linq4j	1.2.0-incubating
org.apache.commons	commons-compress	1.4.1
org.apache.commons	commons-crypto	1.0.0
org.apache.commons	commons-lang3	3,5
org.apache.commons	commons-math3	3.4.1
org.apache.curator	curator-client	2.7.1
org.apache.curator	curator-framework	2.7.1
org.apache.curator	curator-recipes	2.7.1
org.apache.derby	derby	10.12.1.1
org.apache.directory.api	api-asn1-api	1.0.0-M20
org.apache.directory.api	api-util	1.0.0-M20
org.apache.directory.server	apacheds-i18n	2.0.0-M15
org.apache.directory.server	apacheds-kerberos-codec	2.0.0-M15
org.apache.hadoop	hadoop-annotations	2.7.3
org.apache.hadoop	hadoop-auth	2.7.3
org.apache.hadoop	hadoop-client	2.7.3
org.apache.hadoop	hadoop-common	2.7.3
org.apache.hadoop	hadoop-hdfs	2.7.3
org.apache.hadoop	hadoop-mapreduce-client-app	2.7.3
org.apache.hadoop	hadoop-mapreduce-client-common	2.7.3
org.apache.hadoop	hadoop-mapreduce-client-core	2.7.3
org.apache.hadoop	hadoop-mapreduce-client-jobclient	2.7.3
org.apache.hadoop	hadoop-mapreduce-client-shuffle	2.7.3
org.apache.hadoop	hadoop-yarn-api	2.7.3
org.apache.hadoop	hadoop-yarn-client	2.7.3
org.apache.hadoop	hadoop-yarn-common	2.7.3
org.apache.hadoop	hadoop-yarn-server-common	2.7.3
org.apache.htrace	htrace-core	3.1.0-incubating
org.apache.httpcomponents	httpclient	4.5.4
org.apache.httpcomponents	httpcore	4.4.8
org.apache.ivy	ivy	2.4.0
org.apache.orc	orc-core-nohive	1.4.1
org.apache.orc	orc-mapreduce-nohive	1.4.1
org.apache.parquet	parquet-column	1.8.2-databricks1
org.apache.parquet	parquet-common	1.8.2-databricks1
org.apache.parquet	parquet-encoding	1.8.2-databricks1
org.apache.parquet	parquet-format	2.3.1
org.apache.parquet	parquet-hadoop	1.8.2-databricks1
org.apache.parquet	parquet-jackson	1.8.2-databricks1
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.9.3
org.apache.xbean	xbean-asm5-shaded	4.4
org.apache.zookeeper	zookeeper	3.4.6
org.bouncycastle	bcprov-jdk15on	1.58
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-jaxrs	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.jackson	jackson-xc	1.9.13
org.codehaus.janino	commons-compiler	3.0.8
org.codehaus.janino	janino	3.0.8
org.datanucleus	datanucleus-api-jdo	3.2.6
org.datanucleus	datanucleus-core	3.2.10
org.datanucleus	datanucleus-rdbms	3.2.9
org.eclipse.jetty	jetty-client	9.3.20.v20170531
org.eclipse.jetty	jetty-continuation	9.3.20.v20170531
org.eclipse.jetty	jetty-http	9.3.20.v20170531
org.eclipse.jetty	jetty-io	9.3.20.v20170531
org.eclipse.jetty	jetty-jndi	9.3.20.v20170531
org.eclipse.jetty	jetty-plus	9.3.20.v20170531
org.eclipse.jetty	jetty-proxy	9.3.20.v20170531
org.eclipse.jetty	jetty-security	9.3.20.v20170531
org.eclipse.jetty	jetty-server	9.3.20.v20170531
org.eclipse.jetty	jetty-servlet	9.3.20.v20170531
org.eclipse.jetty	jetty-servlets	9.3.20.v20170531
org.eclipse.jetty	jetty-util	9.3.20.v20170531
org.eclipse.jetty	jetty-webapp	9.3.20.v20170531
org.eclipse.jetty	jetty-xml	9.3.20.v20170531
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.4.0-b34
org.glassfish.hk2	hk2-locator	2.4.0-b34
org.glassfish.hk2	hk2-utils	2.4.0-b34
org.glassfish.hk2	osgi-resource-locator	1.0.1
org.glassfish.hk2.external	aopalliance-repackaged	2.4.0-b34
org.glassfish.hk2.external	javax.inject	2.4.0-b34
org.glassfish.jersey.bundles.repackaged	jersey-guava	2.22.2
org.glassfish.jersey.containers	jersey-container-servlet	2.22.2
org.glassfish.jersey.containers	jersey-container-servlet-core	2.22.2
org.glassfish.jersey.core	jersey-client	2.22.2
org.glassfish.jersey.core	jersey-common	2.22.2
org.glassfish.jersey.core	jersey-server	2.22.2
org.glassfish.jersey.media	jersey-media-jaxb	2.22.2
org.hibernate	hibernate-validator	5.1.1.Final
org.iq80.snappy	snappy	0,2
org.javassist	javassist	3.18.1-GA
org.jboss.logging	jboss-logging	3.1.3.GA
org.jdbi	jdbi	2.63.1
org.joda	joda-convert	1.7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.11	3.2.11
org.json4s	json4s-core_2.11	3.2.11
org.json4s	json4s-jackson_2.11	3.2.11
org.lz4	lz4-java	1.4.0
org.mariadb.jdbc	mariadb-java-client	2.1.2
org.mockito	mockito-all	1.9.5
org.objenesis	objenesis	2.1
org.postgresql	postgresql	42.1.4
org.roaringbitmap	RoaringBitmap	0.5.11
org.rocksdb	rocksdbjni	5.2.1
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.11	2.11.8
org.scala-lang	scala-library_2.11	2.11.8
org.scala-lang	scala-reflect_2.11	2.11.8
org.scala-lang	scalap_2.11	2.11.8
org.scala-lang.modules	scala-parser-combinators_2.11	1.0.2
org.scala-lang.modules	scala-xml_2.11	1.0.5
org.scala-sbt	test-interface	1.0
org.scalacheck	scalacheck_2.11	1.12.5
org.scalanlp	breeze-macros_2.11	0.13.2
org.scalanlp	breeze_2.11	0.13.2
org.scalatest	scalatest_2.11	2.2.6
org.slf4j	jcl-over-slf4j	1.7.16
org.slf4j	jul-to-slf4j	1.7.16
org.slf4j	slf4j-api	1.7.16
org.slf4j	slf4j-log4j12	1.7.16
org.spark-project.hive	hive-beeline	1.2.1.spark2
org.spark-project.hive	hive-cli	1.2.1.spark2
org.spark-project.hive	hive-exec	1.2.1.spark2
org.spark-project.hive	hive-jdbc	1.2.1.spark2
org.spark-project.hive	hive-metastore	1.2.1.spark2
org.spark-project.spark	unused	1.0.0
org.spire-math	spire-macros_2.11	0.13.0
org.spire-math	spire_2.11	0.13.0
org.springframework	spring-core	4.1.4.RELEASE
org.springframework	spring-test	4.1.4.RELEASE
org.tukaani	xz	1.0
org.typelevel	machinist_2.11	0.6.1
org.typelevel	macro-compat_2.11	1.1.1
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.2.6
org.yaml	snakeyaml	1.16
oro	oro	2.0.8
software.amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1
xmlenc	xmlenc	0,52