Databricks Runtime 4.0 (non pris en charge)

Article
03/01/2024

Databricks a publié cette image en mars 2018.

Important

Cette version a été déconseillée le 1e novembre 2018. Pour plus d’informations sur la politique de dépréciation et la planification de Databricks Runtime, consultez Cycles de vie du support des runtimes Databricks.

Les notes de publication suivantes fournissent des informations sur Databricks Runtime 4.0, optimisé par Apache Spark.

Changements et améliorations

La source de données JSON tente désormais de détecter automatiquement l’encodage au lieu de supposer qu’il s’agit de UTF-8. Dans les cas où la détection automatique échoue, les utilisateurs peuvent spécifier l’option charset pour appliquer un certain codage. Consultez Détection automatique de jeu de caractères.
Le scoring et la prédiction à l’aide de pipelines Spark MLlib dans une diffusion en continu structurée sont entièrement pris en charge.
L’exportation de modèle ML Databricks est entièrement prise en charge. Cette fonctionnalité vous permet d’effectuer l’apprentissage d’un modèle MLlib Spark sur Databricks, de l’exporter avec un appel de fonction et d’utiliser une bibliothèque Databricks dans le système de votre choix pour l’importer et noter les nouvelles données.
Une nouvelle implémentation de source de données Spark offre un accès en lecture/écriture évolutif à Azure Synapse Analytics. Consultez Spark - Connecteur Azure Synapse Analytics.
Le schéma de la fonction from_json est désormais toujours converti en un objet pouvant accepter la valeur null. En d’autres termes, tous les champs, y compris les champs imbriqués, peuvent accepter la valeur null. Cela garantit que les données sont compatibles avec le schéma, empêchant ainsi toute altération après leur écriture dans le fichier Parquet quand un champ est manquant et quand le schéma fourni par l’utilisateur déclare le champ comme ne pouvant pas accepter les valeurs null (non-nullable).
Mise à niveau de certaines bibliothèques Python installées :
- futures : de 3.1.1 à 3.2.0
- pandas : de 0.18.1 à 0.19.2
- pyarrow : de 0.4.1 à 0.8.0
- setuptools : de 38.2.3 à 38.5.1
- tornado : de 4.5.2 à 4.5.3
Mise à niveau de plusieurs bibliothèques R installées. Consultez Bibliothèques R installées.
Mise à niveau du Kit de développement logiciel (SDK) AWS Java de 1.11.126 vers 1.11.253.
Mise à niveau du pilote JDBC SQL Server de 6.1.0.jre8 vers 6.2.2.jre8.
Mise à niveau du pilote JDBC PostgreSQL de 9.4-1204-jdbc41 vers 42.1.4.

Apache Spark

Databricks Runtime 4.0 inclut Apache Spark 2.3.0.

Core, PySpark et Spark SQL

Fonctionnalités majeures

Lecteur ORC vectorisé : [SPARK-16060] : ajoute la prise en charge du nouveau lecteur ORC qui améliore considérablement le débit d’analyse ORC via la vectorisation (2-5x). Pour activer le lecteur, les utilisateurs peuvent définir spark.sql.orc.impl sur native.
Serveur d’historique Spark v2 : [SPARK-18085] : nouveau serveur d’historique Spark (SHS) principal qui offre une meilleure scalabilité des applications à grande échelle avec un mécanisme de stockage d’événements plus efficace.
API Source de données v2 : [SPARK-15689][SPARK-22386] : API expérimentale permettant de connecter de nouvelles sources de données dans Spark. La nouvelle API tente de répondre à plusieurs limitations de l’API v1 et vise à faciliter le développement de sources de données externes hautement performantes, faciles à gérer et extensibles. Cette API est toujours en cours de développement actif, et des modifications importantes doivent être attendues.
Améliorations des performances de PySpark : [Spark-22216][Spark-21187] : améliorations significatives des performances et de l’interopérabilité de Python grâce à la sérialisation rapide des données et à l’exécution vectorielle.

Stabilité et performances

[SPARK-21975] : prise en charge des histogrammes dans l’optimiseur basé sur les coûts.
[SPARK-20331] : meilleure prise en charge du pushdown de prédicat pour le nettoyage de partition Hive.
[SPARK-19112] : prise en charge du codec de compression Zstandard.
[SPARK-21113] : prise en charge du flux d’entrée de lecture anticipée pour amortir le coût des E/S de disque dans le lecteur de déversement.
[SPARK-22510][SPARK-22692][SPARK-21871] : stabilisation accrue de l’infrastructure codegen afin d’éviter d’atteindre la limite de bytecode JVM de 64 Ko sur la méthode Java, et la limite du pool de constantes du compilateur Java.
[SPARK-23207] : correction d’un bogue ancien dans Spark, où la lecture aléatoire et la répartition consécutives sur une tramedonnées pouvaient conduire à des réponses incorrectes dans certains cas.
[SPARK-22062][SPARK-17788][SPARK-21907] : correction de diverses causes d’insuffisance de mémoire.
[SPARK-22489][SPARK-22916][SPARK-22895][SPARK-20758][SPARK-22266][SPARK-19122][SPARK-22662][SPARK-21652] : améliorations de l’optimiseur et du planificateur basés sur des règles.

Autres changements notables

[SPARK-20236] : prise en charge la sémantique de remplacement de partition dynamique de style Hive.
[SPARK-4131] : prise en charge de INSERT OVERWRITE DIRECTORY pour écrire des données directement dans le système de fichiers à partir d’une requête.
[SPARK-19285][SPARK-22945][SPARK-21499][SPARK-20586][SPARK-20416][SPARK-20668] : améliorations de fonction définie par l'utilisateur.
[SPARK-20463][SPARK-19951][SPARK-22934][SPARK-21055][SPARK-17729][SPARK-20962][SPARK-20963][SPARK-20841][SPARK-17642][SPARK-22475][SPARK-22934] : amélioration de la conformité ANSI SQL et de la compatibilité Hive.
[SPARK-20746] : fonctions intégrées SQL plus complètes.
[SPARK-21485] : génération de documentation Spark SQL pour les fonctions intégrées.
[SPARK-19810] : suppression de la prise en charge de Scala 2.10.
[SPARK-22324] : mise à niveau d’Arrow vers 0.8.0 et de Netty vers 4.1.17.

Guides de programmation : Guide de programmation de Spark RDD et Guide sur les trames de données et jeux de données Spark SQL.

Structured Streaming

Traitement continu

Nouveau moteur d’exécution pouvant exécuter des requêtes de diffusion en continu avec une latence de bout en bout inférieure à la milliseconde en modifiant une seule ligne de code utilisateur. Pour plus d’informations, consultez le Guide de programmation.

Jointures flux-flux

Possibilité de joindre deux flux de données et de mettre en mémoire tampon des lignes jusqu’à ce que les tuples correspondants arrivent dans l’autre flux. Des prédicats peuvent être utilisés sur des colonnes d’heure d’événement pour limiter la quantité d’informations d’état à conserver.

API de diffusion en continu V2

API expérimentale pour connecter de nouveaux récepteurs et sources, qui fonctionne pour le traitement par lot, le traitement par micro-lot et l’exécution continue. Cette API est toujours en cours de développement actif, et pourrait faire l’objet de changements cassants.

Guide de programmation : Guide de programmation de diffusion en continu structurée.

MLlib

Points forts

La prédiction de Mettre à jour opère désormais avec la diffusion en continu structurée, à l’aide d’API mises à jour. Voici plus de détails.

API nouvelles et améliorées

[SPARK-21866] : prise en charge intégrée de la lecture d’images dans une tramedonnées (Scala/Java/Python).
[SPARK-19634] : fonctions de tramedonnées pour obtenir des statistiques descriptives sur des colonnes vectorielles (Scala/Java).
[SPARK-14516] : ClusteringEvaluator pour le réglage des algorithmes de clustering, la prise en charge de profil cosinus et les métriques de profil euclidien au carré (Scala/Java/Python).
[SPARK-3181] : régression linéaire robuste avec perte de Huber (Scala/Java/Python).
[SPARK-13969] : FeatureHasher transformateur (Scala/Java/Python).
Prise en charge de colonnes multiples pour plusieurs transformateurs de fonctionnalités :
- [SPARK-13030] : OneHotEncoderEstimator (Scala/Java/Python)
- [SPARK-22397] : QuantileDiscretizer (Scala/Java)
- [SPARK-20542] : Bucketizer (Scala/Java/Python)
[SPARK-21633] et SPARK-21542] : prise en charge améliorée des composants de pipeline personnalisés dans Python.

Nouvelles fonctionnalités

[SPARK-21087] : CrossValidator et TrainValidationSplit peuvent collecter tous les modèles lors de l’ajustement (Scala/Java). Cela vous permet d’inspecter ou d’enregistrer tous les modèles ajustés.
[SPARK-19357] : les méta-algorithmes CrossValidator, TrainValidationSplit et OneVsRest prennent en charge un paramètre de parallélisme pour l’ajustement de plusieurs sous-modèles dans des travaux Spark parallèles.
[SPARK-17139] : résumé du modèle pour la régression logistique multimultinomiale (Scala/Java/Python)
[SPARK-18710] : ajouter un décalage dans GLM.
[SPARK-20199] : paramètre featureSubsetStrategy ajouté à GBTClassifier et GBTRegressor. L’utilisation de ces fonctionnalités de sous-échantillonnage peut améliorer sensiblement la vitesse d’apprentissage. Cette option a été une force clé de xgboost.

Autres changements notables

[SPARK-22156] : correction de la mise à l’échelle du taux d’apprentissage Word2Vec avec des itérations num. Le nouveau taux d’apprentissage est défini pour correspondre au code C Word2Vec d’origine et doit produire de meilleurs résultats d’apprentissage.
[SPARK-22289] : ajout de la prise en charge de JSON pour les paramètres de matrice (cela corrige un bogue pour la persistance de ML avec LogisticRegressionModel lors de l’utilisation de limites sur des coefficients).
[SPARK-22700] : Bucketizer.transform supprime erronément la ligne contenant NaN. Quand le paramètre handleInvalid est défini sur « skip », Bucketizer supprime une ligne avec une valeur valide dans la colonne d’entrée si une autre colonne (non pertinente) a une valeur NaN.
[SPARK-22446] : l’optimiseur Catalyst amenait parfois StringIndexerModel à lever une exception « Étiquette non visible » incorrecte quand handleInvalid était défini sur « erreur ». Cela pouvait se produire pour des données filtrées, en raison d’un pushdown de prédicat provoquant des erreurs même après que des lignes non valides avaient déjà été filtrées du jeu de données d’entrée.
[SPARK-21681] : correction d’un bogue de cas limite dans une régression logistique multimultinomiale qui générait des coefficients incorrects quand certaines fonctionnalités n’avaient aucune variance.
Optimisations majeures :
- [SPARK-22707] : consommation de mémoire réduite pour CrossValidator.
- [SPARK-22949] : consommation de mémoire réduite pour TrainValidationSplit.
- [SPARK-21690] : Imputer devrait effectuer l’apprentissage en un seul passage sur les données.
- [SPARK-14371] : OnlineLDAOptimizer évite de collecter des statistiques sur le pilote pour chaque mini-lot.

Guide de programmation : Guide de la bibliothèque de Machine Learning (MLlib).

SparkR

L’objectif principal de SparkR dans la version 2.3.0 est l’amélioration de la stabilité des fonctions définies par l’utilisateur et l’ajout de plusieurs nouveaux wrappers SparkR autour des API existantes :

Fonctionnalités majeures

Amélioration de la parité des fonctions entre SQL et R
[SPARK-22933] : API de diffusion en continu structurée pour withWatermark, trigger et partitionBy, et les jointures flux-flux.
[SPARK-21266] : fonction définie par l'utilisateur SparkR avec prise en charge de schéma au format DDL.
[SPARK-20726][SPARK-22924][SPARK-22843] : plusieurs nouveaux wrappers d’API Dataframe.
[SPARK-15767][SPARK-21622][SPARK-20917][SPARK-20307][SPARK-20906] : plusieurs nouveaux wrappers d’API SparkML.

Guide de programmation : SparkR (R sur Spark).

GraphX

Optimisations

[SPARK-5484] : Pregel vérifie désormais des points de contrôle régulièrement afin d’éviter StackOverflowErrors.
[SPARK-21491] : légère amélioration des performances en plusieurs endroits.

Guide de programmation : Guide de programmation GraphX.

Dépréciations

Python

[SPARK-23122] : dépréciation de register* pour les fonctions définies par l’utilisateur dans SQLContext et Catalog dans PySpark.

MLlib

[SPARK-13030] : la fonctionnalité OneHotEncoder a été déconseillée et sera supprimée dans la version 3.0. Elle a été remplacé par la nouvelle fonctionnalité OneHotEncoderEstimator. La fonctionnalité OneHotEncoderEstimator sera renommée OneHotEncoder dans la version 3.0 (mais OneHotEncoderEstimator sera conservé comme alias).

Changements de comportement

SparkSQL

[SPARK-22036] : par défaut, les opérations arithmétiques entre nombres décimaux retournent une valeur arrondie si une représentation exacte n’est pas possible (au lieu de retourner NULL comme dans les versions antérieures).
[SPARK-22937] : quand toutes les entrées sont binaires, la fonction SQL elt() retourne une sortie au format binaire. Sinon, elle retourne une chaîne. Dans les versions antérieures, elle retournait toujours une chaîne, quels que soient les types d’entrée.
[SPARK-22895] : autant que possible, les prédicats déterministes de jointure ou de filtre qui se trouvent après les premiers prédicats non déterministes sont également envoyés via les opérateurs enfants. Dans les versions antérieures, ces filtres n’étaient pas éligibles pour l’envoi de prédicat.
[SPARK-22771] : quand toutes les entrées sont binaires, la fonction functions.concat() retourne une sortie au format binaire. Sinon, elle retourne une chaîne. Dans les versions antérieures, elle retournait toujours une chaîne, quels que soient les types d’entrée.
[SPARK-22489] : quand l’un des côtés de la jointure est diffusable, nous préférons diffuser la table explicitement spécifiée dans un indicateur de diffusion.
[SPARK-22165] : une inférence de colonnes de partition trouvait précédemment un type commun incorrect pour différents types inférés. Par exemple, précédemment elle finissait avec le type double comme type commun pour les types double et date. Désormais, elle recherche le type commun correct pour de tels conflits. Pour plus d’informations, consultez le Guide de migration.
[SPARK-22100] : précédemment, la fonction percentile_approx acceptait l’entrée de type numeric et produisait des résultats de type double. Désormais, elle prend en charge le type date, le type timestamp et les types numeric en tant que types d’entrées. Le type de résultat est également modifié pour être identique au type d’entrée, ce qui est plus raisonnable pour les centiles.
[SPARK-21610] : les requêtes provenant de fichiers JSON/CSV bruts ne sont pas autorisées lorsque les colonnes référencées incluent uniquement la colonne d’enregistrements endommagée interne (nommée _corrupt_record par défaut). Au lieu de cela, vous pouvez mettre en cache ou enregistrer les résultats analysés, puis envoyer la même requête.
[SPARK-23421] : depuis Spark 2.2.1 et 2.3.0, le schéma est toujours inféré au moment de l’exécution, lorsque les tables sources des données contiennent les colonnes existant tant dans le schéma de partition que dans le schéma de données. Le schéma inféré n’a pas les colonnes partitionnées. Lors de la lecture de la table, Spark respecte les valeurs de partition de ces colonnes qui se chevauchent, au lieu des valeurs stockées dans les fichiers sources des données. Dans les versions 2.2.0 et 2.1.x, le schéma inféré est partitionné, mais les données de la table sont invisibles pour les utilisateurs (par exemple, le jeu de résultats est vide).

PySpark

[SPARK-19732] : na.fill() ou fillna accepte également une valeur booléenne, et remplace les valeurs null par des valeurs booléennes. Dans les versions antérieures de Spark, PySpark l’ignore et retourne le jeu de données ou la tramedonnées d’origine.
[SPARK-22395] : pandas 0.19.2 ou version ultérieure est requis pour l’utilisation de fonctionnalités associées à pandas, telles que toPandas, createDataFrame à partir d’une tramedonnées pandas, etc.
[SPARK-22395] : le comportement des valeurs de timestamp pour les fonctionnalités associées à pandas a été modifié pour respecter le fuseau horaire de la session, qui est ignoré dans les versions antérieures.
[SPARK-23328] : df.replace ne permet pas d’omettre value quand to_replace n’est pas un dictionnaire. Auparavant, value pouvait être omis dans les autres cas, et avait None par défaut. Ce comportement était contre-intuitif et générateur d’erreurs.

MLlib

Changements cassants de l’API : la hiérarchie des classes et caractéristiques pour les résumés de modèle de régression logistique a été modifiée afin qu’elle soit plus propre et plus adaptée à l’ajout du résumé multi-classe. Il s’agit d’un changement cassant pour le code utilisateur qui convertit un LogisticRegressionTrainingSummary en BinaryLogisticRegressionTrainingSummary. Les utilisateurs doivent plutôt utiliser la méthode model.binarySummary. Pour plus d’informations, consultez [SPARK-17139] (Notez qu’il s’agit d’une API @Experimental). Cela n’affecte pas la méthode de résumé de Python, qui continuera à fonctionner correctement pour les cas tant multipolynomiauxs que binaires.
[SPARK-21806] : BinaryClassificationMetrics.pr() : le premier point (0.0, 1,0) est trompeur et a été remplacé par (0.0, p) où la précision p correspond au point de rappel le plus bas.
[SPARK-16957] : les arbres de décision utilisent désormais des points médians pondérés lors du choix des valeurs de fractionnement. Cela peut modifier les résultats de l’apprentissage du modèle.
[SPARK-14657] : RFormula sans intersection génère désormais la catégorie de référence lors de l’encodage des termes de chaîne, de façon à correspondre au comportement R natif. Cela peut modifier les résultats de l’apprentissage du modèle.
[SPARK-21027] : le parallélisme par défaut utilisé dans OneVsRest est désormais défini sur 1 (c’est-à-dire sériel). Dans les versions 2.2 et antérieures, le niveau de parallélisme était défini sur la taille par défaut du pool de threads dans Scala. Cela peut modifier les performances.
[SPARK-21523] : Breeze mis à niveau vers 0.13.2. Cette version inclut un correctif de bogue important dans une recherche de ligne Wolfe forte pour L-BFGS.
[SPARK-15526] : la dépendance JPMML est désormais grisée.
Consultez également la section « Correctifs de bogues » pour découvrir les changements de comportement résultant de la résolution des bogues.

Problèmes connus

[SPARK-23523][SQL] : résultat incorrect provoqué par la règle OptimizeMetadataOnlyQuery.
[SPARK-23406] : bogues dans les jointures réflexives flux-flux

Mises à jour de maintenance

Consultez Mises à jour de maintenance de Databricks Runtime 4.0.

Environnement du système

Système d’exploitation : Ubuntu 16.04.4 LTS
Java : 1.8.0_151
Scala : 2.11.8
Python : 2.7.12 (ou 3.5.2 si vous utilisez Python 3)
R : R version 3.4.3 (30/11/2017)
Clusters GPU : Les bibliothèques GPU NVIDIA suivantes sont installées :
- Pilote Tesla 375.66
- CUDA 8.0
- CUDNN 6.0

Bibliothèques Python installées

Bibliothèque	Version	Bibliothèque	Version	Bibliothèque	Version
ansi2html	1.1.1	argparse	1.2.1	backports-abc	0.5
boto	2.42.0	boto3	1.4.1	botocore	1.4.70
brewer2mpl	1.4.1	certifi	2016.2.28	cffi	1.7.0
chardet	2.3.0	colorama	0.3.7	configobj	5.0.6
chiffrement	1.5	cycler	0.10.0	Cython	0.24.1
decorator	4.0.10	docutils	0.14	enum34	1.1.6
et-xmlfile	1.0.1	freetype-py	1.0.2	funcsigs	1.0.2
fusepy	2.0.4	futures	3.2.0	ggplot	0.6.8
html5lib	0.999	idna	2.1	ipaddress	1.0.16
ipython	2.2.0	ipython-genutils	0.1.0	jdcal	1.2
Jinja2	2.8	jmespath	0.9.0	llvmlite	0.13.0
lxml	3.6.4	MarkupSafe	0.23	matplotlib	1.5.3
mpld3	0.2	msgpack-python	0.4.7	ndg-httpsclient	0.3.3
numba	0.28.1	numpy	1.11.1	openpyxl	2.3.2
pandas	0.19.2	pathlib2	2.1.0	patsy	0.4.1
pexpect	4.0.1	pickleshare	0.7.4	Pillow	3.3.1
pip	9.0.1	ply	3.9	prompt-toolkit	1.0.7
psycopg2	2.6.2	ptyprocess	0.5.1	py4j	0.10.3
pyarrow	0.8.0	pyasn1	0.1.9	pycparser	2.14
Pygments	2.1.3	PyGObject	3.20.0	pyOpenSSL	16.0.0
pyparsing	2.2.0	pypng	0.0.18	Python	2.7.12
python-dateutil	2.5.3	python-geohash	0.8.5	pytz	2016.6.1
requêtes	2.11.1	s3transfer	0.1.9	scikit-learn	0.18.1
scipy	0.18.1	scour	0.32	seaborn	0.7.1
setuptools	38.5.1	simplejson	3.8.2	simples3	1.0
singledispatch	3.4.0.3	six	1.10.0	statsmodels	0.6.1
tornado	4.5.3	traitlets	4.3.0	urllib3	1.19.1
virtualenv	15.0.1	wcwidth	0.1.7	wheel	0.30.0
wsgiref	0.1.2

Bibliothèques R installées

Bibliothèque	Version	Bibliothèque	Version	Bibliothèque	Version
abind	1.4-5	assertthat	0.2.0	backports	1.1.1
base	3.4.3	BH	1.65.0-1	bindr	0.1
bindrcpp	0.2	bit	1.1-12	bit64	0.9-7
bitops	1.0-6	objet BLOB	1.1.0	boot	1.3-20
brew	1.0-6	broom	0.4.3	voiture	2.1-6
caret	6.0-77	chron	2.3-51	class	7.3-14
cluster	2.0.6	codetools	0.2-15	colorspace	1.3-2
commonmark	1.4	compiler	3.4.3	crayon	1.3.4
curl	3.0	CVST	0.2-1	data.table	1.10.4-3
jeux de données	3.4.3	DBI	0.7	ddalpha	1.3.1
DEoptimR	1,0-8	desc	1.1.1	devtools	1.13.4
dichromat	2.0-0	digest	0.6.12	dimRed	0.1.0
doMC	1.3.4	dplyr	0.7.4	DRR	0.0.2
foreach	1.4.3	foreign	0.8-69	gbm	2.1.3
ggplot2	2.2.1	git2r	0.19.0	glmnet	2.0-13
glue	1.2.0	gower	0.1.2	graphics	3.4.3
grDevices	3.4.3	grid	3.4.3	gsubfn	0.6-6
gtable	0.2.0	h2o	3.16.0.1	httr	1.3.1
hwriter	1.3.2	hwriterPlus	1.0-3	ipred	0.9-6
iterators	1.0.8	jsonlite	1.5	kernlab	0.9-25
KernSmooth	2.23-15	labeling	0.3	lattice	0.20-35
lava	1.5.1	lazyeval	0.2.1	littler	0.3.2
lme4	1.1-14	lubridate	1.7.1	magrittr	1.5
mapproj	1.2-5	cartes	3.2.0	MASS	7.3-48
Matrice	1.2-11	MatrixModels	0.4-1	memoise	1.1.0
methods	3.4.3	mgcv	1.8-23	mime	0.5
minqa	1.2.4	mnormt	1.5-5	ModelMetrics	1.1.0
munsell	0.4.3	mvtnorm	1.0-6	nlme	3.1-131
nloptr	1.0.4	nnet	7.3-12	numDeriv	2016.8-1
openssl	0.9.9	parallel	3.4.3	pbkrtest	0.4-7
pkgconfig	2.0.1	pkgKitten	0.1.4	plogr	0.1-1
plyr	1.8.4	praise	1.0.0	pROC	1.10.0
prodlim	1.6.1	proto	1.0.0	psych	1.7.8
purrr	0.2.4	quantreg	5.34	R.methodsS3	1.7.1
R.oo	1.21.0	R.utils	2.6.0	R6	2.2.2
randomForest	4.6-12	RColorBrewer	1.1-2	Rcpp	0.12.14
RcppEigen	0.3.3.3.1	RcppRoll	0.2.2	RCurl	1.95-4.8
recipes	0.1.1	reshape2	1.4.2	rlang	0.1.4
robustbase	0.92-8	RODBC	1.3-15	roxygen2	6.0.1
rpart	4.1-12	rprojroot	1.2	Rserve	1.7-3
RSQLite	2	rstudioapi	0.7	scales	0.5.0
sfsmisc	1.1-1	sp	1.2-5	SparkR	2.3.0
SparseM	1.77	spatial	7.3-11	splines	3.4.3
sqldf	0.4-11	statmod	1.4.30	stats	3.4.3
stats4	3.4.3	stringi	1.1.6	stringr	1.2.0
survival	2.41-3	tcltk	3.4.3	TeachingDemos	2,10
testthat	1.0.2	tibble	1.3.4	tidyr	0.7.2
tidyselect	0.2.3	timeDate	3042.101	tools	3.4.3
utils	3.4.3	viridisLite	0.2.0	whisker	0.3-2
withr	2.1.0	xml2	1.1.1

Bibliothèques Java et Scala installées (version de cluster Scala 2.11)

ID de groupe	ID d’artefact	Version
antlr	antlr	2.7.7
com.amazonaws	amazon-kinesis-client	1.7.3
com.amazonaws	aws-java-sdk-autoscaling	1.11.253
com.amazonaws	aws-java-sdk-cloudformation	1.11.253
com.amazonaws	aws-java-sdk-cloudfront	1.11.253
com.amazonaws	aws-java-sdk-cloudhsm	1.11.253
com.amazonaws	aws-java-sdk-cloudsearch	1.11.253
com.amazonaws	aws-java-sdk-cloudtrail	1.11.253
com.amazonaws	aws-java-sdk-cloudwatch	1.11.253
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.253
com.amazonaws	aws-java-sdk-codedeploy	1.11.253
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.253
com.amazonaws	aws-java-sdk-cognitosync	1.11.253
com.amazonaws	aws-java-sdk-config	1.11.253
com.amazonaws	aws-java-sdk-core	1.11.253
com.amazonaws	aws-java-sdk-datapipeline	1.11.253
com.amazonaws	aws-java-sdk-directconnect	1.11.253
com.amazonaws	aws-java-sdk-directory	1.11.253
com.amazonaws	aws-java-sdk-dynamodb	1.11.253
com.amazonaws	aws-java-sdk-ec2	1.11.253
com.amazonaws	aws-java-sdk-ecs	1.11.253
com.amazonaws	aws-java-sdk-efs	1.11.253
com.amazonaws	aws-java-sdk-elasticache	1.11.253
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.253
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.11.253
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.253
com.amazonaws	aws-java-sdk-emr	1.11.253
com.amazonaws	aws-java-sdk-glacier	1.11.253
com.amazonaws	aws-java-sdk-iam	1.11.253
com.amazonaws	aws-java-sdk-importexport	1.11.253
com.amazonaws	aws-java-sdk-kinesis	1.11.253
com.amazonaws	aws-java-sdk-kms	1.11.253
com.amazonaws	aws-java-sdk-lambda	1.11.253
com.amazonaws	aws-java-sdk-logs	1.11.253
com.amazonaws	aws-java-sdk-machinelearning	1.11.253
com.amazonaws	aws-java-sdk-opsworks	1.11.253
com.amazonaws	aws-java-sdk-rds	1.11.253
com.amazonaws	aws-java-sdk-redshift	1.11.253
com.amazonaws	aws-java-sdk-route53	1.11.253
com.amazonaws	aws-java-sdk-s3	1.11.253
com.amazonaws	aws-java-sdk-ses	1.11.253
com.amazonaws	aws-java-sdk-simpledb	1.11.253
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.253
com.amazonaws	aws-java-sdk-sns	1.11.253
com.amazonaws	aws-java-sdk-sqs	1.11.253
com.amazonaws	aws-java-sdk-ssm	1.11.253
com.amazonaws	aws-java-sdk-storagegateway	1.11.253
com.amazonaws	aws-java-sdk-sts	1.11.253
com.amazonaws	aws-java-sdk-support	1.11.253
com.amazonaws	aws-java-sdk-swf-libraries	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.253
com.amazonaws	jmespath-java	1.11.253
com.carrotsearch	hppc	0.7.2
com.chuusai	shapeless_2.11	2.3.2
com.clearspring.analytics	flux	2.7.0
com.databricks	Rserve	1.8-3
com.databricks	dbml-local_2.11	0.3.0-db1-spark2.3
com.databricks	dbml-local_2.11-tests	0.3.0-db1-spark2.3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.11	0.4.15-9
com.databricks.scalapb	scalapb-runtime_2.11	0.4.15-9
com.esotericsoftware	kryo-shaded	3.0.3
com.esotericsoftware	minlog	1.3.0
com.fasterxml	classmate	1.0.0
com.fasterxml.jackson.core	jackson-annotations	2.6.7
com.fasterxml.jackson.core	jackson-core	2.6.7
com.fasterxml.jackson.core	jackson-databind	2.6.7.1
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.6.7
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.6.7
com.fasterxml.jackson.module	jackson-module-paranamer	2.6.7
com.fasterxml.jackson.module	jackson-module-scala_2.11	2.6.7.1
com.github.fommil	jniloader	1.1
com.github.fommil.netlib	core	1.1.2
com.github.fommil.netlib	native_ref-java	1.1
com.github.fommil.netlib	native_ref-java-natives	1.1
com.github.fommil.netlib	native_system-java	1.1
com.github.fommil.netlib	native_system-java-natives	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1.1
com.github.luben	zstd-jni	1.3.2-2
com.github.rwl	jtransforms	2.4.0
com.google.code.findbugs	jsr305	2.0.1
com.google.code.gson	gson	2.2.4
com.google.guava	guava	15.0
com.google.protobuf	protobuf-java	2.6.1
com.googlecode.javaewah	JavaEWAH	0.3.2
com.h2database	h2	1.3.174
com.jamesmurty.utils	java-xmlbuilder	1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEASE
com.mchange	c3p0	0.9.5.1
com.mchange	mchange-commons-java	0.2.10
com.microsoft.azure	azure-data-lake-store-sdk	2.0.11
com.microsoft.sqlserver	mssql-jdbc	6.2.2.jre8
com.ning	compress-lzf	1.0.3
com.sun.mail	javax.mail	1.5.2
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.11	0.3
com.twitter	chill-java	0.8.4
com.twitter	chill_2.11	0.8.4
com.twitter	parquet-hadoop-bundle	1.6.0
com.twitter	util-app_2.11	6.23.0
com.twitter	util-core_2.11	6.23.0
com.twitter	util-jvm_2.11	6.23.0
com.typesafe	config	1.2.1
com.typesafe.scala-logging	scala-logging-api_2.11	2.1.2
com.typesafe.scala-logging	scala-logging-slf4j_2.11	2.1.2
com.univocity	univocity-parsers	2.5.9
com.vlkan	flatbuffers	1.2.0-3f79e055
com.zaxxer	HikariCP	2.4.1
commons-beanutils	commons-beanutils	1.7.0
commons-beanutils	commons-beanutils-core	1.8.0
commons-cli	commons-cli	1.2
commons-codec	commons-codec	1,10
commons-collections	commons-collections	3.2.2
commons-configuration	commons-configuration	1.6
commons-dbcp	commons-dbcp	1.4
commons-digester	commons-digester	1.8
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2.4
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-net	commons-net	2.2
commons-pool	commons-pool	1.5.4
info.ganglia.gmetric4j	gmetric4j	1.0.7
io.airlift	aircompressor	0,8
io.dropwizard.metrics	metrics-core	3.1.5
io.dropwizard.metrics	metrics-ganglia	3.1.5
io.dropwizard.metrics	metrics-graphite	3.1.5
io.dropwizard.metrics	metrics-healthchecks	3.1.5
io.dropwizard.metrics	metrics-jetty9	3.1.5
io.dropwizard.metrics	metrics-json	3.1.5
io.dropwizard.metrics	metrics-jvm	3.1.5
io.dropwizard.metrics	metrics-log4j	3.1.5
io.dropwizard.metrics	metrics-servlets	3.1.5
io.netty	netty	3.9.9.Final
io.netty	netty-all	4.1.17.Final
io.prometheus	simpleclient	0.0.16
io.prometheus	simpleclient_common	0.0.16
io.prometheus	simpleclient_dropwizard	0.0.16
io.prometheus	simpleclient_servlet	0.0.16
io.prometheus.jmx	collecteur	0.7
javax.activation	activation	1.1.1
javax.annotation	javax.annotation-api	1.2
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.servlet	javax.servlet-api	3.1.0
javax.servlet.jsp	jsp-api	2.1
javax.transaction	jta	1.1
javax.validation	validation-api	1.1.0.Final
javax.ws.rs	javax.ws.rs-api	2.0.1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0-2
javolution	javolution	5.5.1
jline	jline	2,11
joda-time	joda-time	2.9.3
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
net.hydromatic	eigenbase-properties	1.1.5
net.iharder	base64	2.3.8
net.java.dev.jets3t	jets3t	0.9.4
net.razorvine	pyrolite	4.13
net.sf.jpam	jpam	1.1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.sourceforge.f2j	arpack_combined_all	0.1
org.acplt	oncrpc	1.0.7
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.4
org.antlr	antlr4-runtime	4,7
org.antlr	stringtemplate	3.2.1
org.apache.ant	ant	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher	1.9.2
org.apache.arrow	arrow-format	0.8.0
org.apache.arrow	arrow-memory	0.8.0
org.apache.arrow	arrow-vector	0.8.0
org.apache.avro	avro	1.7.7
org.apache.avro	avro-ipc	1.7.7
org.apache.avro	avro-ipc-tests	1.7.7
org.apache.avro	avro-mapred-hadoop2	1.7.7
org.apache.calcite	calcite-avatica	1.2.0-incubating
org.apache.calcite	calcite-core	1.2.0-incubating
org.apache.calcite	calcite-linq4j	1.2.0-incubating
org.apache.commons	commons-compress	1.4.1
org.apache.commons	commons-crypto	1.0.0
org.apache.commons	commons-lang3	3,5
org.apache.commons	commons-math3	3.4.1
org.apache.curator	curator-client	2.7.1
org.apache.curator	curator-framework	2.7.1
org.apache.curator	curator-recipes	2.7.1
org.apache.derby	derby	10.12.1.1
org.apache.directory.api	api-asn1-api	1.0.0-M20
org.apache.directory.api	api-util	1.0.0-M20
org.apache.directory.server	apacheds-i18n	2.0.0-M15
org.apache.directory.server	apacheds-kerberos-codec	2.0.0-M15
org.apache.hadoop	hadoop-annotations	2.7.3
org.apache.hadoop	hadoop-auth	2.7.3
org.apache.hadoop	hadoop-client	2.7.3
org.apache.hadoop	hadoop-common	2.7.3
org.apache.hadoop	hadoop-hdfs	2.7.3
org.apache.hadoop	hadoop-mapreduce-client-app	2.7.3
org.apache.hadoop	hadoop-mapreduce-client-common	2.7.3
org.apache.hadoop	hadoop-mapreduce-client-core	2.7.3
org.apache.hadoop	hadoop-mapreduce-client-jobclient	2.7.3
org.apache.hadoop	hadoop-mapreduce-client-shuffle	2.7.3
org.apache.hadoop	hadoop-yarn-api	2.7.3
org.apache.hadoop	hadoop-yarn-client	2.7.3
org.apache.hadoop	hadoop-yarn-common	2.7.3
org.apache.hadoop	hadoop-yarn-server-common	2.7.3
org.apache.htrace	htrace-core	3.1.0-incubating
org.apache.httpcomponents	httpclient	4.5.4
org.apache.httpcomponents	httpcore	4.4.8
org.apache.ivy	ivy	2.4.0
org.apache.orc	orc-core-nohive	1.4.1
org.apache.orc	orc-mapreduce-nohive	1.4.1
org.apache.parquet	parquet-column	1.8.2-databricks1
org.apache.parquet	parquet-common	1.8.2-databricks1
org.apache.parquet	parquet-encoding	1.8.2-databricks1
org.apache.parquet	parquet-format	2.3.1
org.apache.parquet	parquet-hadoop	1.8.2-databricks1
org.apache.parquet	parquet-jackson	1.8.2-databricks1
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.9.3
org.apache.xbean	xbean-asm5-shaded	4.4
org.apache.zookeeper	zookeeper	3.4.6
org.bouncycastle	bcprov-jdk15on	1.58
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-jaxrs	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.jackson	jackson-xc	1.9.13
org.codehaus.janino	commons-compiler	3.0.8
org.codehaus.janino	janino	3.0.8
org.datanucleus	datanucleus-api-jdo	3.2.6
org.datanucleus	datanucleus-core	3.2.10
org.datanucleus	datanucleus-rdbms	3.2.9
org.eclipse.jetty	jetty-client	9.3.20.v20170531
org.eclipse.jetty	jetty-continuation	9.3.20.v20170531
org.eclipse.jetty	jetty-http	9.3.20.v20170531
org.eclipse.jetty	jetty-io	9.3.20.v20170531
org.eclipse.jetty	jetty-jndi	9.3.20.v20170531
org.eclipse.jetty	jetty-plus	9.3.20.v20170531
org.eclipse.jetty	jetty-proxy	9.3.20.v20170531
org.eclipse.jetty	jetty-security	9.3.20.v20170531
org.eclipse.jetty	jetty-server	9.3.20.v20170531
org.eclipse.jetty	jetty-servlet	9.3.20.v20170531
org.eclipse.jetty	jetty-servlets	9.3.20.v20170531
org.eclipse.jetty	jetty-util	9.3.20.v20170531
org.eclipse.jetty	jetty-webapp	9.3.20.v20170531
org.eclipse.jetty	jetty-xml	9.3.20.v20170531
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.4.0-b34
org.glassfish.hk2	hk2-locator	2.4.0-b34
org.glassfish.hk2	hk2-utils	2.4.0-b34
org.glassfish.hk2	osgi-resource-locator	1.0.1
org.glassfish.hk2.external	aopalliance-repackaged	2.4.0-b34
org.glassfish.hk2.external	javax.inject	2.4.0-b34
org.glassfish.jersey.bundles.repackaged	jersey-guava	2.22.2
org.glassfish.jersey.containers	jersey-container-servlet	2.22.2
org.glassfish.jersey.containers	jersey-container-servlet-core	2.22.2
org.glassfish.jersey.core	jersey-client	2.22.2
org.glassfish.jersey.core	jersey-common	2.22.2
org.glassfish.jersey.core	jersey-server	2.22.2
org.glassfish.jersey.media	jersey-media-jaxb	2.22.2
org.hibernate	hibernate-validator	5.1.1.Final
org.iq80.snappy	snappy	0.2
org.javassist	javassist	3.18.1-GA
org.jboss.logging	jboss-logging	3.1.3.GA
org.jdbi	jdbi	2.63.1
org.joda	joda-convert	1.7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.11	3.2.11
org.json4s	json4s-core_2.11	3.2.11
org.json4s	json4s-jackson_2.11	3.2.11
org.lz4	lz4-java	1.4.0
org.mariadb.jdbc	mariadb-java-client	2.1.2
org.mockito	mockito-all	1.9.5
org.objenesis	objenesis	2.1
org.postgresql	postgresql	42.1.4
org.roaringbitmap	RoaringBitmap	0.5.11
org.rocksdb	rocksdbjni	5.2.1
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.11	2.11.8
org.scala-lang	scala-library_2.11	2.11.8
org.scala-lang	scala-reflect_2.11	2.11.8
org.scala-lang	scalap_2.11	2.11.8
org.scala-lang.modules	scala-parser-combinators_2.11	1.0.2
org.scala-lang.modules	scala-xml_2.11	1.0.5
org.scala-sbt	test-interface	1.0
org.scalacheck	scalacheck_2.11	1.12.5
org.scalanlp	breeze-macros_2.11	0.13.2
org.scalanlp	breeze_2.11	0.13.2
org.scalatest	scalatest_2.11	2.2.6
org.slf4j	jcl-over-slf4j	1.7.16
org.slf4j	jul-to-slf4j	1.7.16
org.slf4j	slf4j-api	1.7.16
org.slf4j	slf4j-log4j12	1.7.16
org.spark-project.hive	hive-beeline	1.2.1.spark2
org.spark-project.hive	hive-cli	1.2.1.spark2
org.spark-project.hive	hive-exec	1.2.1.spark2
org.spark-project.hive	hive-jdbc	1.2.1.spark2
org.spark-project.hive	hive-metastore	1.2.1.spark2
org.spark-project.spark	unused	1.0.0
org.spire-math	spire-macros_2.11	0.13.0
org.spire-math	spire_2.11	0.13.0
org.springframework	spring-core	4.1.4.RELEASE
org.springframework	spring-test	4.1.4.RELEASE
org.tukaani	xz	1.0
org.typelevel	machinist_2.11	0.6.1
org.typelevel	macro-compat_2.11	1.1.1
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.2.6
org.yaml	snakeyaml	1.16
oro	oro	2.0.8
software.amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1
xmlenc	xmlenc	0.52