Databricks Runtime 10.0 (non pris en charge)

Article
03/01/2024

Les notes de publication suivantes fournissent des informations sur Databricks Runtime 10.0 et Databricks Runtime 10.0 Photon, avec Apache Spark 3.2.0. Databricks a publié ces images en octobre 2021. Photon est en préversion publique.

Améliorations et nouvelles fonctionnalités

Nouvelle version de Apache Spark
L’instruction SELECT prend désormais en charge la clause QUALIFY pour filtrer les résultats de fonctions de fenêtre
Prise en charge des clusters pour JDK 11 (préversion publique)
Auto Loader traite désormais les schémas comme pouvant accepter la valeur null

Nouvelle version d’Apache Spark

Databricks Runtime 10.0 et Databricks Runtime 10.0 Photon incluent Apache Spark 3.2.0. Pour plus d’informations, consultez Apache Spark.

L’instruction SELECT prend désormais en charge la clause QUALIFY pour filtrer les résultats d’une fonction de fenêtre

L’instruction SELECT prend désormais en charge la clause QUALIFY. La clause QUALIFY peut être utilisée pour filtrer les résultats de fonctions de fenêtre. Une ou plusieurs fonctions de fenêtre doivent être présentes dans la liste SELECT ou la condition QUALIFY. Par exemple :

SELECT * FROM t QUALIFY SUM(c2) OVER (PARTITION BY c1) > 0;

Prise en charge des clusters pour JDK 11 (préversion publique)

Databricks fournit désormais la prise en charge des clusters pour le kit de développement Java (JDK) 11.

Lorsque vous créez un cluster, vous pouvez spécifier que celui-ci utilise JDK 11 (tant pour le pilote que pour l’exécuteur). Pour ce faire, ajoutez la variable d’environnement suivante à Options avancées > Spark > Variables d’environnement :

JNAME=zulu11-ca-amd64

Auto Loader traite désormais les schémas comme pouvant accepter la valeur null

Auto Loader traite désormais par défaut tous les schémas inférés et fournis par l’utilisateur comme pouvant accepter la valeur null. Cela permet d’éviter une éventuelle altération des données quand celles-ci contiennent des champs null pour des colonnes ne pouvant pas accepter la valeur null. Une nouvelle configuration est introduite pour suivre ce comportement, spark.databricks.cloudFiles.schema.forceNullable. Par défaut, cette configuration contient le paramètre spark.sql.streaming.fileSource.schema.forceNullable que la FileStreamSource dans Apache Spark utilise et qui a la valeur true par défaut.

Changements cassants

Changements cassants pour tous les utilisateurs de Spark SQL

Nouvelle configuration de spark.databricks.behaviorChange.SC78546CorrelatedPredicate.enabled : si la valeur est définie sur true, autorise un sous-ensemble de prédicats d’égalité corrélés quand une sous-requête est agrégée. La valeur par défaut est true.
Nouvelle configuration de spark.databricks.behaviorChange.SC82201BlockAutoAlias.enabled : si la valeur est définie sur true, bloque les alias générés automatiquement lors de la création d’affichages. La valeur par défaut est true.
Nouvelle configuration de spark.databricks.behaviorChange.SC81078CTASWithLocation.enabled : si la valeur est définie sur true, interdit CREATE TABLE AS SELECT avec un emplacement non vide. La valeur par défaut est true. Notez que quand spark.sql.legacy.allowNonEmptyLocationInCTAS est également défini sur true, cette configuration est sans effet, et CREATE TABLE AS SELECT avec un emplacement non vide est toujours autorisé.

Changements cassants pour les utilisateurs de Spark SQL qui activent le mode ANSI

Pour plus d’informations sur le mode ANSI, consultez Conformité ANSI dans Databricks Runtime.

Nouvelle configuration de spark.databricks.behaviorChange.SC83587NextDayDOW.enabled : si la valeur est définie sur true, un argument dayOfWeek non valide pour la fonction next_day lève une exception IllegalArgumentException en mode ANSI ; sinon, retourne null. La valeur par défaut est true.
Nouvelle configuration de spark.databricks.behaviorChange.SC83796CanCast.enabled : si la valeur est définie sur true, active de nouvelles règles de syntaxe de cast explicite en mode ANSI. La valeur par défaut est true.
Nouvelle configuration de spark.databricks.behaviorChange.SC79099CastStringToBoolean.enabled : si la valeur est définie sur true, une exception d’erreur d’analyse est levée lors du cast d’une chaîne en valeur booléenne ; sinon, retourne null. La valeur par défaut est true.
Nouvelle configuration de spark.databricks.behaviorChange.SC79064AbsOutsideRange.enabled : si la valeur est définie sur true, la fonction abs lève une exception si l’entrée est hors limites. La valeur par défaut est true.

Changements cassants pour tous les utilisateurs de Python

L’API Python delta.tables.DeltaTable.convertToDelta retourne désormais l’objet Python DeltaTable correct qui peut être utilisé pour exécuter des commandes Delta Lake. Auparavant, elle retournait un objet interne qui ne pouvait pas être appelé directement.

Mises à niveau de la bibliothèque

Mise à niveau d’Apache Hadoop 3

Databricks Runtime 10.0 met à niveau la dépendance Hadoop de Hadoop 2.7.4 vers Hadoop 3.3.1.

Changements de comportement

Hadoop 3 utilise les bibliothèques hadoop-client-api et hadoop-client-runtime au lieu de la bibliothèque hadoop-common qui ombre certaines dépendances tierces qui pourraient être utilisées dans des API ou extensions publiques Hadoop.
Les options de configuration de Hadoop 3 ont changé par rapport à Hadoop 2. Pour les options de Hadoop 3.3.1, consultez core-default.xml.
Databricks a mis à jour certaines configurations par défaut pour Hadoop 3 de façon à ce qu’elles soient cohérentes avec Hadoop 2, pour s’assurer que les connecteurs de stockage aient par défaut les mêmes paramètres d’authentification et niveaux de performances :
- fs.azure.authorization.caching.enable = false
- fs.s3a.attempts.maximum = 10
- fs.s3a.block.size = 67108864
- fs.s3a.connection.timeout = 50000
- fs.s3a.max.total.tasks = 1000
- fs.s3a.retry.limit = 20
- fs.s3a.retry.throttle.interval = 500ms
- fs.s3a.assumed.role.credentials.provider = com.amazonaws.auth.InstanceProfileCredentialsProvider
- fs.s3a.aws.credentials.provider = BasicAWSCredentialsProvider, DatabricksInstanceProfileCredentialsProvider, EnvironmentVariableCredentialsProvider, AnonymousAWSCredentialsProvider
Le connecteur Google Cloud Stockage (GCS) a été mis à niveau de 2.1.6 à 2.2.2.
Le connecteur Amazon Redshift utilise désormais le schéma s3a://. Le schéma s3n:// est déconseillé.
Gère les noms de classes OSS pour l’API Amazon S3 MetadataStore en plus des classes ombrées. Cela permet de traiter des configurations OSS sans exiger des noms de classe ombrées.
- Par exemple, vous pouvez spécifier la classe org.apache.hadoop.fs.s3a.s3guard.NullMetadataStore dans la configuration d’Hadoop.
Rend les configuration new Configuration() et sparkContext.hadoopConfiguration cohérentes.
- Désormais, chaque fois qu’une nouvelle configuration d’Hadoop est créée, elle est cohérente avec la configuration d’Hadoop prédéfinie dans sparkContext.hadoopConfiguration dans le Databricks Runtime, y compris avec les schémas du système de fichiers et leur configuration par défaut.
Bien que les connecteurs de stockage Hadoop inclus dans les Databricks Runtime soient entièrement compatibles avec Hadoop 3.3.1, il n’est pas garanti qu’ils soient synchronisés avec les connecteurs OSS Hadoop 3.3.1 et ils pourraient présenter un comportement différent.
- Le connecteur Amazon S3 autorise toujours (bien qu’avec un avertissement) l’authentification par user:secret dans les URL S3, au contraire de HADOOP-14833 qui la supprime.
globStatus retourne désormais toujours des résultats triés (HADOOP-10798)
Ajout de fs.s3a.endpoint si non défini et la région fs.s3a.endpoint est null (SPARK-35878)
- La résolution automatique de la région Amazon S3 fournie par Databricks pourrait ne pas être déclenchée dans certains cas, en raison du fait que le point de terminaison global est défini. Ce n’est pas un problème, car le Kit de développement logiciel (SDK) AWS peut résoudre la région correctement.
Ajouter fs.s3a.downgrade.syncable.exceptions si non définies (SPARK-35868)
Les codecs LZ4 et Snappy ne reposent pas sur la bibliothèque Hadoop native (Hadoop-17125)

Problèmes connus

SPARK-36681 L’utilisation de SnappyCodec pour écrire un fichier de séquence échoue avec l’erreur UnsatisfiedLinkError en raison d’un problème connu dans Hadoop 3.3.1 (Hadoop-17891)

Apache Spark

Databricks Runtime 10.0 inclut Apache Spark 3.2.0.

Points forts

Prise en charge de la couche API Pandas sur PySpark (SPARK-34849)
EventTime basée sur une mise en session (fenêtre de session) (SPARK-10816)
Prise en charge des types ANSI SQL INTERVAL (SPARK-27790)
Mode ANSI en disponibilité générale (SPARK-35030)
Standardisation des messages d’exception dans Spark (SPARK-33539)

Core et Spark SQL

Améliorations de la compatibilité ANSI SQL

Prise en charge des types ANSI SQL INTERVAL (SPARK-27790)
Nouvelles règles de syntaxe de forçage de type en mode ANSI (SPARK-34246)

Une amélioration du niveau de performance

Optimisation des requêtes
- Suppression des agrégats redondants dans l’Optimiseur (SPARK-33122)
- Limite d’envoi via Project avec Join (SPARK-34622)
- Estimation de la cardinalité de l’opérateur union, sort et range (SPARK-33411)
- Prédicat In/InSet de prise en charge de UnwrapCastInBinaryComparison (SPARK-35316)
- Conservation des statistiques nécessaires après nettoyage de partition (SPARK-34119)
Exécution d’une requête
- Activation du pool de mémoires tampons Zstandard par défaut (SPARK-34340, SPARK-34390)
- Ajout de code-gen pour tous les types de jointures de la jointure par tri-fusion (SPARK-34705)
- Amélioration de la jointure de boucle imbriquée de diffusion (SPARK-34706)
- Prise en charge de deux niveaux de tables de hachage pour l’agrégation de hachage finale (SPARK-35141)
- Autorisation des enregistreurs simultanés pour l’écriture de partitions dynamiques et de table de compartiments (SPARK-26164)
- Amélioration des performances de traitement de FETCH_PRIOR dans Thriftserver (SPARK-33655)

Améliorations des connecteurs

Parquet
- Mise à niveau de Parquet vers 1.12.1 (SPARK-36726)
- Lecture des types non signés Parquet qui sont stockés en tant que type physique Int32 dans Parquet (SPARK-34817)
- Lecture de type logique Int64 non signé Parquet stocké en tant que type physique Int64 signé au format décimal (20, 0) (SPARK-34786)
- Amélioration de Parquet dans le pushdown de filtre (SPARK-32792)
ORC
- Mise à niveau d’ORC vers la version 1.6.11 (SPARK-36482)
- Prise en charge de l’évolution de position forcée ORC (SPARK-32864)
- Prise en charge de colonne imbriquée dans le lecteur vectorisé ORC (SPARK-34862)
- Prise en charge de la compression ZSTD et LZ4 dans la source de données ORC (SPARK-33978, SPARK-35612)
Avro
- Mise à niveau d’Avro vers la version 1.10.2 (SPARK-34778)
- Prise en charge de l’évolution du schéma Avro pour les tables Hive partitionnées avec « avro.schema.literal » (SPARK-26836)
- Ajout de nouvelles options de source de données Avro pour contrôler le rebasage de dateheure en lecture (SPARK-34404)
- Ajout de la prise en charge de l’URL de schéma fournie par l’utilisateur dans Avro (SPARK-34416)
- Ajout de la prise en charge de la correspondance de schéma Catalyst-to-Avro positionnel (SPARK-34365)
JSON
- Mise à niveau de Jackson vers la version 2.12.3 (SPARK-35550)
- Autorisation aux sources de données Json d’écrire des caractères non-ascii sous la forme de points de code (SPARK-35047)
JDBC
- Calcul d’une méthode stride de partition plus précise dans JDBCRelation (SPARK-34843)
Filtre de prise en charge du metastore Hive par not-in (SPARK-34538)

Améliorations de la fonctionnalité

Sous-requête
- Amélioration des sous-requêtes corrélées (SPARK-35553)
Nouvelles fonctions intégrées
- ilike (SPARK-36674, SPARK-36736)
- current_user (SPARK-21957)
- product (SPARK-33678)
- regexp_like,regexp (SPARK-33597, SPARK-34376)
- try_add (SPARK-35162)
- try_divide (SPARK-35162)
- bit_get (SPARK-33245)
Utilisation d’Apache Hadoop 3.3.1 par défaut (SPARK-29250)
Ajout de somme de contrôle pour les blocs de lecture aléatoire (SPARK-35275)
Activation de spark.storage.replication.proactive par défaut (SPARK-33870)
Prise en charge du nettoyage du stockage de secours lors de l’arrêt de SparkContext (SPARK-34142)
Prise en charge des énumérations Java à partir de l’API Scala DataSet (SPARK-23862)
ADD JAR avec des coordonnées ivy doit être compatible avec le comportement transitif Hive (SPARK-34506)
Prise en charge des commandes ADD ARCHIVE et LIST ARCHIVES (SPARK-34603)
Prise en charge de plusieurs chemins d’accès pour les commandes ADD FILE/JAR/ARCHIVE (SPARK-35105)
Prise en charge de fichiers d’archive en tant que ressources pour la syntaxe CREATE FUNCTION USING (SPARK-35236)
Chargement de SparkSessionExtensions à partir de ServiceLoader (SPARK-35380)
Ajout de la fonction sentences à fonctions.{scala,py} (SPARK-35418)
Application de spark.sql.hive.metastorePartitionPruning pour les tables non Hive qui utilisent le metastore Hive pour la gestion des partitions (SPARK-36128)
Propagation de la raison de la perte d’exec à l’interface utilisateur web (SPARK-34764)
Évitement de l’incorporation non déterministe avec-CTEs (SPARK-36447)
Prise en charge de l’analyse de toutes les tables dans une base de données spécifique (SPARK-33687)
Standardisation des messages d’exception dans Spark (SPARK-33539)
Prise en charge de (IGNORE | RESPECT) NULLS pour LEAD/LAG/NTH_VALUE/FIRST_VALUE/LAST_VALUE(SPARK-30789)

Autres changements notables

Superviser
- Nouvelles métriques pour ExternalShuffleService (SPARK-35258)
- Ajout de nouveaux paramètres et API REST au niveau de la phase (SPARK-26399)
- Pris en charge des distributions de métriques de tâche et d’exécuteur dans l’API REST (SPARK-34488)
- Ajout de métriques de secours pour l’agrégat de hachage (SPARK-35529)
Ajout de count_distinct en tant qu’option à Dataset#summary (SPARK-34165)
Implémentation de ScriptTransform dans sql/core (SPARK-31936)
Configurabilité du délai d’expiration de pulsation du pilote BlockManagerMaster (SPARK-34278)
Configurabilité du nom de service aléatoire côté client et autorisation du remplacement de configuration basée sur classpath côté serveur (SPARK-34828)
ExecutorMetricsPoller doit conserver l’entrée intermédiaire dans stageTCMP jusqu’à ce qu’une pulsation se produise (SPARK-34779)
Remplacement de if par clause filter dans RewriteDistinctAggregates (SPARK-34882)
Corriger l’échec lors de l’application de CostBasedJoinReorder sur une jointure réflexive (SPARK-34354)
CREATE TABLE LIKEE devrait respecter les propriétés de table réservée (SPARK-34935)
Envoi du fichier ivySettings au pilote en mode cluster YARN (SPARK-34472)
Résolution des colonnes courantes en double à partir de USING/NATURAL JOIN (SPARK-34527)
Masquage des propriétés d’affichage interne pour la commande DESCRIBE TABLE (SPARK-35318)
Prise en charge de la résolution d’attributs manquants pour indicateur distribution/cluster by/repartition (SPARK-35331)
Ignorer l’erreur lors de la vérification du chemin d’accès dans FileStreamSink.hasMetadata (SPARK-34526)
Amélioration de la prise en charge du validateur magique s3a en inférant les configurations manquantes (SPARK-35383)
Autorisation d’omission de : dans la chaîne de type STRUCT (Spark-35706)
Ajout d’un nouvel opérateur pour déterminer si AQE peut optimiser en toute sécurité (SPARK-35786)
Ajout de nouveaux champs struct imbriqués plutôt que sort pour unionByName avec remplissage de null (SPARK-35290)
ArraysZip devrait conserver les noms de champs afin d’éviter qu’ils soient réécrits par l’analyseur/optimiseur (SPARK-35876)
Utilisez Coid comme nom de type NullType (SPARK-36224)
Introduction d’une nouvelle API pour que FileCommitProtocol autorise le nommage de fichier flexible (SPARK-33298)

Changements de comportement

Consultez les guides de migration pour chaque composant : Spark Core.

Structured Streaming

Fonctionnalités majeures

EventTime basée sur une mise en session (fenêtre de session) (SPARK-10816)
Mise à niveau du client Kafka vers 2.8.0 (SPARK-33913)
Trigger.AvailableNow pour l’exécution de requêtes de streaming comme Trigger.Once dans plusieurs lots dans Scala (SPARK-36533)

Autres changements notables

Introduction d’une nouvelle option dans la source Kafka pour spécifier un nombre minimal d’enregistrements à lire par déclencheur (SPARK-35312)
Ajout des derniers décalages à la progression de la source (SPARK-33955)

PySpark

Project Zen

API Pandas sur Spark (SPARK-34849)
- Activation de mypy pour pandas-on-Spark (SPARK-34941)
- Implémentation de la prise en charge de CategoricalDtype (SPARK-35997, SPARK-36185)
- Accomplissement des opérations de base des séries et des index (SPARK-36103, SPARK-36104, SPARK-36192)
- Mise en correspondance des comportements avec 1.3 pandas (SPARK-36367)
- Mise en correspondance des comportements sur les séries avec NaN vers pandas (SPARK-36031, SPARK-36310)
- Implémentation de l’opérateur unaire « Invert » des séries et index intégraux (SPARK-36003)
- Implémentation de CategoricalIndex.map et DatetimeIndex.map (SPARK-36470)
- Implémentation de Index.map (SPARK-36469)
Prise en charge de faulthanlder pour worker Python bloqué (SPARK-36062)
Utilisation la règle de nommage Snake sur les API de fonction (SPARK-34306)
Activation de spark.sql.execution.pyspark.udf.simplifiedTraceback.enabled par défaut (SPARK-35419)
Prise en charge du dict imbriqué d’inférence en tant que struct lors de la création d’une tramedonnées (SPARK-35929)

Autres changements notables

Activation du mode thread épinglé par défaut (SPARK-35303)
Ajout de la prise en charge de NullType pour les exécutions Arrow (SPARK-33489)
Ajout de la prise en charge de self_destruct Arrow à toPandas (SPARK-32953)
Ajout d’API de wrapper cible de thread pour le mode thread épinglé pyspark (SPARK-35498)

Changements de comportement

Consultez les guides de migration.

MLlib

Optimisation des performances

Optimisation de la transformation BucketedRandomProjectionLSH (SPARK-34220)
Optimisation de w2v findSynonyms (SPARK-34189)
Optimisation de GEMM épars en ignorant la vérification des limites (SPARK-35707)
Amélioration des performances de ML ALS recommendForAll par GEMV (SPARK-33518)

Améliorations de l’apprentissage du modèle

Refactorisation de l’agrégateur logistique - Prise en charge du centrage virtuel (SPARK-34797)
Régression logistique binaire avec centrage de support d’interception (SPARK-34858, SPARK-34448)
Régression logistique multinomiale avec centrage de support d’interception (SPARK-34860)

Améliorations de BLAS

Remplacement entier de com.github.fommil.netlib par dev.ludovic.netlib:2.0 (SPARK-35295)
Ajout d’une implémentation de BLAS vectorisée (SPARK-33882)
Accélération de BLAS de secours avec dev.ludovic.netlib (SPARK-35150)

Autres changements notables

Transformation OVR corrigeant un conflit de colonne potentiel (SPARK-34356)

Désapprobations et suppressions

Désapprobation de spark.launcher.childConnectionTimeout (SPARK-33717)
désapprobation de GROUP BY... GROUPING SETS (…) et promotion de GROUP BY GROUPING SETS (…)(SPARK-34932)
Dépréciation de l’API ps.broadcast (SPARK-35810)
Dépréciation de l’argument num_files (SPARK-35807)
Dépréciation de DataFrame.to_spark_io (SPARK-35811)

Mises à jour de maintenance

Consultez Mises à jour de maintenance de Databricks Runtime 10.0.

Environnement du système

Système d’exploitation : Ubuntu 20.04.3 LTS
Java : Zulu 8.56.0.21-CA-linux64
Scala : 2.12.14
Python : 3.8.10
R : 4.1.1
Delta Lake : 1.0.0

Bibliothèques Python installées

Bibliothèque	Version	Bibliothèque	Version	Bibliothèque	Version
Antergos Linux	2015.10 (ISO-Rolling)	appdirs	1.4.4	backcall	0.2.0
boto3	1.16.7	botocore	1.19.7	certifi	2020.12.5
chardet	4.0.0	cycler	0.10.0	Cython	0.29.23
dbus-python	1.2.16	decorator	5.0.6	distlib	0.3.3
distro-info	0.23ubuntu1	facets-overview	1.0.0	filelock	3.0.12
idna	2.10	ipykernel	5.3.4	ipython	7.22.0
ipython-genutils	0.2.0	jedi	0.17.2	jmespath	0.10.0
joblib	1.0.1	jupyter-client	6.1.12	jupyter-core	4.7.1
kiwisolver	1.3.1	koalas	1.8.1	matplotlib	3.4.2
numpy	1.19.2	pandas	1.2.4	parso	0.7.0
patsy	0.5.1	pexpect	4.8.0	pickleshare	0.7.5
Pillow	8.2.0	pip	21.0.1	plotly	5.1.0
prompt-toolkit	3.0.17	protobuf	3.17.2	psycopg2	2.8.5
ptyprocess	0.7.0	pyarrow	4.0.0	Pygments	2.8.1
PyGObject	3.36.0	pyparsing	2.4.7	python-apt	2.0.0+ubuntu0.20.4.6
python-dateutil	2.8.1	pytz	2020.5	pyzmq	20.0.0
requêtes	2.25.1	requests-unixsocket	0.2.0	s3transfer	0.3.7
scikit-learn	0.24.1	scipy	1.6.2	seaborn	0.11.1
setuptools	52.0.0	six	1.15.0	ssh-import-id	5.10
statsmodels	0.12.2	tenacity	8.0.1	threadpoolctl	2.1.0
tornado	6.1	traitlets	5.0.5	unattended-upgrades	0.1
urllib3	1.25.11	virtualenv	20.4.1	wcwidth	0.2.5
wheel	0.36.2

Bibliothèques R installées

Les bibliothèques R sont installées à partir de l’instantané Microsoft CRAN du 21/09/2021.

Bibliothèque	Version	Bibliothèque	Version	Bibliothèque	Version
askpass	1.1	assertthat	0.2.1	backports	1.2.1
base	4.1.1	base64enc	0.1-3	bit	4.0.4
bit64	4.0.5	objet BLOB	1.2.2	boot	1.3-28
brew	1.0-6	brio	1.1.2	broom	0.7.9
bslib	0.3.0	cachem	1.0.6	callr	3.7.0
caret	6.0-88	cellranger	1.1.0	chron	2.3-56
class	7.3-19	cli	3.0.1	clipr	0.7.1
cluster	2.1.2	codetools	0.2-18	colorspace	2.0-2
commonmark	1.7	compiler	4.1.1	config	0.3.1
cpp11	0.3.1	crayon	1.4.1	credentials	1.3.1
curl	4.3.2	data.table	1.14.0	jeux de données	4.1.1
DBI	1.1.1	dbplyr	2.1.1	desc	1.3.0
devtools	2.4.2	diffobj	0.3.4	digest	0.6.27
dplyr	1.0.7	dtplyr	1.1.0	ellipsis	0.3.2
evaluate	0.14	fansi	0.5.0	farver	2.1.0
fastmap	1.1.0	forcats	0.5.1	foreach	1.5.1
foreign	0.8-81	forge	0.2.0	fs	1.5.0
future	1.22.1	future.apply	1.8.1	gargle	1.2.0
generics	0.1.0	gert	1.4.1	ggplot2	3.3.5
gh	1.3.0	gitcreds	0.1.1	glmnet	4.1-2
globals	0.14.0	glue	1.4.2	googledrive	2.0.0
googlesheets4	1.0.0	gower	0.2.2	graphics	4.1.1
grDevices	4.1.1	grid	4.1.1	gridExtra	2.3
gsubfn	0.7	gtable	0.3.0	haven	2.4.3
highr	0.9	hms	1.1.0	htmltools	0.5.2
htmlwidgets	1.5.4	httpuv	1.6.3	httr	1.4.2
hwriter	1.3.2	hwriterPlus	1.0-3	ids	1.0.1
ini	0.3.1	ipred	0.9-12	isoband	0.2.5
iterators	1.0.13	jquerylib	0.1.4	jsonlite	1.7.2
KernSmooth	2.23-20	knitr	1.34	labeling	0.4.2
later	1.3.0	lattice	0.20-44	lava	1.6.10
cycle de vie	1.0.0	listenv	0.8.0	lubridate	1.7.10
magrittr	2.0.1	markdown	1.1	MASS	7.3-54
Matrice	1.3-4	memoise	2.0.0	methods	4.1.1
mgcv	1.8-37	mime	0.11	ModelMetrics	1.2.2.2
modelr	0.1.8	munsell	0.5.0	nlme	3.1-152
nnet	7.3-16	numDeriv	2016.8-1.1	openssl	1.4.5
parallel	4.1.1	parallelly	1.28.1	pillar	1.6.2
pkgbuild	1.2.0	pkgconfig	2.0.3	pkgload	1.2.2
plogr	0.2.0	plyr	1.8.6	praise	1.0.0
prettyunits	1.1.1	pROC	1.18.0	processx	3.5.2
prodlim	2019.11.13	progress	1.2.2	progressr	0.8.0
promises	1.2.0.1	proto	1.0.0	ps	1.6.0
purrr	0.3.4	r2d3	0.2.5	R6	2.5.1
randomForest	4.6-14	rappdirs	0.3.3	rcmdcheck	1.3.3
RColorBrewer	1.1-2	Rcpp	1.0.7	readr	2.0.1
readxl	1.3.1	recipes	0.1.16	rematch	1.0.1
rematch2	2.1.2	remotes	2.4.0	reprex	2.0.1
reshape2	1.4.4	rlang	0.4.11	rmarkdown	2,11
RODBC	1.3-19	roxygen2	7.1.2	rpart	4.1-15
rprojroot	2.0.2	Rserve	1.8-8	RSQLite	2.2.8
rstudioapi	0,13	rversions	2.1.1	rvest	1.0.1
sass	0.4.0	scales	1.1.1	selectr	0.4-2
sessioninfo	1.1.1	shape	1.4.6	shiny	1.6.0
sourcetools	0.1.7	sparklyr	1.7.2	SparkR	3.2.0
spatial	7.3-11	splines	4.1.1	sqldf	0.4-11
SQUAREM	2021.1	stats	4.1.1	stats4	4.1.1
stringi	1.7.4	stringr	1.4.0	survival	3.2-13
sys	3.4	tcltk	4.1.1	TeachingDemos	2,10
testthat	3.0.4	tibble	3.1.4	tidyr	1.1.3
tidyselect	1.1.1	tidyverse	1.3.1	timeDate	3043.102
tinytex	0,33	tools	4.1.1	tzdb	0.1.2
usethis	2.0.1	utf8	1.2.2	utils	4.1.1
uuid	0.1-4	vctrs	0.3.8	viridisLite	0.4.0
vroom	1.5.5	waldo	0.3.1	whisker	0,4
withr	2.4.2	xfun	0,26	xml2	1.3.2
xopen	1.0.0	xtable	1.8-4	yaml	2.2.1
zip	2.2.0

Bibliothèques Java et Scala installées (version de cluster Scala 2.12)

ID de groupe	ID d’artefact	Version
antlr	antlr	2.7.7
com.amazonaws	amazon-kinesis-client	1.12.0
com.amazonaws	aws-java-sdk-autoscaling	1.11.655
com.amazonaws	aws-java-sdk-cloudformation	1.11.655
com.amazonaws	aws-java-sdk-cloudfront	1.11.655
com.amazonaws	aws-java-sdk-cloudhsm	1.11.655
com.amazonaws	aws-java-sdk-cloudsearch	1.11.655
com.amazonaws	aws-java-sdk-cloudtrail	1.11.655
com.amazonaws	aws-java-sdk-cloudwatch	1.11.655
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.655
com.amazonaws	aws-java-sdk-codedeploy	1.11.655
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.655
com.amazonaws	aws-java-sdk-cognitosync	1.11.655
com.amazonaws	aws-java-sdk-config	1.11.655
com.amazonaws	aws-java-sdk-core	1.11.655
com.amazonaws	aws-java-sdk-datapipeline	1.11.655
com.amazonaws	aws-java-sdk-directconnect	1.11.655
com.amazonaws	aws-java-sdk-directory	1.11.655
com.amazonaws	aws-java-sdk-dynamodb	1.11.655
com.amazonaws	aws-java-sdk-ec2	1.11.655
com.amazonaws	aws-java-sdk-ecs	1.11.655
com.amazonaws	aws-java-sdk-efs	1.11.655
com.amazonaws	aws-java-sdk-elasticache	1.11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.655
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.11.655
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.655
com.amazonaws	aws-java-sdk-emr	1.11.655
com.amazonaws	aws-java-sdk-glacier	1.11.655
com.amazonaws	aws-java-sdk-glue	1.11.655
com.amazonaws	aws-java-sdk-iam	1.11.655
com.amazonaws	aws-java-sdk-importexport	1.11.655
com.amazonaws	aws-java-sdk-kinesis	1.11.655
com.amazonaws	aws-java-sdk-kms	1.11.655
com.amazonaws	aws-java-sdk-lambda	1.11.655
com.amazonaws	aws-java-sdk-logs	1.11.655
com.amazonaws	aws-java-sdk-machinelearning	1.11.655
com.amazonaws	aws-java-sdk-opsworks	1.11.655
com.amazonaws	aws-java-sdk-rds	1.11.655
com.amazonaws	aws-java-sdk-redshift	1.11.655
com.amazonaws	aws-java-sdk-route53	1.11.655
com.amazonaws	aws-java-sdk-s3	1.11.655
com.amazonaws	aws-java-sdk-ses	1.11.655
com.amazonaws	aws-java-sdk-simpledb	1.11.655
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.655
com.amazonaws	aws-java-sdk-sns	1.11.655
com.amazonaws	aws-java-sdk-sqs	1.11.655
com.amazonaws	aws-java-sdk-ssm	1.11.655
com.amazonaws	aws-java-sdk-storagegateway	1.11.655
com.amazonaws	aws-java-sdk-sts	1.11.655
com.amazonaws	aws-java-sdk-support	1.11.655
com.amazonaws	aws-java-sdk-swf-libraries	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.655
com.amazonaws	jmespath-java	1.11.655
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	flux	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.esotericsoftware	kryo-shaded	4.0.2
com.esotericsoftware	minlog	1.3.0
com.fasterxml	classmate	1.3.4
com.fasterxml.jackson.core	jackson-annotations	2.12.2
com.fasterxml.jackson.core	jackson-core	2.12.2
com.fasterxml.jackson.core	jackson-databind	2.12.2
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.12.2
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.12.2
com.fasterxml.jackson.module	jackson-module-paranamer	2.12.2
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.12.2
com.github.ben-manes.caffeine	caffeine	2.3.4
com.github.fommil	jniloader	1.1
com.github.fommil.netlib	core	1.1.2
com.github.fommil.netlib	native_ref-java	1.1
com.github.fommil.netlib	native_ref-java-natives	1.1
com.github.fommil.netlib	native_system-java	1.1
com.github.fommil.netlib	native_system-java-natives	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1.1
com.github.luben	zstd-jni	1.5.0-4
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson	2.8.6
com.google.crypto.tink	tink	1.6.0
com.google.flatbuffers	flatbuffers-java	1.9.0
com.google.guava	guava	15.0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	1.4.195
com.helger	profiler	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEASE
com.lihaoyi	sourcecode_2.12	0.1.9
com.microsoft.sqlserver	mssql-jdbc	9.2.1.jre8
com.microsoft.azure	azure-data-lake-store-sdk	2.3.9
com.ning	compress-lzf	1.0.3
com.sun.istack	istack-commons-runtime	3.0.8
com.sun.mail	javax.mail	1.5.2
com.tdunning	json	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.12	0.4.12
com.twitter	chill-java	0.10.0
com.twitter	chill_2.12	0.10.0
com.twitter	util-app_2.12	7.1.0
com.twitter	util-core_2.12	7.1.0
com.twitter	util-function_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	config	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocity	univocity-parsers	2.9.1
com.zaxxer	HikariCP	3.1.0
commons-cli	commons-cli	1.2
commons-codec	commons-codec	1.15
commons-collections	commons-collections	3.2.2
commons-dbcp	commons-dbcp	1.4
commons-fileupload	commons-fileupload	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2.8.0
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-net	commons-net	3.1
commons-pool	commons-pool	1.5.4
dev.ludovic.netlib	arpack	1.3.2
dev.ludovic.netlib	blas	1.3.2
dev.ludovic.netlib	lapack	1.3.2
hive-2.3__hadoop-3.2	jets3t-0.7	liball_deps_2.12
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	aircompressor	0.19
io.delta	delta-sharing-spark_2.12	0.1.0
io.dropwizard.metrics	metrics-core	4.1.1
io.dropwizard.metrics	metrics-graphite	4.1.1
io.dropwizard.metrics	metrics-healthchecks	4.1.1
io.dropwizard.metrics	metrics-jetty9	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metrics-json	4.1.1
io.dropwizard.metrics	metrics-jvm	4.1.1
io.dropwizard.metrics	metrics-servlets	4.1.1
io.netty	netty-all	4.1.63.Final
io.prometheus	simpleclient	0.7.0
io.prometheus	simpleclient_common	0.7.0
io.prometheus	simpleclient_dropwizard	0.7.0
io.prometheus	simpleclient_pushgateway	0.7.0
io.prometheus	simpleclient_servlet	0.7.0
io.prometheus.jmx	collecteur	0.12.0
jakarta.annotation	jakarta.annotation-api	1.3.5
jakarta.servlet	jakarta.servlet-api	4.0.3
jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	activation	1.1.1
javax.annotation	javax.annotation-api	1.3.2
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.transaction	jta	1.1
javax.transaction	transaction-api	1.1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0-2
javolution	javolution	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.5
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
maven-trees	hive-2.3__hadoop-3.2	liball_deps_2.12
net.java.dev.jna	jna	5.8.0
net.razorvine	pyrolite	4.30
net.sf.jpam	jpam	1.1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.snowflake	snowflake-ingest-sdk	0.9.6
net.snowflake	snowflake-jdbc	3.13.3
net.snowflake	spark-snowflake_2.12	2.9.0-spark_3.1
net.sourceforge.f2j	arpack_combined_all	0.1
org.acplt.remotetea	remotetea-oncrpc	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.8
org.antlr	stringtemplate	3.2.1
org.apache.ant	ant	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher	1.9.2
org.apache.arrow	arrow-format	2.0.0
org.apache.arrow	arrow-memory-core	2.0.0
org.apache.arrow	arrow-memory-netty	2.0.0
org.apache.arrow	arrow-vector	2.0.0
org.apache.avro	avro	1.10.2
org.apache.avro	avro-ipc	1.10.2
org.apache.avro	avro-mapred	1.10.2
org.apache.commons	commons-compress	1.20
org.apache.commons	commons-crypto	1.1.0
org.apache.commons	commons-lang3	3.12.0
org.apache.commons	commons-math3	3.4.1
org.apache.commons	commons-text	1.6
org.apache.curator	curator-client	2.13.0
org.apache.curator	curator-framework	2.13.0
org.apache.curator	curator-recipes	2.13.0
org.apache.derby	derby	10.14.2.0
org.apache.hadoop	hadoop-client-runtime	3.3.1
org.apache.hive	hive-beeline	2.3.9
org.apache.hive	hive-cli	2.3.9
org.apache.hive	hive-jdbc	2.3.9
org.apache.hive	hive-llap-client	2.3.9
org.apache.hive	hive-llap-common	2.3.9
org.apache.hive	hive-serde	2.3.9
org.apache.hive	hive-shims	2.3.9
org.apache.hive	hive-storage-api	2.7.2
org.apache.hive.shims	hive-shims-0.23	2.3.9
org.apache.hive.shims	hive-shims-common	2.3.9
org.apache.hive.shims	hive-shims-scheduler	2.3.9
org.apache.htrace	htrace-core4	4.1.0-incubating
org.apache.httpcomponents	httpclient	4.5.13
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	ivy	2.5.0
org.apache.mesos	mesos-shaded-protobuf	1.4.0
org.apache.orc	orc-core	1.6.10
org.apache.orc	orc-mapreduce	1.6.10
org.apache.orc	orc-shims	1.6.10
org.apache.parquet	parquet-column	1.12.0-databricks-0003
org.apache.parquet	parquet-common	1.12.0-databricks-0003
org.apache.parquet	parquet-encoding	1.12.0-databricks-0003
org.apache.parquet	parquet-format-structures	1.12.0-databricks-0003
org.apache.parquet	parquet-hadoop	1.12.0-databricks-0003
org.apache.parquet	parquet-jackson	1.12.0-databricks-0003
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.xbean	xbean-asm9-shaded	4.20
org.apache.yetus	audience-annotations	0.5.0
org.apache.zookeeper	zookeeper	3.6.2
org.apache.zookeeper	zookeeper-jute	3.6.2
org.checkerframework	checker-qual	3.5.0
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.janino	commons-compiler	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.40.v20210413
org.eclipse.jetty	jetty-continuation	9.4.40.v20210413
org.eclipse.jetty	jetty-http	9.4.40.v20210413
org.eclipse.jetty	jetty-io	9.4.40.v20210413
org.eclipse.jetty	jetty-jndi	9.4.40.v20210413
org.eclipse.jetty	jetty-plus	9.4.40.v20210413
org.eclipse.jetty	jetty-proxy	9.4.40.v20210413
org.eclipse.jetty	jetty-security	9.4.40.v20210413
org.eclipse.jetty	jetty-server	9.4.40.v20210413
org.eclipse.jetty	jetty-servlet	9.4.40.v20210413
org.eclipse.jetty	jetty-servlets	9.4.40.v20210413
org.eclipse.jetty	jetty-util	9.4.40.v20210413
org.eclipse.jetty	jetty-util-ajax	9.4.40.v20210413
org.eclipse.jetty	jetty-webapp	9.4.40.v20210413
org.eclipse.jetty	jetty-xml	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-api	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-client	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-common	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-server	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-servlet	9.4.40.v20210413
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	hk2-locator	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-resource-locator	1.0.3
org.glassfish.hk2.external	aopalliance-repackaged	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jaxb	jaxb-runtime	2.3.2
org.glassfish.jersey.containers	jersey-container-servlet	2,34
org.glassfish.jersey.containers	jersey-container-servlet-core	2,34
org.glassfish.jersey.core	jersey-client	2,34
org.glassfish.jersey.core	jersey-common	2,34
org.glassfish.jersey.core	jersey-server	2,34
org.glassfish.jersey.inject	jersey-hk2	2,34
org.hibernate.validator	hibernate-validator	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.jetbrains	annotations	17.0.0
org.joda	joda-convert	1.7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.7.0-M11
org.json4s	json4s-core_2.12	3.7.0-M11
org.json4s	json4s-jackson_2.12	3.7.0-M11
org.json4s	json4s-scalap_2.12	3.7.0-M11
org.lz4	lz4-java	1.7.1
org.mariadb.jdbc	mariadb-java-client	2.2.5
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.2.19
org.roaringbitmap	RoaringBitmap	0.9.14
org.roaringbitmap	shims	0.9.14
org.rocksdb	rocksdbjni	6.20.3
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.14
org.scala-lang	scala-library_2.12	2.12.14
org.scala-lang	scala-reflect_2.12	2.12.14
org.scala-lang.modules	scala-collection-compat_2.12	2.4.3
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	test-interface	1.0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1.0
org.scalanlp	breeze_2.12	1.0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.30
org.slf4j	jul-to-slf4j	1.7.30
org.slf4j	slf4j-api	1.7.30
org.slf4j	slf4j-log4j12	1.7.30
org.spark-project.spark	unused	1.0.0
org.springframework	spring-core	4.1.4.RELEASE
org.springframework	spring-test	4.1.4.RELEASE
org.threeten	threeten-extra	1.5.0
org.tukaani	xz	1.8
org.typelevel	algebra_2.12	2.0.0-M2
org.typelevel	cats-kernel_2.12	2.0.0-M4
org.typelevel	machinist_2.12	0.6.8
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0-M1
org.typelevel	spire-platform_2.12	0.17.0-M1
org.typelevel	spire-util_2.12	0.17.0-M1
org.typelevel	spire_2.12	0.17.0-M1
org.wildfly.openssl	wildfly-openssl	1.0.7.Final
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.8.4
org.yaml	snakeyaml	1.24
oro	oro	2.0.8
pl.edu.icm	JLargeArrays	1.5
software.amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1

Databricks Runtime 10.0 (non pris en charge)

Améliorations et nouvelles fonctionnalités

Nouvelle version d’Apache Spark

L’instruction SELECT prend désormais en charge la clause QUALIFY pour filtrer les résultats d’une fonction de fenêtre

Prise en charge des clusters pour JDK 11 (préversion publique)

Auto Loader traite désormais les schémas comme pouvant accepter la valeur null

Changements cassants

Changements cassants pour tous les utilisateurs de Spark SQL

Changements cassants pour les utilisateurs de Spark SQL qui activent le mode ANSI

Changements cassants pour tous les utilisateurs de Python

Mises à niveau de la bibliothèque

Mise à niveau d’Apache Hadoop 3

Changements de comportement

Problèmes connus

Apache Spark

Dans cette section :

Points forts

Core et Spark SQL

Améliorations de la compatibilité ANSI SQL

Une amélioration du niveau de performance

Améliorations des connecteurs

Améliorations de la fonctionnalité

Autres changements notables

Changements de comportement

Structured Streaming

Fonctionnalités majeures

Autres changements notables

PySpark

Project Zen

Autres changements notables

Changements de comportement

MLlib

Optimisation des performances

Améliorations de l’apprentissage du modèle

Améliorations de BLAS

Autres changements notables

Désapprobations et suppressions

Mises à jour de maintenance

Environnement du système

Bibliothèques Python installées

Bibliothèques R installées

Bibliothèques Java et Scala installées (version de cluster Scala 2.12)

Ressources supplémentaires