Mai 2020

Ces fonctionnalités et améliorations de la plateforme Azure Databricks ont été publiées en mai 2020.

Notes

Les publications se font par étapes. Votre compte Azure Databricks peut ne pas être mis à jour jusqu’à une semaine après la date de publication initiale.

Machines virtuelles de la série Easv4 (bêta)

29 mai 2020

Azure Databricks offre désormais une prise en charge bêta des machines virtuelles Easv4-series, qui utilisent un disque SSD haut de gamme et peuvent atteindre une fréquence maximale boostée de 3,35 GHz. Ces types d’instances peuvent optimiser les performances de votre charge de travail pour les applications d’entreprise nécessitant une mémoire importante.

Databricks Runtime 6.6 pour Genomics en disponibilité générale

26 mai 2020

Databricks Runtime 6.6 pour Genomics s’appuie sur Databricks Runtime 6.6 et comprend les nouvelles fonctionnalités suivantes :

  • Lecteur GFF3
  • Prise en charge du génome de référence personnalisé
  • Délais d’expiration de pipeline par échantillon
  • Option d'exportation BAM
  • Objets blob de manifeste

Databricks Runtime 6.6 ML en disponibilité générale

26 mai 2020

Databricks Runtime 6.6 ML s’appuie sur Databricks Runtime 6.6 et comprend les nouvelles fonctionnalités suivantes :

  • mlflow mise à niveau de 1.7.0 vers 1.8.0

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 6.6 ML (non pris en charge).

Databricks Runtime 6.6 en disponibilité générale

26 mai 2020

Databricks Runtime 6.6 apporte de nombreuses mises à niveau et de nouvelles fonctionnalités de bibliothèque, notamment les fonctionnalités Delta Lake suivantes :

  • Vous pouvez maintenant faire évoluer le schéma de la table automatiquement avec l'opération merge. Cette option est utile dans les scénarios où vous souhaitez insérer des données modifiées dans une table et où le schéma des données change au fil du temps. Au lieu de détecter et d’appliquer les changements de schéma avant l’opération d’upsert, merge peut simultanément faire évoluer le schéma et effectuer l’opération d’upsert sur des changements. Consultez Évolution automatique du schéma pour la fusion Delta Lake.
  • Les performances des opérations de fusion qui n’ont que des correspondantes, c’est-à-dire qui n’ont que des actions update et delete, et aucune action insert, ont été améliorées.
  • Les tables Parquet qui sont référencées dans le metastore Hive sont maintenant convertibles en Delta Lake par le biais de leurs identifiants de table en utilisant CONVERT TO DELTA.

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 6.6 (non pris en charge).

Limite de taille de point de terminaison de suppression de l’API REST DBFS

21-28 mai 2020 : version 3.20

Lorsque vous supprimez un grand nombre de fichiers de manière récursive à l'aide de l'API DBFS, l'opération de suppression est effectuée par incréments. L'appel renvoie une réponse après environ 45 secondes avec un message d'erreur vous demandant de relancer l'opération de suppression jusqu'à ce que la structure du répertoire soit entièrement supprimée. Par exemple :

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

Voir facilement les grands chiffres des modèles inscrits MLflow

21-28 mai 2020 : version 3.20

Le registre de modèles MLflow prend désormais en charge la recherche et la pagination côté serveur pour les modèles enregistrés, ce qui permet aux organisations disposant d'un grand nombre de modèles d'effectuer efficacement des listes et des recherches. Comme auparavant, vous pouvez rechercher des modèles par nom et obtenir des résultats classés par nom ou par date de dernière mise à jour. Mais si vous disposez d'un grand nombre de modèles, les pages se chargeront beaucoup plus rapidement, et la recherche permettra de récupérer la vue la plus récente des modèles.

Les bibliothèques configurées pour être installées sur tous les clusters ne sont pas installées sur les clusters exécutant Databricks Runtime 7.0 et ultérieur

21-28 mai 2020 : version 3.20

Dans Databricks Runtime 7.0.x et versions ultérieures, la version sous-jacente de Apache Spark utilise Scala 2.12. Étant donné que les bibliothèques compilées avec Scala 2.11 peuvent désactiver les clusters Databricks Runtime 7.0. de manière inattendue, les clusters exécutant Databricks Runtime 7.0 et versions ultérieures n’installent pas les bibliothèques configurées pour être installées sur tous les clusters. L'onglet bibliothèques de clusters affiche un état Skipped et un message d’obsolescence en fonction des modifications apportées à la gestion de la bibliothèque.

Si vous avez un cluster qui a été créé sur une version antérieure de Databricks Runtime avant la sortie de la version 3.20 sur votre espace de travailet que vous modifiez maintenant ce cluster pour utiliser Databricks Runtime 7.0, toutes les bibliothèques qui étaient configurées pour être installées sur tous les clusters seront installées sur ce cluster. Dans ce cas, tous les fichiers JAR incompatibles dans les bibliothèques installées peuvent entraîner la désactivation du cluster. La solution de contournement consiste soit à cloner le cluster, soit à créer un nouveau cluster.

Databricks Runtime 7.0 pour Genomics (bêta)

21 mai 2020

Databricks Runtime 7.0 pour Genomics s’appuie sur Databricks Runtime 7.0 et comprend les modifications de bibliothèque suivantes :

  • La bibliothèque ADAM a été mise à jour de la version 0.30.0 vers 0.32.0.
  • La bibliothèque Hail n’est pas incluse dans Databricks Runtime 7.0 pour Genomics car il n’existe aucune version basée sur Apache Spark 3.0.

Databricks Runtime 7.0 ML (bêta)

21 mai 2020

Databricks Runtime 7.0 ML s’appuie sur Databricks Runtime 7.0 et comprend les nouvelles fonctionnalités suivantes :

  • Bibliothèques Python délimitées aux notebooks et environnements personnalisés gérés par les commandes conda et pip.
  • Mises à jour pour les principaux packages Python incluant tensorflow, tensorboard, pytorch, xgboost, sparkdl et hyperopt.
  • Packages Python lightgbm, nltk, petastorm et plotly récemment ajoutés.
  • RStudio Server open source v1.2.

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 7.0 ML (non pris en charge).

Databricks Runtime 6.6 pour Genomics (bêta)

7 mai 2020

Databricks Runtime 6.6 pour Genomics s’appuie sur Databricks Runtime 6.6 et comprend les nouvelles fonctionnalités suivantes :

  • Lecteur GFF3
  • Prise en charge du génome de référence personnalisé
  • Délais d’expiration de pipeline par échantillon
  • Option d'exportation BAM
  • Objets blob de manifeste

Databricks Runtime 6.6 ML (bêta)

7 mai 2020

Databricks Runtime 6.6 ML s’appuie sur Databricks Runtime 6.6 et comprend les nouvelles fonctionnalités suivantes :

  • mlflow mise à niveau de 1.7.0 vers 1.8.0

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 6.6 ML (non pris en charge).

Databricks Runtime 6.6 (bêta)

7 mai 2020

Databricks Runtime 6.6 (bêta) apporte de nombreuses mises à niveau et de nouvelles fonctionnalités de bibliothèque, notamment les fonctionnalités Delta Lake suivantes :

  • Vous pouvez maintenant faire évoluer le schéma de la table automatiquement avec l'opération merge. Cette option est utile dans les scénarios où vous souhaitez insérer des données modifiées dans une table et où le schéma des données change au fil du temps. Au lieu de détecter et d’appliquer les changements de schéma avant l’opération d’upsert, merge peut simultanément faire évoluer le schéma et effectuer l’opération d’upsert sur des changements. Consultez Évolution automatique du schéma pour la fusion Delta Lake.
  • Les performances des opérations de fusion qui n’ont que des correspondantes, c’est-à-dire qui n’ont que des actions update et delete, et aucune action insert, ont été améliorées.
  • Les tables Parquet qui sont référencées dans le metastore Hive sont maintenant convertibles en Delta Lake par le biais de leurs identifiants de table en utilisant CONVERT TO DELTA.

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 6.6 (non pris en charge).

Les clusters de travail sont maintenant étiquetés avec le nom et l’ID de travail

5-12 mai 2020 : version 3.19

Les clusters de travaux sont automatiquement étiquetés avec le nom et l'ID du travail. Les étiquettes apparaissent dans les rapports d'utilisation facturables afin que vous puissiez facilement attribuer votre utilisation DBU par travail et identifier les anomalies. Les étiquettes sont nettoyées en fonction des spécifications des étiquettes de cluster, telles que les caractères autorisés, la taille maximale et le nombre maximal d’étiquettes. Le nom du travail apparaît dans l’étiquette RunName et l'ID du travail dans l’étiquette JobId.

Restauration des cellules de notebook supprimées

5-12 mai 2020 : version 3.19

Vous pouvez maintenant restaurer les cellules supprimées en utilisant le raccourci clavier (Z) ou en sélectionnant Modifier > ///Annuler la suppression de cellules.

Limite de la file des travaux en attente

5-12 mai 2020 : version 3.19

Un espace de travail est maintenant limité à 1000 exécutions de travaux actives (travaux en cours et en attente d’exécution). Étant donné qu'un espace de travail est limité à 150 exécutions de travaux simultanées, un espace de travail peut avoir jusqu'à 850 exécutions dans la file d'attente.