Mai 2020

Ces fonctionnalités et Azure Databricks améliorations de la plateforme ont été publiées en mai 2020.

Notes

Les mises en production sont intermédiaires. Votre compte de Azure Databricks ne peut pas être mis à jour jusqu’à une semaine après la date de publication initiale.

Machines virtuelles de la série Easv4 (bêta)

29 mai 2020

Azure Databricks fournit désormais la prise en charge bêta pour les machines virtuelles de la série Easv4 , qui utilisent un SSD Premium et peut atteindre une fréquence maximale améliorée de 3.35 GHz. Ces types d’instances peuvent optimiser les performances de votre charge de travail pour les applications d’entreprise gourmandes en mémoire.

Databricks Runtime 6.6 pour Genomics en disponibilité générale

26 mai, 2020

Databricks Runtime 6,6 pour la génomique est basé sur Databricks Runtime 6,6 et comprend les nouvelles fonctionnalités suivantes :

  • Lecteur GFF3
  • Prise en charge du génome de référence personnalisé
  • Délais d’expiration de pipeline par exemple
  • Option d’exportation BAM
  • Objets BLOB de manifeste

Pour plus d’informations, consultez les notes de publication Complete Databricks Runtime 6,6 pour génomique (non prise en charge) .

Databricks Runtime 6.6 ML en disponibilité générale

26 mai, 2020

Databricks Runtime 6,6 ML repose sur Databricks Runtime 6,6 et comprend les nouvelles fonctionnalités suivantes :

  • Mise à niveau de mlflow : 1.7.0 vers 1.8.0

pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 6,6 ML (non prises en charge) .

Databricks Runtime 6.6 en disponibilité générale

26 mai, 2020

Databricks Runtime 6,6 apporte de nombreuses mises à niveau et de nouvelles fonctionnalités de bibliothèque, notamment les fonctionnalités Delta Lake suivantes :

  • Vous pouvez maintenant faire évoluer automatiquement le schéma de la table avec l' merge opération. Cela est utile dans les scénarios où vous souhaitez upsert les données modifiées dans une table et que le schéma des données change au fil du temps. Au lieu de détecter et d’appliquer des modifications de schéma avant Upsert, merge peut faire évoluer simultanément le schéma et upsert les modifications. Consultez évolution automatique du schéma.
  • Les performances des opérations de fusion qui ont uniquement des clauses correspondantes, c’est-à-dire qu’elles ont uniquement update des delete actions et et aucune insert action, ont été améliorées.
  • Les tables parquet qui sont référencées dans le metastore Hive sont désormais convertibles en delta dans leurs identificateurs de table à l’aide de CONVERT TO DELTA .

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 6,6 (non prises en charge) .

Limite de taille de point de terminaison de suppression de l’API REST DBFS

21-28, 2020 : version 3,20

Lorsque vous supprimez de manière récursive un grand nombre de fichiers à l’aide de l' API DBFS 2,0, l’opération de suppression est effectuée par incréments. L’appel retourne une réponse après environ 45s avec un message d’erreur vous demandant de rappeler l’opération de suppression jusqu’à ce que la structure de répertoire soit entièrement supprimée. Par exemple :

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

Voir facilement les grands chiffres des modèles inscrits MLflow

21-28, 2020 : version 3,20

Le registre de modèles MLflow prend désormais en charge la recherche et la pagination côté serveur pour les modèles inscrits, ce qui permet aux organisations avec un grand nombre de modèles d’effectuer efficacement la liste et la recherche. Comme précédemment, vous pouvez rechercher des modèles par nom et obtenir des résultats triés par nom ou par heure de dernière mise à jour. Toutefois, si vous avez un grand nombre de modèles, les pages sont chargées beaucoup plus rapidement et la recherche récupère la vue la plus à jour des modèles.

Les bibliothèques configurées pour être installées sur tous les clusters ne sont pas installées sur les clusters exécutant Databricks Runtime 7.0 et ultérieur

21-28, 2020 : version 3,20

Dans Databricks Runtime 7,0 et versions ultérieures, la version sous-jacente de Apache Spark utilise Scala 2,12. Étant donné que les bibliothèques compilées avec Scala 2,11 peuvent désactiver les clusters Databricks Runtime 7,0 de manière inattendue, les clusters qui exécutent Databricks Runtime 7,0 et versions ultérieures n’installent pas les bibliothèques configurées pour être installées sur tous les clusters. L' onglet bibliothèques de clusters affiche un état et un message d’obsolescence en rapport avec les modifications apportées à la gestion de la bibliothèque.

Si vous avez un cluster qui a été créé sur une version antérieure de Databricks Runtime avant la publication de 3,20 dans votre espace de travailet que vous modifiez maintenant ce cluster pour utiliser Databricks Runtime 7,0, toutes les bibliothèques qui ont été configurées pour être installées sur tous les clusters seront installées sur ce cluster. Dans ce cas, tous les fichiers jar incompatibles dans les bibliothèques installées peuvent entraîner la désactivation du cluster. La solution de contournement consiste soit à cloner le cluster, soit à créer un cluster.

Databricks Runtime 7.0 pour Genomics (bêta)

21 mai, 2020

Databricks Runtime 7,0 pour la génomique est basé sur Databricks Runtime 7,0 et comprend les modifications de bibliothèque suivantes :

  • La bibliothèque ADAM a été mise à jour de la version 0.30.0 vers 0.32.0.
  • La bibliothèque de grêle n’est pas incluse dans Databricks Runtime 7,0 pour la génomique, car il n’existe aucune version basée sur Apache Spark 3,0.

Pour plus d’informations, consultez les notes de publication Complete Databricks Runtime 7,0 pour génomique (non prise en charge) .

Databricks Runtime 7.0 ML (bêta)

21 mai, 2020

Databricks Runtime 7,0 ML repose sur Databricks Runtime 7,0 et comprend les nouvelles fonctionnalités suivantes :

  • Bibliothèques Python avec étendue de bloc-notes et environnements personnalisés gérés par Conda et les commandes PIP.
  • Mises à jour pour les packages python majeurs, notamment tensorflow, tensorboard, pytorch, xgboost, sparkdl et hyperopt.
  • Packages python récemment ajoutés lightgbm, nltk, petastorm et plotly.
  • Serveur RStudio Open source v 1.2.

pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 7,0 ML (non prises en charge) .

Databricks Runtime 6.6 pour Genomics (bêta)

7 mai, 2020

Databricks Runtime 6,6 pour la génomique est basé sur Databricks Runtime 6,6 et comprend les nouvelles fonctionnalités suivantes :

  • Lecteur GFF3
  • Prise en charge du génome de référence personnalisé
  • Délais d’expiration de pipeline par exemple
  • Option d’exportation BAM
  • Objets BLOB de manifeste

Pour plus d’informations, consultez les notes de publication Complete Databricks Runtime 6,6 pour génomique (non prise en charge) .

Databricks Runtime 6.6 ML (bêta)

7 mai, 2020

Databricks Runtime 6,6 ML repose sur Databricks Runtime 6,6 et comprend les nouvelles fonctionnalités suivantes :

  • Mise à niveau de mlflow : 1.7.0 vers 1.8.0

pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 6,6 ML (non prises en charge) .

Databricks Runtime 6.6 (bêta)

7 mai, 2020

Databricks Runtime 6,6 (bêta) apporte de nombreuses mises à niveau et de nouvelles fonctionnalités de bibliothèque, notamment les fonctionnalités Delta Lake suivantes :

  • Vous pouvez maintenant faire évoluer automatiquement le schéma de la table avec l' merge opération. Cela est utile dans les scénarios où vous souhaitez upsert les données modifiées dans une table et que le schéma des données change au fil du temps. Au lieu de détecter et d’appliquer des modifications de schéma avant Upsert, merge peut faire évoluer simultanément le schéma et upsert les modifications. Consultez évolution automatique du schéma.
  • Les performances des opérations de fusion qui ont uniquement des clauses correspondantes, c’est-à-dire qu’elles ont uniquement update des delete actions et et aucune insert action, ont été améliorées.
  • Les tables parquet qui sont référencées dans le metastore Hive sont désormais convertibles en delta dans leurs identificateurs de table à l’aide de CONVERT TO DELTA .

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 6,6 (non prises en charge) .

Les clusters de travail sont maintenant étiquetés avec le nom et l’ID de travail

5-12, 2020 : version 3,19

Les clusters de travail sont automatiquement marqués avec le nom et l’ID du travail. Les balises apparaissent dans les rapports d’utilisation facturables, ce qui vous permet d’attribuer facilement votre utilisation de DBU par travail et d’identifier les anomalies. Les balises sont expurgées en spécifications de balise de cluster, telles que les caractères autorisés, la taille maximale et le nombre maximal de balises. Le nom du travail est contenu dans la RunName balise et l’ID de travail est contenu dans la JobId balise.

Restauration des cellules de notebook supprimées

5-12, 2020 : version 3,19

Vous pouvez maintenant restaurer les cellules supprimées en utilisant le Z raccourci clavier () ou en sélectionnant Z.

Limite de la file des travaux en attente

5-12, 2020 : version 3,19

Un espace de travail est maintenant limité à 1000 exécutions de tâches actives (en cours d’exécution et en attente). Étant donné qu’un espace de travail est limité à 150 exécutions de tâches simultanées (en cours d’exécution), un espace de travail peut avoir jusqu’à 850 exécutions dans la file d’attente en attente.