Juin 2020

Ces fonctionnalités et améliorations de la plateforme Azure Databricks ont été publiées en juin 2020.

Notes

Les publications se font par étapes. Votre compte Azure Databricks peut ne pas être mis à jour jusqu’à une semaine après la date de publication initiale.

Databricks Connect prend désormais en charge Databricks Runtime 6.6

26 juin 2020

Databricks Connect prend désormais en charge Databricks Runtime 6.6.

Databricks Runtime 7.0 ML GA

22 juin 2020

Databricks Runtime 7.0 ML s’appuie sur Databricks Runtime 7.0 et comprend les nouvelles fonctionnalités suivantes :

  • Bibliothèques Python délimitées aux notebooks et environnements personnalisés gérés par les commandes conda et pip.
  • Mises à jour pour les principaux packages Python incluant tensorflow, tensorboard, pytorch, xgboost, sparkdl et hyperopt.
  • Packages Python lightgbm, nltk, petastorm et plotly récemment ajoutés.
  • RStudio Server open source v1.2.

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 7.0 ML (non pris en charge).

Databricks Runtime 7.0 GA avec Apache Spark 3.0

18 juin 2020

Databricks Runtime 7.0 est fourni par Apache Spark 3.0 et prend désormais en charge Scala 2.12.

Spark 3.0 apporte de nombreuses améliorations et fonctionnalités supplémentaires, notamment :

  • Exécution adaptative des requêtes, un framework flexible pour effectuer une exécution adaptative dans Spark SQL et prendre en charge la modification du nombre de réducteurs au moment de l’exécution.
  • Nouvelle conception des fonctions définies par l’utilisateur pandas avec des indicateurs de type.
  • Interface utilisateur web Structured Streaming.
  • Meilleure compatibilité avec les normes ANSI-SQL.
  • Indicateurs de jointure.

Databricks Runtime 7.0 ajoute :

  • Amélioration du chargeur automatique pour le traitement incrémentiel des nouveaux fichiers de données à mesure qu’ils arrivent dans un magasin d’objets blob dans le cloud pendant l’ETL.
  • Amélioration de la commande COPY INTO pour charger des données dans Delta Lake avec des nouvelles tentatives idempotent.
  • De nombreuses améliorations, des ajouts et mises à niveau de bibliothèques, et des correctifs de bogues.

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 7.0 (non pris en charge).

Databricks Runtime 7.0 pour Genomics GA

18 juin 2020

Databricks Runtime 7.0 pour Genomics s’appuie sur Databricks Runtime 7.0 et comprend les modifications de bibliothèque suivantes :

  • La bibliothèque ADAM a été mise à jour de la version 0.30.0 vers 0.32.0.
  • La bibliothèque Hail n’est pas incluse dans Databricks Runtime 7.0 pour Genomics, car il n’existe aucune version basée sur Apache Spark 3.0.

Contrôles d’accès dépendants de la préproduction pour les modèles MLflow

16 au 23 juin 2020 : version 3.22

Vous pouvez désormais assigner des contrôles d’accès dépendants de la préproduction aux utilisateurs ou aux groupes, ce qui leur permet de gérer les modèles MLflow inscrits dans le registre de modèles MLflow lors de la phase de préproduction ou de production. Nous avons introduit deux nouveaux niveaux d’autorisation, GÉRER LES VERSIONS DE MISE EN LOT et GÉRER LES VERSIONS DE PRODUCTION. Les utilisateurs disposant de ces autorisations peuvent effectuer des transitions entre les phases autorisées pour le niveau.

Pour plus d’informations, consultez Listes de contrôle d’accès du modèle MLflow.

Les notebooks prennent maintenant en charge la désactivation du défilement automatique

16 au 23 juin 2020 : version 3.22

Quand vous exécutez une cellule de notebook en utilisant Maj+Entrée, le comportement par défaut du notebook consiste à faire défiler automatiquement jusqu’à la cellule suivante si la cellule n’est pas visible. Vous pouvez maintenant désactiver le défilement automatique dans l’icône Paramètres utilisateur> Paramètres utilisateur > Paramètres de l’éditeur. Si vous désactivez le défilement automatique, avec Maj+Entrée, le focus passe à la cellule suivante, mais le notebook ne se déplace pas jusqu’à cette cellule.

Changement d’adresses IP de metastore à compter du 30 juin 2020

11 juin 2020

Le metastore par défaut pour Azure Databricks utilise Azure Database pour MySQL. Toutes les adresses IP Azure Database pour MySQL des metastores Azure Databricks ont changé le 30 juin 2020. Si vous avez un espace de travail Azure Databricks déployé dans votre propre réseau virtuel, votre table de routage pour ce déploiement peut inclure une adresse IP de metastore Azure Databricks ou une route vers un pare-feu ou une appliance proxy avec une liste d’accès qui inclut cette adresse. Si tel est le cas, vous deviez mettre à jour vos tables de routage ou pare-feux Azure Databricks avec les nouvelles IP MySQL avant le 30 juin 2020 pour éviter toute interruption.

Le support d’Internet Explorer 11 prend fin le 15 août

9 juin 2020

Conformément aux tendances du secteur et pour garantir une expérience utilisateur stable et cohérente pour nos clients, Azure Databricks a arrêté la prise en charge d’Internet Explorer 11 le 15 août 2020.

Fin du support de la série Databricks Runtime 6.2

3 juin 2020

Le support de Databricks Runtime 6.2, de Databricks Runtime 6.2 pour Machine Learning et de Databricks Runtime 6.2 pour Genomics a pris fin le 3 juin. Consultez Cycles de vie du support de Databricks Runtime.

Simplifier et contrôler la création de clusters avec des stratégies de cluster (préversion publique)

2 au 9 juin 2020 : version 3.21

Les stratégies de cluster sont des modèles de clusters réutilisables et définis par l’administrateur, qui appliquent des règles sur les attributs de cluster et garantissent ainsi que les utilisateurs créent des clusters conformes à ces règles. En tant qu’administrateur Azure Databricks, vous pouvez désormais créer des stratégies de cluster et accorder des autorisations de stratégie aux utilisateurs. Cela vous permet de mieux contrôler les ressources créées, de fournir aux utilisateurs le niveau de flexibilité dont ils ont besoin pour effectuer leur travail et de simplifier considérablement l’expérience de création du cluster.

Pour obtenir plus d’informations, consultez Créer et gérer des stratégies de calcul.

Le point de terminaison SCIM Me retourne maintenant une réponse compatible SCIM

2 au 9 juin 2020 : version 3.21

Le point de terminaison SCIM Me retourne maintenant les mêmes informations que le point de terminaison /users/{id}, y compris des informations telles que les groupes et les droits.

Consultez l’API CurrentUser.

Restreindre l’accès à Azure Databricks avec des listes d’accès IP (préversion publique)

1er juin 2020

Les espaces de travail Azure Databricks peuvent maintenant être configurés de sorte que les utilisateurs se connectent au service uniquement par le biais de réseaux d’entreprise existants disposant d’un périmètre sécurisé. Les administrateurs Azure Databricks peuvent utiliser l’API Liste d’accès aux IP pour définir un ensemble d’adresses IP approuvées, notamment les listes vertes et rouges. Tout accès entrant à l’application web et aux API REST nécessite que l’utilisateur se connecte à partir d’une adresse IP autorisée, garantissant ainsi que les espaces de travail ne sont pas accessibles à partir d’un réseau public comme un café ou un aéroport, à moins que vos utilisateurs n’utilisent un VPN.

cette fonctionnalité nécessite le plan Premium.

Pour plus d’informations, consultez Configurer des listes d’accès IP pour les espaces de travail.