Septembre 2020

Ces fonctionnalités et Azure Databricks améliorations de la plateforme ont été publiées en septembre 2020.

Notes

Les mises en production sont intermédiaires. Votre compte de Azure Databricks ne peut pas être mis à jour jusqu’à une semaine après la date de publication initiale.

Databricks Runtime 7.3, 7.3 ML et 7.3 Genomics sont maintenant en GA

24 septembre 2020

Databricks Runtime 7,3, Databricks Runtime 7,3 pour Machine Learning et Databricks Runtime 7,3 pour génomique sont désormais mis à la disposition générale. Ils apportent de nombreuses fonctionnalités et améliorations, notamment :

  • Les optimisations de performances Delta Lake réduisent considérablement la surcharge
  • Cloner les métriques
  • Améliorations de Delta Lake MERGE INTO
  • Spécifier la position initiale pour Delta Lake Structured streaming
  • Améliorations du chargeur automatique
  • Exécution de requête adaptative
  • Contrôle de longueur de colonne du connecteur Azure Synapse Analytics
  • Comportement amélioré de dbutils.credentials.showRoles
  • Des pandas simplifiés pour la conversion tableau Spark
  • Nouveau maxResultSize dans l' toPandas() appel
  • Débogage de pandas et PySpark UDF
  • (ML uniquement) activation conda sur les workers
  • (Génomique uniquement) Prise en charge de la lecture de fichiers BGEN avec des génotypes non compressés ou zstd
  • Mises à niveau de la bibliothèque

pour plus d’informations, consultez les notes de publication Databricks Runtime 7,3 LTS, Databricks Runtime 7,3 LTS pour Machine Learninget Databricks Runtime 7,3 LTS pour génomiques .

Clusters mononœuds (préversion publique)

23-29 septembre, 2020 : version 3,29

Un cluster à nœud unique est un cluster constitué d’un pilote Spark et de aucun travailleur Spark. En revanche, les clusters en mode standard nécessitent au moins un Worker Spark pour exécuter des travaux Spark. Les clusters en mode à nœud unique sont utiles dans les situations suivantes :

  • Exécution de charges de travail à nœud unique Machine Learning nécessitant Spark pour charger et enregistrer des données
  • Analyse de données exploratoires légère (EDA)

Pour plus d’informations, consultez clusters à nœud unique.

Limitation du débit de l’API REST DBFS

23-29 septembre, 2020 : version 3,29

Pour garantir une haute qualité de service sous une charge importante, Azure Databricks applique désormais des limites de taux d’API pour les appels d' API dBFS . Les limites sont définies par espace de travail pour garantir une utilisation équitable et une haute disponibilité. Les nouvelles tentatives automatiques sont disponibles à l’aide de Databricks CLI version 0.12.0 et versions ultérieures. Nous conseillons à tous les clients de basculer vers la dernière version de Databricks CLI.

Nouvelles icônes de la barre latérale

23-29 septembre, 2020

Nous avons mis à jour l’encadré dans l’interface utilisateur de l’espace de travail Azure Databricks. Ce n’est pas très important, mais nous pensons que les nouvelles icônes semblent assez agréables.

sidebar

Augmentation de la limite des travaux exécutés

23-29 septembre, 2020 : version 3,29

La limite d’exécution de travaux simultanés a été augmentée de 150 à 1000 par espace de travail. Ne s’exécute plus au-delà de 150 mis en file d’attente dans l’état d’attente. Au lieu d’une file d’attente pour les demandes d’exécution au-dessus des exécutions simultanées, une 429 Too Many Requests réponse est retournée lorsque vous demandez une exécution qui ne peut pas être démarrée immédiatement. Cette augmentation de limite a été déployée progressivement et est désormais disponible sur tous les espaces de travail dans toutes les régions.

Listes de contrôle d’accès (ACL) d’artefacts dans MLflow

23-29 septembre, 2020 : version 3,29

Les autorisations d’expérimentation MLflow sont désormais appliquées aux artefacts dans le suivi MLflow, ce qui vous permet de contrôler facilement l’accès à vos modèles, jeux de données et autres fichiers. Par défaut, lorsque vous créez une expérience, ses artefacts d’exécution sont maintenant stockés dans un emplacement géré par MLflow. Les quatre niveaux d’autorisation d’expérimentation MLflow (aucune autorisation, lecture, modificationet possibilité de gestion) s’appliquent automatiquement aux artefacts d’exécution stockés dans les emplacements gérés par MLflow, comme suit :

  • Peut modifier ou gérer les autorisations sont nécessaires pour enregistrer les artefacts d’exécution dans une expérience.
  • Des autorisations de lecture sont nécessaires pour répertorier et télécharger des artefacts d’exécution à partir d’une expérience.

Pour plus d’informations, consultez autorisations d’artefact MLflow.

Améliorations de la convivialité de MLflow

23-29 septembre, 2020 : version 3,29

Cette version comprend les améliorations suivantes de l’utilisation de MLflow :

  • Les pages de l' expérience MLflow et des modèles inscrits ont maintenant des conseils pour aider les nouveaux utilisateurs à commencer.
  • La table version du modèle affiche maintenant le texte de description d’une version de modèle. Une nouvelle colonne affiche les 32 premiers caractères ou la première ligne (selon celle qui est la plus petite) de la description.

nouveau connecteur Power BI Azure Databricks (version préliminaire publique)

22 septembre 2020

Power BI Desktop version 2.85.681.0 comprend un nouveau connecteur Power BI Azure Databricks qui rend l’intégration entre Azure Databricks et Power BI beaucoup plus transparente et fiable. Le nouveau connecteur intègre les améliorations suivantes :

  • Une configuration simple des connexions : le nouveau connecteur Azure Databricks Power BI est intégré à Power BI. Vous pouvez le configurer dans une boîte de dialogue simple en quelques clics.
  • Une authentification basée sur les informations d’identification Azure Active Directory : inutile pour les administrateurs de configurer des jetons PAT.
  • Des importations plus rapides et des appels de métadonnées optimisés, grâce au nouveau pilote ODBC Azure Databricks qui offre des améliorations significatives au niveau des performances.
  • L’accès aux données Azure Databricks via Power BI respecte le contrôle d’accès aux tables Azure Databricks et les autorisations de compte de stockage Azure associées à votre identité Azure AD.

Pour plus d'informations, consultez Power BI.

Utiliser des clés gérées par le client pour la racine DBFS (préversion publique)

Le 15 septembre 2020

Vous pouvez maintenant utiliser votre propre clé de chiffrement dans Azure Key Vault pour chiffrer le compte de stockage DBFS. Consultez Configurer des clés gérées par le client pour la racine DBFS.

Les nouveaux pilotes JDBC et ODBC offrent une latence plus rapide et plus faible

Le 15 septembre 2020

Nous avons publié de nouvelles versions des pilotes JDBC et ODBC Databricks (téléchargement) avec les améliorations suivantes :

  • Performances : réduction de la connexion et de la latence des requêtes courtes, amélioration de la vitesse de transfert des résultats basée sur la sérialisation par flèche Apache et amélioration des performances de récupération des métadonnées.
  • expérience utilisateur : authentification à l’aide de Azure AD jetons d’accès OAuth2, amélioration des messages d’erreur et nouvelle tentative automatique lors de la connexion à un cluster d’arrêt, gestion plus robuste des nouvelles tentatives sur les erreurs réseau intermittentes.
  • Prise en charge des connexions utilisant le proxy HTTP.

Pour plus d’informations sur la connexion aux outils DÉCISIONNELs à l’aide de JDBC et ODBC, consultez DATABRICKS ODBC and JDBC drivers.

MLflow Model Serving (préversion publique)

9-15 septembre, 2020 : version 3,28

Le modèle MLflow service est désormais disponible en version préliminaire publique. Le modèle MLflow sert vous permet de déployer un modèle MLflow inscrit dans le registre de modèle en tant que point de terminaison d’API REST hébergé et géré par Azure Databricks. Quand vous activez le service de modèle pour un modèle inscrit, Azure Databricks crée un cluster et déploie toutes les versions non archivées de ce modèle.

Vous pouvez interroger toutes les versions de modèle par les demandes de l’API REST avec l’authentification Azure Databricks standard. Les droits d’accès au modèle sont hérités du registre de modèle, toute personne disposant de droits de lecture pour un modèle inscrit peut interroger n’importe quelle version de modèle déployée. Bien que ce service soit en préversion, nous vous recommandons de l’utiliser pour des applications de faible débit et non critiques.

Pour plus d’informations, consultez MLflow Model serving on Azure Databricks.

Améliorations de l’interface utilisateur des clusters

9-15 septembre, 2020 : version 3,28

La page clusters comporte désormais des onglets distincts pour les clusters à usage général et lesclusters de travail. La liste de chaque onglet est désormais paginée. En outre, nous avons résolu le délai qui s’est parfois produit entre la création d’un cluster et sa capacité à le voir dans l’interface utilisateur.

Contrôles de visibilité pour les travaux, les clusters, les notebooks et autres objets d’espace de travail

9-15 septembre, 2020 : version 3,28

Par défaut, tout utilisateur peut voir tous les travaux, les clusters, les blocs-notes et les dossiers de l’espace de travail qui s’affichent dans l’interface utilisateur du Azure Databricks et peut les répertorier à l’aide de l’API Databricks, même si le contrôle d’accès est activé pour ces objets et qu’un utilisateur n’a pas d’autorisations sur ces objets.

À présent, tout Azure Databricks administrateur peut activer des contrôles de visibilité pour les blocs-notes et les dossiers (objets d’espace de travail), les clusters et les travaux pour s’assurer que les utilisateurs peuvent afficher uniquement les objets auxquels ils ont accès via le contrôle d’accès à l’espace de travail, au cluster ou aux tâches.

Consultez l'article :

Possibilité de créer des jetons qui ne sont plus autorisés par défaut

9-15 septembre, 2020 : version 3,28

Pour les espaces de travail créés après la version de Azure Databricks plateforme 3,28, les utilisateurs n’ont plus la possibilité de générer des jetons d’accès personnels par défaut. Les administrateurs doivent accorder explicitement ces autorisations, qu’il s’agisse de l’ensemble du users groupe ou d’un utilisateur par groupe. Les espaces de travail créés avant la sortie de 3,28 conservent les autorisations qui étaient déjà en place.

Consultez gérer les jetons d’accès personnels.

Le registre de modèles MLflow prend en charge le partage de modèles dans les espaces de travail

9 septembre, 2020

Azure Databricks prend désormais en charge l’accès au registre de modèle à partir de plusieurs espaces de travail. Vous pouvez désormais inscrire des modèles, suivre des exécutions de modèles et charger des modèles dans des espaces de travail. Plusieurs équipes peuvent désormais partager l’accès aux modèles, et les organisations peuvent utiliser plusieurs espaces de travail pour gérer les différentes étapes du développement. Pour plus d’informations, consultez partager des modèles dans des espaces de travail.

Cette fonctionnalité nécessite MLflow python client version 1.11.0 ou ultérieure.

Databricks Runtime 7.3 (bêta)

Le 3 septembre 2020

Databricks Runtime 7,3, Databricks Runtime 7,3 pour Machine Learning et Databricks Runtime 7,3 pour génomique sont désormais disponibles en tant que versions bêta.

pour plus d’informations, consultez les notes de publication Databricks Runtime 7,3 LTS, Databricks Runtime 7,3 LTS pour Machine Learninget Databricks Runtime 7,3 LTS pour génomiques .

Changement du nom du type de charge de travail Azure Databricks

1er septembre 2020

Les noms des types de charges de travail utilisés par vos clusters ont été modifiés :

  • Ingénierie des données- > calcul des tâches
  • Data Engineering Light- > tâches légères de calcul
  • Analyse des données- > calcul à usage général

ces nouveaux noms s’affichent sur les factures et dans le portail EA en association avec votre plan de tarification (par exemple, « Premium-Jobs compute-DBU »). Pour plus d’informations, consultez Azure Databricks compteurs.

L’interface utilisateur a également changé dans la version 3,27 de la plateforme (ciblée pour une version intermédiaire comprise entre le 25 août et le 3 septembre) :

Sur la page clusters, les en-têtes de liste ont été modifiés :

  • Clusters interactifs : > clusters de All-Purpose
  • Clusters automatisés : > clusters de travail

Quand vous configurez un cluster pour un travail, les options de type de cluster ont changé :

  • Nouveau cluster automatisé- > nouveau cluster de travail
  • Cluster interactif existant- > cluster All-Purpose existant