Janvier 2019

Ces fonctionnalités et Azure Databricks améliorations de la plateforme ont été publiées en janvier 2019.

Notes

Les mises en production sont intermédiaires. Votre compte de Azure Databricks ne peut pas être mis à jour jusqu’à une semaine après la date de publication initiale.

Modification à venir : Python 3 sera la version par défaut lors de la création de clusters

29 janvier 2019

Lors de la publication de la version 2,91 de la plateforme Databricks en mi-février, la version python par défaut des nouveaux clusters passe de Python 2 à python 3. Les clusters existants ne modifieront pas leurs versions Python, bien sûr. Toutefois, si vous avez pris l’habitude de prendre la valeur par défaut Python 2 lorsque vous créez de nouveaux clusters, vous devez commencer à faire attention à votre sélection de version de Python.

Default Python version

Publication de Databricks Runtime 5.2 pour le machine learning (version bêta)

24 janvier 2019

Databricks Runtime 5,2 ML repose sur Databricks Runtime 5,2 (non pris en charge). Il contient de nombreuses bibliothèques de Machine Learning courantes, notamment TensorFlow, PyTorch, keras et XGBoost, et fournit une formation TensorFlow distribuée à l’aide de Horovod. en plus des mises à jour de la bibliothèque depuis Databricks Runtime ML 5,1, Databricks Runtime 5,2 ML comprend les nouvelles fonctionnalités suivantes :

  • GraphFrames prend désormais en charge l' API PreGel (python) avec les optimisations de performances de Databricks.
  • HorovodRunner ajoute :
    • Sur un cluster GPU, les processus d’apprentissage sont mappés à des GPU plutôt qu’à des nœuds Worker pour simplifier la prise en charge des types d’instance à plusieurs GPU. Cette prise en charge intégrée vous permet de distribuer à tous les GPU sur un ordinateur à plusieurs GPU sans code personnalisé.
    • HorovodRunner.run() retourne à présent la valeur de retour du premier processus d’apprentissage.

consultez les notes de publication complètes pour Databricks Runtime 5,2 ML (bêta). d

Publication de Databricks Runtime 5.2

24 janvier 2019

Databricks Runtime 5,2 est maintenant disponible. Databricks Runtime 5,2 comprend Apache Spark 2.4.0, de nouvelles fonctionnalités Delta Lake et des fonctionnalités et mises à niveau de streaming structurées, ainsi que des bibliothèques Python, R, Java et Scala mises à niveau. Pour plus d’informations, consultez Databricks Runtime 5,2 (non pris en charge).

Vue JSON de la configuration d’un cluster

15-22 janvier 2019

La page configuration du cluster prend désormais en charge une vue JSON :

Cluster configuration JSON

La vue JSON est en lecture seule. Toutefois, vous pouvez copier le JSON et l’utiliser pour créer et mettre à jour des clusters avec l' API de clusters 2,0.

IU de la création d’un cluster

15-22 janvier 2019 : version 2,89

La page de création du cluster a été nettoyée et réorganisée pour une utilisation plus facile, y compris une nouvelle option Options avancées.

Cluster configuration

Déployer Azure Databricks dans votre propre réseau virtuel Azure (injection de réseau virtuel)

10 janvier 2019

Important

Cette fonctionnalité est disponible en préversion publique.

Le déploiement par défaut de Azure Databricks est un service entièrement géré sur Azure : toutes les ressources du plan de données, y compris un réseau virtuel (VNet) auquel tous les clusters sont associés, sont déployées dans un groupe de ressources verrouillé. Toutefois, si vous avez besoin d’une personnalisation du réseau, vous pouvez maintenant déployer Azure Databricks dans votre propre réseau virtuel (parfois appelé « injectionde réseaux virtuels »), ce qui vous permet d’effectuer les opérations suivantes :

Le déploiement de Azure Databricks sur votre propre réseau virtuel vous permet également de tirer parti de plages CIDR flexibles (n’importe où entre/16-/24 pour le réseau virtuel et entre/18-/26 pour les sous-réseaux).

La configuration à l’aide de l’interface utilisateur Portail Azure est simple et rapide : lorsque vous créez un espace de travail, sélectionnez déployer Azure Databricks espace de travail dans votre réseau virtuel, sélectionnez votre réseau virtuel et fournissez des plages CIDR pour deux sous-réseaux. Azure Databricks met à jour le réseau virtuel avec deux nouveaux sous-réseaux et groupes de sécurité réseau à l’aide des plages CIDR fournies par vous, autorise l’accès au trafic de sous-réseau entrant et sortant et déploie l’espace de travail sur le réseau virtuel mis à jour.

VNet injection on workspace deployment

Si vous préférez configurer le réseau virtuel pour l’injection de réseaux virtuels, par exemple, si vous souhaitez utiliser des sous-réseaux existants, utiliser des groupes de sécurité réseau existants ou créer vos propres règles de sécurité, vous pouvez utiliser des modèles ARM fournis avec Azure-Databricks au lieu de l’interface utilisateur du portail.

Notes

Cette fonctionnalité était précédemment disponible uniquement par l’inscription. Elle reste en version préliminaire , mais elle est désormais entièrement libre-service.

pour plus d’informations, consultez déployer des Azure Databricks dans votre réseau virtuel Azure (injection de réseaux virtuels) et Connecter votre espace de travail Azure Databricks sur votre réseau local.

IU de la bibliothèque

2-9 janvier 2019 : version 2,88

Les améliorations de l’interface utilisateur de la bibliothèque publiées à l’origine en novembre 2018 et rétablies peu de fois après ont été republiées. Ces mises à jour facilitent le chargement, l’installation et la gestion des bibliothèques pour vos clusters Azure Databricks.

L’interface utilisateur Azure Databricks prend désormais en charge les bibliothèques d’espace de travail et les bibliothèques installées en cluster. Une bibliothèque d’espace de travail existe dans l’espace de travail et peut être installée sur un ou plusieurs clusters. Une bibliothèque installée en cluster est une bibliothèque qui existe uniquement dans le contexte du cluster sur lequel elle est installée. Informations supplémentaires :

  • Vous pouvez maintenant créer une bibliothèque à partir d’un fichier chargé dans le stockage d’objets.
  • Vous pouvez maintenant installer et désinstaller des bibliothèques à partir de la page Détails de la bibliothèque et de l’onglet bibliothèques d’un cluster.
  • Les bibliothèques installées à l’aide de l’API s’affichent désormais sous l’onglet bibliothèques d’un cluster.

Pour plus d’informations, consultez bibliothèques.

Événements de cluster

2-9 janvier 2019 : version 2,88

De nouveaux événements de cluster ont été ajoutés pour refléter l’état du pilote Spark. Pour plus d’informations, consultez ClusterEventType.

Gestion des versions des notebooks avec Azure DevOps Services

2-9 janvier 2019 : version 2,88

Azure Databricks permet désormais d’utiliser facilement Azure DevOps Services (anciennement VSTS) pour contrôler la version de vos blocs-notes. l’authentification est automatique, le programme d’installation est simple et vous gérez les révisions de votre notebook comme vous le feriez avec notre intégration de GitHub.

pour plus d’informations, consultez Azure DevOps Services contrôle de version.