Mai 2018

Les publications se font par étapes. Votre compte Azure Databricks peut ne pas être mis à jour jusqu’à une semaine après la date de publication initiale.

Règlement général sur la protection des données (RGPD)

24 mai 2018 : version 2.72

En réponse aux exigences du Règlement général sur la protection des données (RGPD) de l’Union européenne entré en vigueur le 25 mai 2018, nous avons apporté un certain nombre de modifications à la plateforme Azure Databricks pour vous permettre de mieux contrôler la conservation des données au niveau tant du compte que de l’utilisateur. Les mises à jour incluent les modifications suivantes :

  • Suppression de cluster : supprimer définitivement une configuration de cluster à l’aide de l’interface utilisateur ou de l’API Clusters. Consultez Supprimer un calcul.
  • Vidage de l’espace de travail (version 2.71) : supprimer définitivement des objets d’espace de travail, tels que des notebooks entiers, des cellules individuelles d’un notebook, des commentaires individuels sur un notebook et l’historique des révisions d’un notebook. Consultez l’article Vider le stockage de l’espace de travail.
  • Purge de l’historique des révisions des notebooks :
    • supprimer définitivement l’historique des révisions de tous les notebook d’un espace de travail pendant une période de temps définie. Consultez l’article Vider le stockage de l’espace de travail.
    • Supprimer définitivement une seule révision ou la totalité de l’historique des révisions d’un notebook. Consultez Historique des versions.

Pour plus d’informations sur la suppression de votre service Azure Databricks ou l’annulation de votre compte Azure, consultez Gérer votre abonnement.

Les utilisateurs Azure Databricks doivent appartenir à un locataire Microsoft Entra ID

24 mai 2018 : version 2.72

Les utilisateurs peuvent désormais se connecter à Azure Databricks uniquement s’ils appartiennent au locataire Microsoft Entra ID (anciennement Azure Active Directory) de l’espace de travail Azure Databricks. Si vous avez des utilisateurs qui n’appartiennent pas au locataire Microsoft Entra ID, vous pouvez les ajouter en tant qu’utilisateurs standard ou invités.

HorovodEstimator

29 mai 2018 : version 2.72

Ajout d’une documentation et d’un notebook pour HorovodEstimator, une API d’estimateur de style MLlib qui tire parti de l’infrastructure Horovod de Uber. HorovodEstimator facilite l’apprentissage distribué multi-GPU de réseaux neuronaux profonds sur Spark DataFrames, en simplifiant l’intégration d’ETL dans Spark avec un apprentissage de modèle dans TensorFlow.

Exportation du modèle ML MLeap

24 mai 2018 : version 2.72

Ajout de documentation et de notebooks concernant l’utilisation de MLeap sur Azure Databricks. MLeap vous permet de déployer des pipelines de Machine Learning à partir d’Apache Spark et de scikit-Learn sur un format et un moteur d’exécution portables. Consultez Exportation du modèle ML MLeap.

Autres types de cluster GPU

24 mai 2018 : version 2.72

Outre les types d’instances Azure NC (NC12 et NC24) que nous avons ajoutés dans la version 2.71, nous prenons désormais en charge la série de types d’instances NCv3 (NC6s_v3, NC12s_v3 et NC24s_v3) sur des clusters Azure Databricks. Les instances NC et NCv3 fournissent des GPU pour le traitement d’images, l’analyse de texte et d’autres tâches de Machine Learning et de Deep Learning qui sont compliquées en termes de calcul et exigent des performances supérieures.

Consultez Calcul avec GPU.

Cellules de notebook : masquer et afficher

24 mai 2018 : version 2.72

De nouveaux indicateurs et une nouvelle messagerie facilitent l’affichage du contenu de cellules de notebook masquées. Consultez Masquer et afficher le contenu de la cellule.

22 mai 2018

Nous avons remplacé notre fonction de recherche de site de documentation par un meilleur outil de recherche. Vous verrez encore plus d’améliorations des recherches au cours des prochaines semaines.

Notes

La fonction de recherche peut sembler défaillante si vous tentez de l’utiliser peu de temps après le déploiement de la nouvelle fonction de recherche. Effacez simplement le cache de votre navigateur pour voir la nouvelle expérience de recherche.

Databricks Runtime 4.1 ML pour le Machine Learning (bêta)

17 mai 2018

Databricks Runtime 5.0 ML (bêta) fournit un environnement prêt à l’emploi pour le Machine Learning et la science des données. Il contient plusieurs bibliothèques populaires, notamment TensorFlow, Keras et XGBoost.

Databricks Runtime ML vous permet de démarrer un cluster Databricks avec toutes les bibliothèques requises pour l’apprentissage de TensorFlow distribué. Il garantit la compatibilité des bibliothèques incluses sur le cluster (entre TensorFlow et CUDA/cuDNN, par exemple), et réduit considérablement le temps de démarrage du cluster par rapport à l’utilisation de scripts init.

Notes

Databricks Runtime 4.1 ML est disponible uniquement dans la référence SKU Premium.

Voir les notes de publication complètes pour Databricks Runtime 4.1 pour Machine Learning (non pris en charge).

Databricks Delta

17 mai 2018

Databricks Delta est désormais disponible en préversion privée pour les utilisateurs d’Azure Databricks. Contactez votre responsable de compte ou inscrivez-vous via https://databricks.com/product/databricks-delta. Cette version représente une version candidate anticipant la prochaine version en disponibilité générale.

Pour plus d’informations, consultez Databricks Runtime 4.1 (sans support) et Qu’est-ce que Delta Lake ?.

Prise en charge de display() pour les types de données image

17 mai 2018

Dans Databricks Runtime 4.1, display() affiche désormais les colonnes contenant des données de type image sous forme de code HTML enrichi.

Consultez l’article Visualisations dans les notebooks Databricks.

Types de cluster GPU

15 mai 2018 : version 2.71

Nous sommes heureux d’annoncer la prise en charge des types d’instances Azure NC (NC12 et NC24) sur les clusters Azure Databricks. Les instances NC fournissent des GPU pour le traitement d’images, l’analyse de texte et d’autres tâches de Machine Learning et de Deep Learning qui sont compliquées en termes de calcul et exigent des performances supérieures.

Azure Databricks fournit également des pilotes et bibliothèques NVIDIA préinstallés configurés pour les GPU, ainsi que des documents pour la prise en main de plusieurs bibliothèques de Deep Learning populaires.

Voir aussi :

Gestion des secrets (GA)

15 mai 2018 : version 2.71

La gestion des secrets, qui était en préversion privée, est désormais généralement disponible. Elle fournit des outils puissants pour la gestion des informations d’identification dont vous avez besoin pour l’authentification auprès de sources de données externes. Au lieu de taper vos informations d’identification directement dans un notebook, utilisez la gestion des secrets Databricks pour stocker vos informations d’identification et les référencer dans des notebooks et des travaux. Pour gérer les secrets, vous pouvez utiliser l’interface CLI Secrets (héritée) afin d’accéder à l’API Secrets.

Notes

La gestion des secrets nécessite Databricks Runtime version 4.0 ou ultérieure et l’interface CLI Databricks version 0.7.1 ou ultérieure.

Consultez Gestion des secrets.

Modifications apportées aux commandes de l’interface CLI et aux points de terminaison de l’API Secrets

15 mai 2018 : version 2.71

Les modifications suivantes ont été apportées aux points de terminaison de l’API secrets :

  • Pour tous les points de terminaison, le chemin d’accès racine a été modifié de /secret en /secrets.
  • Pour le point de terminaison des secrets, /secret/secrets a été réduit à /secrets/.
  • La méthode write a été remplacée par put.

Databricks CLI 0.7.1 comprend des mises à jour des commandes de Secrets à aligner avec ces points de terminaison d’API mis à jour.

Consultez l’API Secrets et la Gestion des secrets.

Épinglage des clusters

15 mai 2018 : version 2.71

Vous pouvez désormais épingler un cluster à la liste Clusters. Cela vous permet de conserver la configuration des clusters arrêtés au cours des 30 derniers jours.

Épingler un cluster

En outre, la page Clusters affiche désormais tous les clusters arrêtés au cours des 30 derniers jours (délai augmenté de 7 jours).

Consultez Épingler un calcul.

Démarrage automatique des clusters

15 mai 2018 : version 2.71

Avant cette version, les travaux planifiés pour s’exécuter sur des clusters Terminatedéchouaient. Pour les clusters créés dans Azure Databricks versions 2.71 et ultérieures, les commandes provenant d’une interface JDBC/ODBC ou d’une exécution de travail attribuée à un cluster arrêté existant redémarrent automatiquement ce cluster. Consultez Connexion JDBC et Créer un travail.

Le démarrage automatique vous permet de configurer des clusters pour qu’ils s’arrêtent automatiquement, sans nécessiter une intervention manuelle pour redémarrer les clusters pour les tâches planifiées. En outre, vous pouvez planifier l’initialisation du cluster en planifiant un travail qui redémarre des clusters arrêtés à une heure spécifiée.

Le contrôle d’accès au cluster est appliqué et les autorisations du propriétaire du travail sont vérifiées comme d’habitude.

Vidage de l’espace de travail

15 mai 2018 : version 2.71

Dans le cadre de notre effort permanent pour nous conformer au Règlement général sur la protection des données (RGPD) de l’Union européenne, nous avons ajouté la possibilité de supprimer définitivement des objets de l’espace de travail, tels que des notebooks entiers, des cellules individuelles d’un notebook, des commentaires individuels sur un notebook et l’historique des révisions d’un notebook. Nous publierons des fonctionnalités et de la documentation supplémentaires en lien avec la prise en charge de la conformité au RGPD dans les semaines à venir.

Consultez l’article Vider le stockage de l’espace de travail.

Databricks CLI 0.7.1

10 mai 2018

Databricks CLI 0.7.1 inclut des mises à jour des commandes de Secrets à aligner avec des points de terminaison d’API mis à jour.

Consultez Interface CLI Databricks (héritée) et Gestion des secrets.