May 2018

Les mises en production sont intermédiaires. Votre compte de Azure Databricks ne peut pas être mis à jour avant une semaine après la date de publication initiale.

Règlement général sur la protection des données (RGPD)

24 mai, 2018 : version 2,72

Pour répondre aux exigences de l’Union européenne Règlement général sur la protection des données (RGPD), qui entre en vigueur le 25 mai 2018, nous avons apporté un certain nombre de modifications à la plateforme Azure Databricks pour vous permettre de mieux contrôler la conservation des données au niveau du compte et de l’utilisateur. Les mises à jour comprennent :

  • Suppression de cluster : supprime définitivement une configuration de cluster à l’aide de l’interface utilisateur ou de l’API de clusters. Consultez supprimer un cluster.
  • Vidage de l’espace de travail (version 2,71) : supprimer définitivement les objets de l’espace de travail, tels que les blocs-notes complets, les cellules individuelles du bloc-notes, les commentaires des blocs-notes individuels et l’historique des révisions du Notebook Consultez gérer le stockage de l’espace de travail.
  • Purge de l’historique des révisions du bloc-notes :
    • Supprimer définitivement l’historique de révision de tous les blocs-notes d’un espace de travail pendant un laps de temps défini. Consultez gérer le stockage de l’espace de travail.
    • Supprimer définitivement une seule révision du bloc-notes ou la totalité de l’historique des révisions d’un bloc-notes. Consultez contrôle de version.

Pour plus d’informations sur la suppression de votre service Azure Databricks ou l’annulation de votre compte Azure, consultez gérer votre abonnement.

Les utilisateurs d’Azure Databricks doivent appartenir à un locataire Azure AD

24 mai, 2018 : version 2,72

les utilisateurs peuvent désormais se connecter à Azure Databricks uniquement s’ils appartiennent au locataire Azure Active Directory (Azure AD) de l’espace de travail Azure Databricks. si vous avez des utilisateurs qui n’appartiennent pas au locataire Azure AD, vous pouvez les ajouter en tant qu’utilisateurs standard ou invités.

HorovodEstimator

29 mai 2018 : version 2,72

Ajout de la documentation et d’un bloc-notes pour HorovodEstimator, une API d’estimateur de style MLlib qui tire parti de l’infrastructure Horovod de uber. HorovodEstimator facilite la formation distribuée multigpu des réseaux neuronaux profonds sur Spark trames, ce qui simplifie l’intégration de ETL dans Spark avec l’apprentissage du modèle dans TensorFlow. Consultez HorovodEstimator : formation profonde distribuée avec Horovod et Apache Spark MLlib.

Exportation du modèle ML MLeap

24 mai, 2018 : version 2,72

Ajout de la documentation et des blocs-notes sur l’utilisation de MLeap sur Azure Databricks. MLeap vous permet de déployer des pipelines Machine Learning à partir de Apache Spark et scikit-Learn sur un format portable et un moteur d’exécution. consultez MLeap ML modèle export.

Autres types de cluster GPU

24 mai, 2018 : version 2,72

Outre les types d’instances Azure NC (NC12 et NC24) que nous avons ajoutés dans la version 2,71, nous prenons désormais en charge la série de types d’instances NCv3 (NC6s_v3, NC12s_v3et NC24s_v3) sur les clusters Azure Databricks. Les instances NC et NCv3 fournissent des GPU pour le traitement des images, l’analyse de texte et d’autres Machine Learning et des tâches d’apprentissage approfondi qui sont difficiles en termes de calcul et exigent des performances supérieures.

Consultez clusters compatibles GPU.

Cellules de notebook : masquer et afficher

24 mai, 2018 : version 2,72

De nouveaux indicateurs et messagerie facilitent l’affichage du contenu des cellules du bloc-notes une fois qu’elles ont été masquées. Consultez masquer et afficher le contenu de la cellule.

22 mai 2018

Nous avons remplacé notre recherche de site doc par un meilleur outil de recherche. Vous verrez encore plus d’améliorations des recherches au cours des semaines à venir.

Notes

La recherche peut paraître rompue si vous l’essayez peu après le déploiement de la nouvelle recherche. Effacez simplement le cache de votre navigateur pour voir la nouvelle expérience de recherche.

Databricks Runtime 4.1 ML pour le machine learning (version bêta)

17 mai, 2018

Databricks Runtime ML (bêta) fournit un environnement prêt à l’emploi pour les Machine Learning et la science des données. Il contient plusieurs bibliothèques populaires, notamment TensorFlow, keras et XGBoost.

Databricks Runtime ML vous permet de démarrer un cluster Databricks avec toutes les bibliothèques requises pour la formation TensorFlow distribuée. Il garantit la compatibilité des bibliothèques incluses sur le cluster (entre TensorFlow et CUDA/cuDNN, par exemple) et réduit considérablement le temps de démarrage du cluster par rapport à l’utilisation de scripts init.

Notes

Databricks Runtime 4,1 ML est disponible uniquement dans la référence de Premium.

consultez les notes de publication complètes pour Databricks Runtime 4,1 ML (non pris en charge).

Databricks Delta

17 mai, 2018

Databricks Delta est désormais disponible en préversion privée pour les utilisateurs Azure Databricks. Contactez votre responsable de compte ou inscrivez-vous à https://databricks.com/product/databricks-delta . Cette version représente une version candidate à l’anticipation de la prochaine version de disponibilité générale.

Pour plus d’informations, consultez Databricks Runtime 4,1 (non pris en charge) et Delta Lake et Delta Engine Guide.

Prise en charge de display() pour les types de données image

17 mai, 2018

Dans Databricks Runtime 4,1, display() affiche désormais les colonnes contenant des types de données image sous forme de code HTML enrichi.

Consultez images.

Types de cluster GPU

15 mai, 2018 : version 2,71

Nous sommes heureux d’annoncer la prise en charge des types d’instances Azure NC (NC12 et NC24) sur les clusters Azure Databricks. Les instances NC fournissent des GPU pour le traitement des images, l’analyse de texte et d’autres Machine Learning et des tâches d’apprentissage approfondi qui sont difficiles en termes de calcul et exigent des performances supérieures.

Azure Databricks fournit également des pilotes et des bibliothèques NVIDIA préinstallés configurés pour les GPU, ainsi que des documents pour la prise en main de plusieurs bibliothèques d’apprentissage profond populaires.

Voir aussi :

Gestion des secrets mise à la disposition générale

15 mai, 2018 : version 2,71

La gestion des secrets, qui était en préversion privée, est désormais GA. Il fournit des outils puissants pour la gestion des informations d’identification dont vous avez besoin pour l’authentification auprès de sources de données externes. Au lieu de taper vos informations d’identification directement dans un Notebook, utilisez Databricks secret Management pour stocker vos informations d’identification et les référencer dans des blocs-notes et des travaux. Pour gérer les secrets, vous pouvez utiliser l' interface CLI de secrets pour accéder à l' API 2,0 de secrets.

Notes

La gestion des secrets requiert Databricks Runtime 4,0 ou version ultérieure et Databricks CLI 0.7.1 ou version ultérieure.

Consultez gestion des secrets.

Modifications apportées aux commandes de l’interface CLI et aux points de terminaison de l’API Secrets

15 mai, 2018 : version 2,71

Les modifications suivantes ont été apportées aux points de terminaison de l’API secrets :

  • Pour tous les points de terminaison, le chemin d’accès racine a été remplacé par /secret/secrets .
  • Pour le point de terminaison secrets, le /secret/secrets a été réduit à /secrets/ .
  • La write méthode a été remplacée par put .

Databricks CLI 0.7.1 comprend des mises à jour des commandes de secrets à aligner avec ces points de terminaison d’API mis à jour.

Consultez l' API Secrets 2,0 et la gestion des secrets.

Épinglage des clusters

15 mai, 2018 : version 2,71

Vous pouvez maintenant épingler un cluster à la liste des clusters. Cela vous permet de conserver la configuration des clusters terminés au cours des 30 derniers jours.

Pin cluster

En outre, la page clusters affiche désormais tous les clusters qui se sont terminés dans un délai de 30 jours (augmenté de 7 jours).

Consultez épingler un cluster.

Démarrage automatique des clusters

15 mai, 2018 : version 2,71

Avant cette version, les travaux planifiés pour s’exécuter sur des Terminated clusters ont échoué. Pour les clusters créés dans Azure Databricks version 2,71 et versions ultérieures, les commandes à partir d’une interface JDBC/ODBC ou d’une exécution de travaux affectée à un cluster terminé existant redémarrent automatiquement ce cluster. Consultez connexion JDBC et création d’un travail.

Le démarrage automatique vous permet de configurer des clusters pour qu’ils se terminent automatiquement, sans nécessiter une intervention manuelle pour redémarrer les clusters pour les tâches planifiées. En outre, vous pouvez planifier l’initialisation du cluster en planifiant un travail qui redémarre les clusters terminés à une heure spécifiée.

Le contrôle d’accès au cluster est appliqué et les autorisations du propriétaire du travail sont vérifiées comme d’habitude.

Vidage de l’espace de travail

15 mai, 2018 : version 2,71

Dans le cadre de notre effort permanent pour se conformer aux Règlement général sur la protection des données de l’Union européenne (RGPD), nous avons ajouté la possibilité de purger les objets de l’espace de travail, tels que les blocs-notes complets, les cellules de bloc-notes individuelles, les commentaires de bloc-notes individuels et l’historique de révision des ordinateurs portables. Nous publierons des fonctionnalités et de la documentation supplémentaires pour prendre en charge la conformité RGPD dans les semaines à venir.

Consultez gérer le stockage de l’espace de travail.

Interface CLI Databricks 0.7.1

10 mai, 2018

Databricks CLI 0.7.1 comprend des mises à jour des commandes de secrets à aligner avec les points de terminaison d’API mis à jour.

Consultez DATABRICKS CLI et gestion des secrets.