Avril 2019

Ces fonctionnalités et Azure Databricks améliorations de la plateforme ont été publiées en avril 2019.

Notes

Les mises en production sont intermédiaires. Votre compte de Azure Databricks ne peut pas être mis à jour jusqu’à une semaine après la date de publication initiale.

MLflow sur Azure Databricks (disponibilité générale)

25 avril, 2019

Le MLflow géré sur Azure Databricks est désormais mis à la disposition générale. MLflow sur Azure Databricks offre une version hébergée de MLflow entièrement intégrée au modèle de sécurité Databricks et à l’espace de travail interactif. Consultez le Guide MLflow.

Delta Lake sur Azure Databricks

24 avril 2019

Databricks a ouvert le projet Delta Lake en open source. Delta Lake est une couche de stockage qui apporte la fiabilité aux lacs de données basés sur HDFS et le stockage cloud en fournissant des transactions ACID via un contrôle d’accès concurrentiel optimiste entre les écritures et l’isolation d’instantané pour les lectures cohérentes pendant les écritures. Delta Lake fournit également un contrôle de version des données intégré pour faciliter les restaurations et la reproduction des rapports.

Notes

Ce qui a été précédemment appelé Databricks Delta est désormais le projet Delta Lake Open source plus les optimisations disponibles sur Azure Databricks. Consultez Delta Lake et Delta Engine Guide.

Barre latérale des exécutions MLflow

9-16 avril 2019 : version 2,95

Vous pouvez maintenant afficher les exécutions de MLflow et les révisions du bloc-notes qui les ont produites dans un encadré à côté de votre bloc-notes.

MLflow runs in notebook sidebar

Consultez créer une expérience de bloc-notes.

Accéder à Azure Data Lake Storage Gen1 et Gen2 automatiquement avec vos informations d’identification Azure AD (disponibilité générale)

9-16 avril 2019 : version 2,95

nous avons le plaisir d’annoncer la disponibilité générale de l’authentification automatique à Azure Data Lake Storage Gen1 et Gen2 à partir de clusters Azure Databricks utilisant la même identité Azure Active Directory (Azure AD) que celle que vous utilisez pour vous connecter à Azure Databricks.

il vous suffit d’activer votre cluster pour Azure AD relais d’informations d’identification, et les commandes que vous exécutez sur ce cluster pourront lire et écrire vos données dans Azure Data Lake Storage Gen1 et Gen2 sans avoir à configurer les informations d’identification du principal de service pour l’accès au stockage.

pour plus d’informations, consultez Azure Data Lake Storage d’accès à l’aide du relais d’informations d’identification Azure Active Directory.

Databricks Runtime 5.3 (disponibilité générale)

3 avril 2019

Databricks Runtime 5,3 est désormais mis à la disposition générale. Databricks Runtime 5,3 comprend de nouvelles fonctionnalités Delta Lake et des mises à niveau, ainsi que des bibliothèques Python, R, Java et Scala mises à niveau.

Les principales mises à niveau sont les suivantes :

  • Databricks Delta Time-disponibilité GA
  • Réplication de tables MySQL vers Delta, version préliminaire publique
  • Dossier fusible DBFS optimisé pour les charges de travail d’apprentissage profond
  • Améliorations de la bibliothèque de portée bloc-notes
  • Nouveaux indicateurs Databricks Advisor

Pour plus d’informations, consultez Databricks Runtime 5,3 (non pris en charge).

Databricks Runtime 5.3 ML (disponibilité générale)

3 avril 2019

avec Databricks Runtime 5,3 pour Machine Learning, nous avons atteint notre premier GA de Databricks Runtime ML ! Databricks Runtime ML fournit un environnement prêt à l’emploi pour les Machine Learning et la science des données. Il s’appuie sur Databricks Runtime et ajoute de nombreuses bibliothèques Machine Learning populaires, notamment TensorFlow, PyTorch, keras et XGBoost. Il prend également en charge l’entraînement distribué avec Horovod.

Cette version est basée sur Databricks Runtime 5,3, avec des bibliothèques supplémentaires, des versions de bibliothèque différentes et la gestion des packages Conda pour les bibliothèques Python. les nouvelles fonctionnalités majeures depuis Databricks Runtime 5,2 ML bêta sont les suivantes :

  • L’intégration de MLlib à MLflow (préversion privée), qui fournit la journalisation automatique des exécutions de MLflow pour les modèles, s’adapte aux algorithmes de paramétrage PySpark CrossValidator et TrainValidationSplit .

    Si vous souhaitez participer à la version préliminaire, contactez votre représentant de compte Databricks.

  • Mises à niveau vers les bibliothèques PyArrow, Horovod et TensorboardX.

    La mise à jour PyArrow ajoute la possibilité d’utiliser BinaryType lorsque vous effectuez une conversion basée sur une flèche et la rend disponible dans le fichier UDF pandas.

pour plus d’informations, consultez Databricks Runtime 5,3 ML (non pris en charge). pour obtenir des instructions sur la création d’un cluster Databricks Runtime ML, consultez Databricks Runtime pour Machine Learning.