Février 2019

Ces fonctionnalités et Azure Databricks améliorations de la plateforme ont été publiées en février 2019.

Notes

Les mises en production sont intermédiaires. Votre compte de Azure Databricks ne peut pas être mis à jour jusqu’à une semaine après la date de publication initiale.

Databricks Light mis à la disposition générale

26 février-5 mars, 2019 : version 2,92

Databricks Light (également appelée Data Engineering Light) est désormais disponible. Databricks Light est l’empaquetage Databricks du runtime Open source Apache Spark. Il fournit une option d’exécution pour les travaux qui n’ont pas besoin des avantages avancés en matière de performances, de fiabilité ou de mise à l’échelle automatique fournis par Databricks Runtime. Vous pouvez sélectionner Databricks Light uniquement quand vous créez un cluster pour exécuter un travail JAR, Python ou spark-submit ; vous ne pouvez pas sélectionner ce runtime pour les clusters sur lesquels vous exécutez des charges de travail liées à des travaux interactifs ou de notebook. Voir Databricks Light.

MLflow en mode managé sur Azure Databricks (préversion publique)

26 février-5 mars, 2019 : version 2,92

MLflow est une plateforme open source qui permet de gérer le cycle de vie du machine learning de bout en bout. Il s’attaque à trois fonctions principales :

  • Suivi des expériences pour enregistrer et comparer des paramètres et des résultats.
  • gestion et déploiement de modèles à partir d’une variété de bibliothèques de ML vers diverses plateformes de service et d’inférence de modèles.
  • empaquetage ML code dans un formulaire réutilisable et reproductible à partager avec d’autres scientifiques de données ou à transférer en production.

Azure Databricks fournit à présent une version entièrement gérée et hébergée de MLflow intégrée avec les fonctionnalités de sécurité d’entreprise, la haute disponibilité et d’autres fonctionnalités d’espace de travail Azure Databricks telles que la gestion des expérimentations, la gestion des exécutions et la capture de la révision des notebooks. MLflow sur Azure Databricks offre une expérience intégrée pour le suivi et la sécurisation des exécutions d’entraînement des modèles Machine Learning et des projets de machine learning exécutés. En utilisant Managed MLflow sur Azure Databricks, vous bénéficiez des avantages des deux plateformes, notamment :

  • Espaces de travail : Suivez et organisez de façon collaborative les expériences et les résultats dans Azure Databricks espaces de travail avec un serveur de suivi MLflow hébergé et une interface utilisateur d’expérimentation intégrée. Lorsque vous utilisez MLflow dans des blocs-notes, Azure Databricks capture automatiquement les révisions du bloc-notes pour vous permettre de reproduire le même code et de l’exécuter ultérieurement.
  • Sécurité : tirez parti d’un modèle de sécurité commun pour l’ensemble du cycle de vie des ML via des acl.
  • Travaux : Exécuter des projets MLflow en tant que tâches Azure Databricks à distance et directement à partir de Azure Databricks blocs-notes.

Voici une démonstration d’un workflow de suivi dans un espace de travail Azure Databricks :

Suivre les exécutions et organiser le flux de travail des expérimentations

Pour plus d’informations, consultez expériences et exécution de projets MLflow sur Azure Databricks.

Le connecteur Azure Data Lake Storage Gen2 est mis à la disposition générale

15 février 2019

Azure Data Lake Storage Gen2 (ADLS Gen2), la solution Data Lake de nouvelle génération pour Big Data analytics, est désormais GA, tout comme le connecteur ADLS Gen2 pour Azure Databricks. Nous sommes également heureux d’annoncer que ADLS Gen2 prend en charge Databricks Delta quand vous exécutez des clusters sur Databricks Runtime 5,2 et versions ultérieures.

Python 3 est désormais la version lors de la création de clusters

12-19 février, 2019 : version 2,91

La version python par défaut pour les clusters créés à l’aide de l’interface utilisateur est passée de Python 2 à python 3. La valeur par défaut pour les clusters créés à l’aide de l’API REST est toujours Python 2.

Les clusters existants ne modifieront pas leurs versions Python. Toutefois, si vous avez pris l’habitude de prendre la valeur par défaut Python 2 lorsque vous créez de nouveaux clusters, vous devez commencer à faire attention à votre sélection de version de Python.

Version de Python par défaut

Consultez version de Python.

Delta Lake mis à la disposition générale

1er février 2019

Désormais, tout le monde peut bénéficier des avantages de la couche de stockage transactionnel puissante et des lectures super rapides de Databricks Delta : depuis le 1er février, Delta Lake est GA et disponible sur toutes les versions prises en charge de Databricks Runtime. Pour plus d’informations sur delta, consultez le Guide Delta Lake et le moteur Delta.