Février 2019February 2019

Ces fonctionnalités et Azure Databricks améliorations de la plateforme ont été publiées en février 2019.These features and Azure Databricks platform improvements were released in February 2019.

Notes

Les mises en production sont intermédiaires.Releases are staged. Votre compte de Azure Databricks ne peut pas être mis à jour jusqu’à une semaine après la date de publication initiale.Your Azure Databricks account may not be updated until up to a week after the initial release date.

Databricks Light mis à la disposition généraleDatabricks Light generally available

26 février-5 mars, 2019 : version 2,92February 26 - March 5, 2019: Version 2.92

Databricks Light (également appelée Data Engineering Light) est désormais disponible.Databricks Light (also known as Data Engineering Light) is now available. Databricks Light est l’empaquetage Databricks du runtime Open source Apache Spark.Databricks Light is the Databricks packaging of the open source Apache Spark runtime. Il fournit une option d’exécution pour les travaux qui n’ont pas besoin des avantages avancés en matière de performances, de fiabilité ou de mise à l’échelle automatique fournis par Databricks Runtime.It provides a runtime option for jobs that don’t need the advanced performance, reliability, or autoscaling benefits provided by Databricks Runtime. Vous pouvez sélectionner Databricks Light uniquement quand vous créez un cluster pour exécuter un travail JAR, Python ou spark-submit ; vous ne pouvez pas sélectionner ce runtime pour les clusters sur lesquels vous exécutez des charges de travail liées à des travaux interactifs ou de notebook.You can select Databricks Light only when you create a cluster to run a JAR, Python, or spark-submit job; you cannot select this runtime for clusters on which you run interactive or notebook job workloads. Voir Databricks Light.See Databricks Light.

MLflow en mode managé sur Azure Databricks (préversion publique)Managed MLflow on Azure Databricks Public Preview

26 février-5 mars, 2019 : version 2,92February 26 - March 5, 2019: Version 2.92

MLflow est une plateforme open source qui permet de gérer le cycle de vie du machine learning de bout en bout.MLflow is an open source platform for managing the end-to-end machine learning lifecycle. Il s’attaque à trois fonctions principales :It tackles three primary functions:

  • Suivi des expériences pour enregistrer et comparer des paramètres et des résultats.Tracking experiments to record and compare parameters and results.
  • Gestion et déploiement de modèles à partir d’une multitude de bibliothèques ML vers une variété de plateformes de service et d’inférence de modèles.Managing and deploying models from a variety of ML libraries to a variety of model serving and inference platforms.
  • Empaqueter du code ML dans un formulaire réutilisable et reproductible à partager avec d’autres scientifiques de données ou transférer en production.Packaging ML code in a reusable, reproducible form to share with other data scientists or transfer to production.

Azure Databricks fournit à présent une version entièrement gérée et hébergée de MLflow intégrée avec les fonctionnalités de sécurité d’entreprise, la haute disponibilité et d’autres fonctionnalités d’espace de travail Azure Databricks telles que la gestion des expérimentations, la gestion des exécutions et la capture de la révision des notebooks.Azure Databricks now provides a fully managed and hosted version of MLflow integrated with enterprise security features, high availability, and other Azure Databricks workspace features such as experiment management, run management, and notebook revision capture. MLflow sur Azure Databricks offre une expérience intégrée pour le suivi et la sécurisation des exécutions d’entraînement des modèles Machine Learning et des projets de machine learning exécutés.MLflow on Azure Databricks offers an integrated experience for tracking and securing machine learning model training runs and running machine learning projects. En utilisant Managed MLflow sur Azure Databricks, vous bénéficiez des avantages des deux plateformes, notamment :By using managed MLflow on Azure Databricks, you get the advantages of both platforms, including:

  • Espaces de travail : Suivez et organisez de façon collaborative les expériences et les résultats dans Azure Databricks espaces de travail avec un serveur de suivi MLflow hébergé et une interface utilisateur d’expérimentation intégrée.Workspaces: Collaboratively track and organize experiments and results within Azure Databricks Workspaces with a hosted MLflow Tracking Server and integrated experiment UI. Lorsque vous utilisez MLflow dans des blocs-notes, Azure Databricks capture automatiquement les révisions du bloc-notes pour vous permettre de reproduire le même code et de l’exécuter ultérieurement.When you use MLflow in notebooks, Azure Databricks automatically captures notebook revisions so you can reproduce the same code and runs later.
  • Sécurité : Tirez parti d’un modèle de sécurité commun pour l’ensemble du cycle de vie ML via des ACL.Security: Take advantage of one common security model for the entire ML lifecycle via ACLs.
  • Travaux : Exécuter des projets MLflow en tant que tâches Azure Databricks à distance et directement à partir de Azure Databricks blocs-notes.Jobs: Run MLflow projects as Azure Databricks jobs remotely and directly from Azure Databricks notebooks.

Voici une démonstration d’un workflow de suivi dans un espace de travail Azure Databricks :Here’s a demo of a tracking workflow in an Azure Databricks Workspace:

Suivre les exécutions et organiser le flux de travail des expérimentationsTrack runs and organize experiment workflow

Pour plus d’informations, consultez expériences et exécution de projets MLflow sur Azure Databricks.For details, see Experiments and Run MLflow Projects on Azure Databricks.

Le connecteur Azure Data Lake Storage Gen2 est mis à la disposition généraleAzure Data Lake Storage Gen2 connector is generally available

15 février 2019February 15, 2019

Azure Data Lake Storage Gen2 (ADLS Gen2), la solution Data Lake de nouvelle génération pour Big Data Analytics, est désormais GA, tout comme le connecteur ADLS Gen2 pour Azure Databricks.Azure Data Lake Storage Gen2 (ADLS Gen2), the next-generation data lake solution for big data analytics, is now GA, as is the ADLS Gen2 connector for Azure Databricks. Nous sommes également heureux d’annoncer que ADLS Gen2 prend en charge Databricks Delta quand vous exécutez des clusters sur Databricks Runtime 5,2 et versions ultérieures.We are also pleased to announce that ADLS Gen2 supports Databricks Delta when you are running clusters on Databricks Runtime 5.2 and above.

Python 3 est désormais la version lors de la création de clustersPython 3 now the default when you create clusters

12-19 février, 2019 : version 2,91February 12-19, 2019: Version 2.91

La version python par défaut pour les clusters créés à l’aide de l’interface utilisateur est passée de Python 2 à python 3.The default Python version for clusters created using the UI has switched from Python 2 to Python 3. La valeur par défaut pour les clusters créés à l’aide de l’API REST est toujours Python 2.The default for clusters created using the REST API is still Python 2.

Les clusters existants ne modifieront pas leurs versions Python.Existing clusters will not change their Python versions. Toutefois, si vous avez pris l’habitude de prendre la valeur par défaut Python 2 lorsque vous créez de nouveaux clusters, vous devez commencer à faire attention à votre sélection de version de Python.But if you’ve been in the habit of taking the Python 2 default when you create new clusters, you’ll need to start paying attention to your Python version selection.

Version de Python par défautDefault Python version

Consultez version de Python.See Python version.

Delta Lake mis à la disposition généraleDelta Lake generally available

1er février 2019February 1, 2019

Désormais, tout le monde peut bénéficier des avantages de la couche de stockage transactionnel puissante et des lectures super rapides de Databricks Delta : depuis le 1er février, Delta Lake est GA et disponible sur toutes les versions prises en charge de Databricks Runtime.Now everyone can get the benefits of Databricks Delta’s powerful transactional storage layer and super-fast reads: as of February 1, Delta Lake is GA and available on all supported versions of Databricks Runtime. Pour plus d’informations sur delta, consultez Delta Lake.For information about Delta, see the Delta Lake.