Mai 2020May 2020

Ces fonctionnalités et Azure Databricks améliorations de la plateforme ont été publiées en mai 2020.These features and Azure Databricks platform improvements were released in May 2020.

Notes

Les mises en production sont intermédiaires.Releases are staged. Votre compte de Azure Databricks ne peut pas être mis à jour jusqu’à une semaine après la date de publication initiale.Your Azure Databricks account may not be updated until up to a week after the initial release date.

Machines virtuelles de la série Easv4 (bêta)Easv4-series VMs (Beta)

29 mai 2020May 29, 2020

Azure Databricks fournit désormais la prise en charge bêta pour les machines virtuelles de la série Easv4 , qui utilisent un SSD Premium et peut atteindre une fréquence maximale améliorée de 3.35 GHz.Azure Databricks now provides Beta support for Easv4-series VMs, which use a premium SSD and can achieve a boosted maximum frequency of 3.35GHz. Ces types d’instances peuvent optimiser les performances de votre charge de travail pour les applications d’entreprise gourmandes en mémoire.These instance types can optimize your workload performance for memory-intensive enterprise applications.

Databricks Runtime 6.6 pour Genomics en disponibilité généraleDatabricks Runtime 6.6 for Genomics GA

26 mai, 2020May 26, 2020

Databricks Runtime 6,6 pour la génomique est basé sur Databricks Runtime 6,6 et comprend les nouvelles fonctionnalités suivantes :Databricks Runtime 6.6 for Genomics is built on top of Databricks Runtime 6.6 and includes the following new features:

  • Lecteur GFF3GFF3 reader
  • Prise en charge du génome de référence personnaliséCustom reference genome support
  • Délais d’expiration de pipeline par exemplePer-sample pipeline timeouts
  • Option d’exportation BAMBAM export option
  • Objets BLOB de manifesteManifest blobs

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 6,6 pour génomiques .For more information, see the complete Databricks Runtime 6.6 for Genomics release notes.

Databricks Runtime 6.6 ML en disponibilité généraleDatabricks Runtime 6.6 ML GA

26 mai, 2020May 26, 2020

Databricks Runtime 6,6 ML est basé sur Databricks Runtime 6,6 et comprend les nouvelles fonctionnalités suivantes :Databricks Runtime 6.6 ML is built on top of Databricks Runtime 6.6 and includes the following new features:

  • Mise à niveau de mlflow : 1.7.0 vers 1.8.0Upgraded mlflow: 1.7.0 to 1.8.0

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 6,6 ml .For more information, see the complete Databricks Runtime 6.6 ML release notes.

Databricks Runtime 6.6 en disponibilité généraleDatabricks Runtime 6.6 GA

26 mai, 2020May 26, 2020

Databricks Runtime 6,6 apporte de nombreuses mises à niveau et de nouvelles fonctionnalités de bibliothèque, notamment les fonctionnalités Delta Lake suivantes :Databricks Runtime 6.6 brings many library upgrades and new features, including the following Delta Lake features:

  • Vous pouvez maintenant faire évoluer automatiquement le schéma de la table avec l' merge opération.You can now evolve the schema of the table automatically with the merge operation. Cela est utile dans les scénarios où vous souhaitez upsert les données modifiées dans une table et que le schéma des données change au fil du temps.This is useful in scenarios where you want to upsert change data into a table and the schema of the data changes over time. Au lieu de détecter et d’appliquer des modifications de schéma avant Upsert, merge peut faire évoluer simultanément le schéma et upsert les modifications.Instead of detecting and applying schema changes before upserting, merge can simultaneously evolve the schema and upsert the changes. Consultez évolution automatique du schéma.See Automatic schema evolution.
  • Les performances des opérations de fusion qui ont uniquement des clauses correspondantes, c’est-à-dire qu’elles ont uniquement update des delete actions et et aucune insert action, ont été améliorées.The performance of merge operations that have only matched clauses, that is, they have only update and delete actions and no insert action, has been improved.
  • Les tables parquet qui sont référencées dans le metastore Hive sont désormais convertibles en delta dans leurs identificateurs de table à l’aide de CONVERT TO DELTA .Parquet tables that are referenced in the Hive metastore are now convertible to Delta Lake through their table identifiers using CONVERT TO DELTA.

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 6,6 .For more information, see the complete Databricks Runtime 6.6 release notes.

Limite de taille de point de terminaison de suppression de l’API REST DBFSDBFS REST API delete endpoint size limit

21-28, 2020 : version 3,20May 21-28, 2020: Version 3.20

Lorsque vous supprimez un grand nombre de fichiers de manière récursive à l’aide de l' API dBFS, l’opération de suppression est effectuée par incréments.When you delete a large number of files recursively using the DBFS API, the delete operation is done in increments. L’appel retourne une réponse après environ 45s avec un message d’erreur vous demandant de rappeler l’opération de suppression jusqu’à ce que la structure de répertoire soit entièrement supprimée.The call returns a response after approximately 45s with an error message asking you to re-invoke the delete operation until the directory structure is fully deleted. Par exemple :For example:

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

Voir facilement les grands chiffres des modèles inscrits MLflowEasily view large numbers of MLflow registered models

21-28, 2020 : version 3,20May 21-28, 2020: Version 3.20

Le registre de modèles MLflow prend désormais en charge la recherche et la pagination côté serveur pour les modèles inscrits, ce qui permet aux organisations avec un grand nombre de modèles d’effectuer efficacement la liste et la recherche.The MLflow Model Registry now supports server-side search and pagination for registered models, which enables organizations with large numbers of models to efficiently perform listing and search. Comme précédemment, vous pouvez rechercher des modèles par nom et obtenir des résultats triés par nom ou par heure de dernière mise à jour.As before, you can search models by name and get results ordered by name or the last updated time. Toutefois, si vous avez un grand nombre de modèles, les pages sont chargées beaucoup plus rapidement et la recherche récupère la vue la plus à jour des modèles.However, if you have a large number of models, the pages will load much faster, and search will fetch the most up-to-date view of models.

Les bibliothèques configurées pour être installées sur tous les clusters ne sont pas installées sur les clusters exécutant Databricks Runtime 7.0 et ultérieurLibraries configured to be installed on all clusters are not installed on clusters running Databricks Runtime 7.0 and above

21-28, 2020 : version 3,20May 21-28, 2020: Version 3.20

Dans Databricks Runtime 7,0 et versions ultérieures, la version sous-jacente de Apache Spark utilise Scala 2,12.In Databricks Runtime 7.0 and above, the underlying version of Apache Spark uses Scala 2.12. Étant donné que les bibliothèques compilées avec Scala 2,11 peuvent désactiver les clusters Databricks Runtime 7,0 de manière inattendue, les clusters qui exécutent Databricks Runtime 7,0 et versions ultérieures n’installent pas les bibliothèques configurées pour être installées sur tous les clusters.Since libraries compiled against Scala 2.11 can disable Databricks Runtime 7.0 clusters in unexpected ways, clusters running Databricks Runtime 7.0 and above do not install libraries configured to be installed on all clusters. L' onglet bibliothèques de clusters affiche un état Skipped et un message d’obsolescence en rapport avec les modifications apportées à la gestion de la bibliothèque.The cluster Libraries tab shows a status Skipped and a deprecation message related to the changes in library handling.

Si vous avez un cluster qui a été créé sur une version antérieure de Databricks Runtime _avant la publication de 3,20 dans votre espace de travail_et que vous modifiez maintenant ce cluster pour utiliser Databricks Runtime 7,0, toutes les bibliothèques qui ont été configurées pour être installées sur tous les clusters seront installées sur ce cluster.If you have a cluster that was created on an earlier version of Databricks Runtime before 3.20 was released to your workspace, and you now edit that cluster to use Databricks Runtime 7.0, any libraries that were configured to be installed on all clusters will be installed on that cluster. Dans ce cas, tous les fichiers jar incompatibles dans les bibliothèques installées peuvent entraîner la désactivation du cluster.In this case, any incompatible JARs in the installed libraries can cause the cluster to be disabled. La solution de contournement consiste soit à cloner le cluster, soit à créer un cluster.The workaround is either to clone the cluster or to create a new cluster.

Databricks Runtime 7.0 pour Genomics (bêta)Databricks Runtime 7.0 for Genomics (Beta)

21 mai, 2020May 21, 2020

Databricks Runtime 7,0 pour la génomique est basé sur Databricks Runtime 7,0 et comprend les modifications de bibliothèque suivantes :Databricks Runtime 7.0 for Genomics is built on top of Databricks Runtime 7.0 and includes the following library changes:

  • La bibliothèque ADAM a été mise à jour de la version 0.30.0 vers 0.32.0.The ADAM library has been updated from version 0.30.0 to 0.32.0.
  • La bibliothèque de grêle n’est pas incluse dans Databricks Runtime 7,0 pour la génomique, car il n’existe aucune version basée sur Apache Spark 3,0.The Hail library is not included in Databricks Runtime 7.0 for Genomics as there is no release based on Apache Spark 3.0.

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 7,0 pour génomiques .For more information, see the complete Databricks Runtime 7.0 for Genomics release notes.

Databricks Runtime 7.0 ML (bêta)Databricks Runtime 7.0 ML (Beta)

21 mai, 2020May 21, 2020

Databricks Runtime 7,0 ML est basé sur Databricks Runtime 7,0 et comprend les nouvelles fonctionnalités suivantes :Databricks Runtime 7.0 ML is built on top of Databricks Runtime 7.0 and includes the following new features:

  • Bibliothèques Python avec étendue de bloc-notes et environnements personnalisés gérés par Conda et les commandes PIP.Notebook-scoped Python libraries and custom environments managed by conda and pip commands.
  • Mises à jour pour les packages python majeurs, notamment tensorflow, tensorboard, pytorch, xgboost, sparkdl et hyperopt.Updates for major Python packages including tensorflow, tensorboard, pytorch, xgboost, sparkdl, and hyperopt.
  • Packages python récemment ajoutés lightgbm, nltk, petastorm et plotly.Newly added Python packages lightgbm, nltk, petastorm, and plotly.
  • Serveur RStudio Open source v 1.2.RStudio Server Open Source v1.2.

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 7,0 ml .For more information, see the complete Databricks Runtime 7.0 ML release notes.

Databricks Runtime 6.6 pour Genomics (bêta)Databricks Runtime 6.6 for Genomics (Beta)

7 mai, 2020May 7, 2020

Databricks Runtime 6,6 pour la génomique est basé sur Databricks Runtime 6,6 et comprend les nouvelles fonctionnalités suivantes :Databricks Runtime 6.6 for Genomics is built on top of Databricks Runtime 6.6 and includes the following new features:

  • Lecteur GFF3GFF3 reader
  • Prise en charge du génome de référence personnaliséCustom reference genome support
  • Délais d’expiration de pipeline par exemplePer-sample pipeline timeouts
  • Option d’exportation BAMBAM export option
  • Objets BLOB de manifesteManifest blobs

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 6,6 pour génomiques .For more information, see the complete Databricks Runtime 6.6 for Genomics release notes.

Databricks Runtime 6.6 ML (bêta)Databricks Runtime 6.6 ML (Beta)

7 mai, 2020May 7, 2020

Databricks Runtime 6,6 ML est basé sur Databricks Runtime 6,6 et comprend les nouvelles fonctionnalités suivantes :Databricks Runtime 6.6 ML is built on top of Databricks Runtime 6.6 and includes the following new features:

  • Mise à niveau de mlflow : 1.7.0 vers 1.8.0Upgraded mlflow: 1.7.0 to 1.8.0

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 6,6 ml .For more information, see the complete Databricks Runtime 6.6 ML release notes.

Databricks Runtime 6.6 (bêta)Databricks Runtime 6.6 (Beta)

7 mai, 2020May 7, 2020

Databricks Runtime 6,6 (bêta) apporte de nombreuses mises à niveau et de nouvelles fonctionnalités de bibliothèque, notamment les fonctionnalités Delta Lake suivantes :Databricks Runtime 6.6 (Beta) brings many library upgrades and new features, including the following Delta Lake features:

  • Vous pouvez maintenant faire évoluer automatiquement le schéma de la table avec l' merge opération.You can now evolve the schema of the table automatically with the merge operation. Cela est utile dans les scénarios où vous souhaitez upsert les données modifiées dans une table et que le schéma des données change au fil du temps.This is useful in scenarios where you want to upsert change data into a table and the schema of the data changes over time. Au lieu de détecter et d’appliquer des modifications de schéma avant Upsert, merge peut faire évoluer simultanément le schéma et upsert les modifications.Instead of detecting and applying schema changes before upserting, merge can simultaneously evolve the schema and upsert the changes. Consultez évolution automatique du schéma.See Automatic schema evolution.
  • Les performances des opérations de fusion qui ont uniquement des clauses correspondantes, c’est-à-dire qu’elles ont uniquement update des delete actions et et aucune insert action, ont été améliorées.The performance of merge operations that have only matched clauses, that is, they have only update and delete actions and no insert action, has been improved.
  • Les tables parquet qui sont référencées dans le metastore Hive sont désormais convertibles en delta dans leurs identificateurs de table à l’aide de CONVERT TO DELTA .Parquet tables that are referenced in the Hive metastore are now convertible to Delta Lake through their table identifiers using CONVERT TO DELTA.

Pour plus d’informations, consultez les notes de publication complètes Databricks Runtime 6,6 .For more information, see the complete Databricks Runtime 6.6 release notes.

Les clusters de travail sont désormais marqués avec le nom et l’ID du travailJob clusters now tagged with job name and ID

5-12, 2020 : version 3,19May 5-12, 2020: Version 3.19

Les clusters de travail sont automatiquement marqués avec le nom et l’ID du travail.Job clusters are automatically tagged with the job name and ID. Les balises apparaissent dans les rapports d’utilisation facturables, ce qui vous permet d’attribuer facilement votre utilisation de DBU par travail et d’identifier les anomalies.The tags appear in the billable usage reports so that you can easily attribute your DBU usage by job and identify anomalies. Les balises sont expurgées en spécifications de balise de cluster, telles que les caractères autorisés, la taille maximale et le nombre maximal de balises.The tags are sanitized to cluster tag specifications, such as allowed characters, maximum size, and maximum number of tags. Le nom du travail est contenu dans la RunName balise et l’ID de travail est contenu dans la JobId balise.The job name is contained in the RunName tag and the job ID is contained in the JobId tag.

Restauration des cellules de notebook suppriméesRestore deleted notebook cells

5-12, 2020 : version 3,19May 5-12, 2020: Version 3.19

Vous pouvez maintenant restaurer les cellules supprimées à l’aide du Z raccourci clavier () ou en sélectionnant modifier > annuler supprimer les cellules.You can now restore deleted cells either by using the (Z) keyboard shortcut or by selecting Edit > Undo Delete Cells.

Limite de la file des travaux en attenteJobs pending queue limit

5-12, 2020 : version 3,19May 5-12, 2020: Version 3.19

Un espace de travail est maintenant limité à 1000 exécutions de tâches actives (en cours d’exécution et en attente).A workspace is now limited to 1000 active (running and pending) job runs. Étant donné qu’un espace de travail est limité à 150 exécutions de tâches simultanées (en cours d’exécution), un espace de travail peut avoir jusqu’à 850 exécutions dans la file d’attente en attente.Since a workspace is limited to 150 concurrent (running) job runs, a workspace can have up to 850 runs in the pending queue.