Gérer des notebooks

Vous pouvez gérer les blocs-notes à l’aide de l’interface utilisateur, de l’interface CLI et en appelant l’API de l’espace de travail. Cet article se concentre sur l’exécution de tâches de bloc-notes à l’aide de l’interface utilisateur. Pour les autres méthodes, consultez DATABRICKS CLI et l' API de l’espace de travail 2,0.

Créer un notebook

Utiliser le bouton Créer

Le moyen le plus simple de créer un nouveau bloc-notes dans votre dossier par défaut consiste à utiliser le bouton créer :

  1. Cliquez sur Create Iconcréer dans la barre latérale et sélectionnez Notebook dans le menu. La boîte de dialogue créer un bloc-notes s’affiche.
  2. Entrez un nom et sélectionnez la langue par défaut du bloc-notes.
  3. Si des clusters sont en cours d’exécution, la liste déroulante cluster s’affiche. Sélectionnez le cluster auquel vous souhaitez attacher le bloc-notes.
  4. Cliquez sur Créer.

Créer un bloc-notes dans n’importe quel dossier

Vous pouvez créer un nouveau bloc-notes dans n’importe quel dossier (par exemple, dans le dossier partagé ) en procédant comme suit :

  1. Dans la barre latérale, cliquez sur Workspace Iconespace de travail. Effectuez l’une des opérations suivantes :
    • En regard de n’importe quel dossier, cliquez sur Menu Dropdown à droite du texte et sélectionnez créer un Menu Dropdown bloc-notes.

      Create notebook

    • Dans le dossier espace de travail ou utilisateur, cliquez sur Down Caretcréer un Down Caret bloc-notes.

  2. Suivez les étapes 2 à 4 de la section utiliser le bouton créer.

Ouvrir un notebook

Dans votre espace de travail, cliquez sur un Notebook Icon . Le chemin d’accès du bloc-notes s’affiche lorsque vous pointez sur le titre du Notebook.

Supprimer un bloc-notes

Pour plus d’informations sur l’accès au menu de l’espace de travail et sur la suppression d’un bloc-notes ou d’autres éléments dans l’espace de travail, voir opérations sur les objets et les objets

Copier le chemin d’un notebook

Pour copier un chemin d’accès au fichier du bloc-notes sans ouvrir le bloc-notes, cliquez avec le bouton droit sur le nom du bloc-notes ou cliquez sur Menu Dropdown à droite du nom du bloc-notes, puis sélectionnez copier le chemin du fichier.

Copy notebook path

Renommer un notebook

Pour modifier le titre d’un bloc-notes ouvert, cliquez sur son titre et modifiez-le en ligne ou cliquez sur Renommer le fichier.

Contrôler l’accès à un notebook

si votre compte Azure Databricks possède le Plan de Azure Databricks Premium, vous pouvez utiliser le contrôle d’accès à l' espace de travail pour contrôler qui a accès à un bloc-notes.

Formats externes de bloc-notes

Azure Databricks prend en charge plusieurs formats externes de bloc-notes :

  • Fichier source : fichier contenant uniquement des instructions de code source avec l’extension .scala , .py , .sql ou .r .
  • HTML : bloc-notes Azure Databricks avec l’extension .html .
  • DBC Archive : Archive Databricks.
  • Notebook IPython : bloc-notes Jupyter avec l’extension .
  • RMarkdown : document R Markdown avec l’extension .

Dans cette section :

Importer un bloc-notes

Vous pouvez importer un bloc-notes externe à partir d’une URL ou d’un fichier. Vous pouvez également importer une archive ZIP des blocs-notes exportés en bloc à partir d’un espace de travail Azure Databricks.

  1. Cliquez sur Workspace Iconespace de travail dans la barre latérale. Effectuez l’une des opérations suivantes :

    • En regard de n’importe quel dossier, cliquez sur Menu Dropdown à droite du texte, puis sélectionnez Importer.

    • Dans le dossier de l’espace de travail ou de l’utilisateur, cliquez sur Down CaretImporter.

      Import notebook

  2. Spécifiez l’URL ou accédez à un fichier contenant un format externe pris en charge ou une archive ZIP des blocs-notes exportés à partir d’un espace de travail Azure Databricks.

  3. Cliquez sur Importer.

    • Si vous choisissez un seul bloc-notes, il est exporté dans le dossier actif.
    • Si vous choisissez une archive DBC ou ZIP, sa structure de dossiers est recréée dans le dossier actif et chaque bloc-notes est importé.

Exporter un bloc-notes

Dans la barre d’outils du bloc-notes, sélectionnez exportation de fichier et format.

Notes

Lorsque vous exportez un Notebook au format HTML, bloc-notes IPython ou Archive (DBC) et que vous n’avez pas effacé les résultats, les résultats de l’exécution du bloc-notes sont inclus.

Exporter tous les blocs-notes dans un dossier

Notes

Lorsque vous exportez un Notebook au format HTML, bloc-notes IPython ou Archive (DBC) et que vous n’avez pas effacé les résultats, les résultats de l’exécution du bloc-notes sont inclus.

Pour exporter tous les dossiers d’un dossier d’espace de travail en tant qu’archive ZIP :

  1. Cliquez sur Workspace Iconespace de travail dans la barre latérale. Effectuez l’une des opérations suivantes :
    • En regard de n’importe quel dossier, cliquez sur Menu Dropdown à droite du texte, puis sélectionnez Exporter.
    • Dans le dossier de l’espace de travail ou de l’utilisateur, cliquez sur Down CaretExporter.
  2. Sélectionnez le format d’exportation :
    • Archive DBC: exporter une archive Databricks, format binaire incluant les métadonnées et les résultats des commandes de bloc-notes.
    • Fichier source: exportez une archive zip des fichiers sources du bloc-notes, qui peuvent être importés dans un espace de travail Azure Databricks, utilisés dans un pipeline ci/CD, ou affichés en tant que fichiers sources dans la langue par défaut de chaque bloc-notes. Les résultats de la commande Notebook ne sont pas inclus.
    • Archive HTML: exportez une archive zip des fichiers html. Le fichier HTML de chaque bloc-notes peut être importé dans un espace de travail Azure Databricks ou affiché au format HTML. Les résultats de la commande Notebook sont inclus.

Notebooks et clusters

Avant de pouvoir effectuer des tâches dans un bloc-notes, vous devez d’abord attacher le bloc-notes à un cluster. Cette section décrit comment attacher et détacher des blocs-notes vers et à partir de clusters, et ce qui se passe en arrière-plan quand vous effectuez ces actions.

Dans cette section :

Contextes d’exécution

Lorsque vous attachez un bloc-notes à un cluster, Azure Databricks crée un contexte d’exécution. Un contexte d’exécution contient l’état d’un environnement REPL pour chaque langage de programmation pris en charge : Python, R, Scala et SQL. Lorsque vous exécutez une cellule dans un bloc-notes, la commande est distribuée à l’environnement de réplication de langage approprié et exécutée.

Vous pouvez également utiliser l' API REST 1,2 pour créer un contexte d’exécution et envoyer une commande à exécuter dans le contexte d’exécution. De même, la commande est distribuée à l’environnement de réplication de langage et exécutée.

Un cluster a un nombre maximal de contextes d’exécution (145). Une fois que le nombre de contextes d’exécution a atteint ce seuil, vous ne pouvez pas attacher un Notebook au cluster ou créer un nouveau contexte d’exécution.

Contextes d’exécution inactifs

Un contexte d’exécution est considéré comme inactif lorsque la dernière exécution s’est terminée après un seuil d’inactivité défini. Dernière exécution terminée est la dernière fois que le bloc-notes a terminé l’exécution des commandes. Le seuil d’inactivité correspond à la durée qui doit s’écouler entre la dernière exécution terminée et toute tentative de détachement automatique du bloc-notes. Le seuil d’inactivité par défaut est de 24 heures.

Lorsqu’un cluster a atteint la limite de contexte maximale, Azure Databricks supprime (supprime) les contextes d’exécution inactifs (en commençant par le le moins récemment utilisé) en fonction des besoins. Même en cas de suppression d’un contexte, le bloc-notes utilisant le contexte est toujours attaché au cluster et s’affiche dans la liste des Notebooks du cluster. Les blocs-notes de streaming sont considérés comme s’exécutant activement et leur contexte n’est jamais expulsé tant que leur exécution n’a pas été arrêtée. Si un contexte inactif est supprimé, l’interface utilisateur affiche un message indiquant que le bloc-notes utilisant le contexte a été détaché en raison d’une inactivité.

Notebook context evicted

Si vous tentez d’attacher un bloc-notes à un cluster qui a le nombre maximal de contextes d’exécution et qu’il n’y a pas de contextes inactifs (ou si la suppression automatique est désactivée), l’interface utilisateur affiche un message indiquant que le seuil de contextes d’exécution maximal actuel a été atteint et que le bloc-notes reste à l'

Notebook detached

Si vous EMBRANCHEZ un processus, un contexte d’exécution inactif est toujours considéré comme inactif une fois que l’exécution de la requête qui a dupliqué le processus a été retournée. La duplication de processus distincts n’est pas recommandée avec Spark.

Configurer l’éviction automatique du contexte

L’éviction automatique est activée par défaut. Pour désactiver l’éviction automatique pour un cluster, définissez la propriété Spark .

Attacher un bloc-notes à un cluster

Pour attacher un bloc-notes à un cluster, vous devez disposer de l’autorisation attacher au niveau du cluster.

Important

Tant qu’un bloc-notes est attaché à un cluster, tout utilisateur disposant de l' autorisation d’exécution sur le Notebook dispose des autorisations implicites pour accéder au cluster.

Pour attacher un bloc-notes à un cluster :

  1. Dans la barre d’outils du bloc-notes, cliquez sur Notebook Cluster IcondétachéCluster Dropdown .
  2. Dans la liste déroulante, sélectionnez un cluster.

Important

Les variables de Apache Spark suivantes sont définies pour un bloc-notes attaché.

Classe Nom de la variable :
SparkContext sc
SQLContext/HiveContext sqlContext
SparkSession (Spark 2. x) spark

Ne créez pas un SparkSession , SparkContext ou SQLContext . Cela entraînera un comportement incohérent.

Déterminer la version Spark et Databricks Runtime

Pour déterminer la version Spark du cluster auquel votre Notebook est attaché, exécutez :

spark.version

Pour déterminer la version Databricks Runtime du cluster auquel votre bloc-notes est attaché, exécutez :

Scala
dbutils.notebook.getContext.tags("sparkVersion")
Python
spark.conf.get("spark.databricks.clusterUsageTags.sparkVersion")

Notes

Cette sparkVersion balise et la spark_version propriété requises par les points de terminaison dans l' sparkVersion et les spark_version font référence à la version de Databricks Runtime, et non à la version Spark.

Détacher un bloc-notes d’un cluster

  1. Dans la barre d’outils du bloc-notes, cliquez sur Notebook Cluster Iconattaché Cluster Dropdown .

  2. Sélectionnez Détacher.

    Detach notebook

Vous pouvez également détacher des blocs-notes d’un cluster à l’aide de l’onglet blocs-notes de la page Détails du cluster.

Lorsque vous détachez un bloc-notes d’un cluster, le contexte d’exécution est supprimé et toutes les valeurs des variables calculées sont effacées du bloc-notes.

Conseil

Azure Databricks vous recommande de détacher des blocs-notes inutilisés d’un cluster. Cela libère de l’espace mémoire sur le pilote.

Afficher tous les blocs-notes attachés à un cluster

L’onglet blocs-notes de la page Détails du cluster affiche tous les blocs-notes attachés à un cluster. L’onglet affiche également l’état de chaque bloc-notes attaché, ainsi que la dernière fois qu’une commande a été exécutée à partir du bloc-notes.

Cluster details attached notebooks

Planifier un bloc-notes

Pour planifier l’exécution périodique d’un travail de bloc-notes :

  1. Dans le bloc-notes, cliquez Notebook schedule button en haut à droite. Si aucun travail n’existe pour ce bloc-notes, la boîte de dialogue calendrier s’affiche.

    Schedule notebook dialog

    Si des travaux existent déjà pour le bloc-notes, la boîte de dialogue Liste des travaux s’affiche. Pour afficher la boîte de dialogue calendrier, cliquez sur Ajouter une planification.

    Job list dialog

  2. Dans la boîte de dialogue calendrier, entrez éventuellement un nom pour le travail. Le nom par défaut est le nom du bloc-notes.

  3. Sélectionnez Manuel pour exécuter votre tâche uniquement quand elle est déclenchée manuellement, ou planifiée pour définir une planification pour l’exécution du travail. Si vous sélectionnez planifié, utilisez les listes déroulantes pour spécifier la fréquence, l’heure et le fuseau horaire.

  4. Dans la liste déroulante cluster , sélectionnez le cluster sur lequel exécuter la tâche.

    Si vous avez les autorisations autoriser la création du cluster , le travail s’exécute par défaut sur un nouveau cluster de travail. Pour modifier la configuration du cluster de travail par défaut, cliquez sur modifier à droite du champ pour afficher la boîte de dialogue Configuration du cluster.

    Si vous n’avez pas les autorisations autoriser la création du cluster , le travail est exécuté par défaut sur le cluster auquel le bloc-notes est attaché. Si le bloc-notes n’est pas attaché à un cluster, vous devez sélectionner un cluster dans la liste déroulante cluster .

  5. Si vous le souhaitez, entrez les paramètres à passer au travail. Cliquez sur Ajouter et spécifiez la clé et la valeur de chaque paramètre. Les paramètres définissent la valeur du widget du bloc-notes spécifié par la clé du paramètre. Utilisez des variables de paramètre de tâche pour passer un ensemble limité de valeurs dynamiques dans le cadre d’une valeur de paramètre.

  6. Si vous le souhaitez, spécifiez les adresses de messagerie pour recevoir des alertes par courrier électronique sur les événements de travail. Consultez alertes.

  7. Cliquez sur Envoyer.

Gérer les travaux de bloc-notes planifiés

Pour afficher les travaux associés à ce bloc-notes, cliquez sur le bouton calendrier . La boîte de dialogue Liste des travaux s’affiche, affichant tous les travaux actuellement définis pour ce bloc-notes. Pour gérer les travaux, cliquez sur Jobs Vertical Ellipsis à droite d’un travail dans la liste.

Job list menu

Dans ce menu, vous pouvez modifier, cloner, afficher, suspendre, reprendre ou supprimer une tâche planifiée.

Lorsque vous clonez une tâche planifiée, une nouvelle tâche est créée avec les mêmes paramètres que l’original. Le nouveau travail s’affiche dans la liste avec le nom « clone of ».

La façon dont vous modifiez un travail dépend de la complexité de la planification du travail. La boîte de dialogue calendrier ou le volet Détails du travail s’affiche, ce qui vous permet de modifier la planification, le cluster, les paramètres, etc.

Distribuer des blocs-notes

Pour vous permettre de distribuer facilement des blocs-notesAzure Databricks, Azure Databricks prend en charge l' Archive Databricks, qui est un package qui peut contenir un dossier de bloc-notes ou un seul bloc-notes. Une archive Databricks est un fichier JAR contenant des métadonnées supplémentaires et portant l’extension .dbc . Les blocs-notes contenus dans l’archive sont dans un format interne Azure Databricks.

Importer une archive

  1. Cliquez Down Caret ou Menu Dropdown à droite d’un dossier ou d’un bloc-notes, puis sélectionnez Importer.
  2. Choisissez fichier ou URL.
  3. Accédez à ou déposez une archive Databricks dans le Dropzone.
  4. Cliquez sur Importer. L’archive est importée dans Azure Databricks. Si l’archive contient un dossier, Azure Databricks recrée ce dossier.

Exporter une archive

Cliquez Down Caret ou Menu Dropdown à droite d’un dossier ou d’un bloc-notes, puis sélectionnez exporter l' Down Caret Archive DBC. Azure Databricks télécharge un fichier nommé <[folder|notebook]-name>.dbc .