Verwalten von Notebooks

Sie können Notebooks über die Benutzeroberfläche, die CLI und durch Aufrufen der Arbeitsbereichs-API verwalten. Dieser Artikel konzentriert sich auf das Ausführen von Notebookaufgaben über die Benutzeroberfläche. Informationen zu den anderen Methoden finden Sie unter Databricks CLI und Arbeitsbereichs-API 2.0.

Erstellen eines Notebooks

Verwenden der Schaltfläche „Erstellen“

Die einfachste Möglichkeit zum Erstellen eines neuen Notebooks in Ihrem Standardordner ist die Verwendung der Schaltfläche Erstellen:

  1. Klicken Create IconSie in der Randleiste auf Erstellen, und wählen Sie im Menü Notebook aus. Das Dialogfeld Notebook erstellen wird angezeigt.
  2. Geben Sie einen Namen ein, und wählen Sie die Standardsprache des Notebooks aus.
  3. Wenn Cluster ausgeführt werden, wird die Dropdownliste Cluster angezeigt. Wählen Sie den Cluster aus, an den Sie das Notebook anfügen möchten.
  4. Klicken Sie auf Erstellen.

Erstellen eines Notebooks in einem beliebigen Ordner

Sie können ein neues Notebook in einem beliebigen Ordner (z. B. im Ordner Freigegeben) erstellen. Führen Sie dazu die folgenden Schritte aus:

  1. Klicken Sie in der Randleiste auf Workspace IconArbeitsbereich. Führen Sie eines der folgenden Verfahren aus:
    • Klicken Sie neben einem beliebigen Ordner auf der rechten Seite des Texts auf , und Menu Dropdown wählen Sie Notebook erstellen Menu Dropdown aus.

      Create notebook

    • Klicken Sie im Arbeitsbereich oder in einem Benutzerordner auf , Down Caret und wählen Sie Notebook erstellen Down Caret aus.

  2. Führen Sie die Schritte 2 bis 4 unter Verwenden der Schaltfläche Erstellen aus.

Öffnen eines Notebooks

Klicken Sie in Ihrem Arbeitsbereich auf Notebook Icon eine . Der Notebookpfad wird angezeigt, wenn Sie auf den Notebooktitel zeigen.

Löschen eines Notebooks

Informationen zum Zugreifen auf das Arbeitsbereichsmenü und zum Löschen von Notebooks oder anderen Elementen im Arbeitsbereich finden Sie unter Ordner und Arbeitsbereichsobjektvorgänge.

Kopieren des Notebookpfads

Um einen Notebook-Dateipfad zu kopieren, ohne das Notebook zu öffnen, klicken Sie mit der rechten Maustaste auf den Namen des Notebooks, oder klicken Sie rechts vom Notebooknamen auf , und wählen Menu Dropdown Sie Dateipfad kopieren aus.

Copy notebook path

Umbenennen eines Notebooks

Um den Titel eines geöffneten Notebooks zu ändern, klicken Sie auf den Titel, und bearbeiten Sie inline, oder klicken Sie auf Datei umbenennen.

Steuern des Zugriffs auf ein Notebook

Wenn Ihr Azure Databricks-Konto über den Azure Databricks Premium Planverfügt, können Sie die Zugriffssteuerung des Arbeitsbereichs verwenden, um zu steuern, wer Zugriff auf ein Notebook hat.

Externe Notebookformate

Azure Databricks unterstützt mehrere externe Notebookformate:

  • Quelldatei: Eine Datei, die nur Quellcode-Anweisungen mit der Erweiterung .scala.py , , oder .sql.r enthält.
  • HTML: Ein Azure Databricks Notebook mit der Erweiterung .html .
  • DBC-Archiv: Ein Databricks-Archiv.
  • IPython Notebook: Ein Jupyter Notebook mit der Erweiterung .
  • RMarkdown: Ein R Markdown mit der Erweiterung .

In diesem Abschnitt

Importieren eines Notebooks

Sie können ein externes Notebook aus einer URL oder datei importieren. Sie können auch ein ZIP-Archiv von Notebooks importieren, die in einem Massenvorgang aus einem Azure Databricks werden.

  1. Klicken Workspace IconSie in der Randleiste auf Arbeitsbereich. Führen Sie eines der folgenden Verfahren aus:

    • Klicken Sie neben einem beliebigen Ordner auf der rechten Seite des Texts auf , und Menu Dropdown wählen Sie Importieren aus.

    • Klicken Sie im Arbeitsbereich oder in einem Benutzerordner auf , Down Caret und wählen Sie Importieren aus.

      Import notebook

  2. Geben Sie die URL an, oder navigieren Sie zu einer Datei, die ein unterstütztes externes Format oder ein ZIP-Archiv von Notebooks enthält, die aus einem Azure Databricks werden.

  3. Klicken Sie auf Importieren.

    • Wenn Sie ein einzelnes Notebook auswählen, wird es in den aktuellen Ordner exportiert.
    • Wenn Sie ein DBC- oder ZIP-Archiv auswählen, wird die Ordnerstruktur im aktuellen Ordner neu erstellt, und jedes Notebook wird importiert.

Exportieren eines Notebooks

Wählen Sie auf der Symbolleiste des Notebooks Dateiexport und das Format aus.

Hinweis

Wenn Sie ein Notebook als HTML, IPython Notebook oder Archiv (DBC) exportieren und die Ergebnisse nicht löschen, werden die Ergebnisse der Ausführung des Notebooks eingeschlossen.

Exportieren aller Notebooks in einem Ordner

Hinweis

Wenn Sie ein Notebook als HTML, IPython Notebook oder Archiv (DBC) exportieren und die Ergebnisse nicht löschen, werden die Ergebnisse der Ausführung des Notebooks eingeschlossen.

So exportieren Sie alle Ordner in einem Arbeitsbereichsordner als ZIP-Archiv:

  1. Klicken Workspace IconSie in der Randleiste auf Arbeitsbereich. Führen Sie eines der folgenden Verfahren aus:
    • Klicken Sie neben einem beliebigen Ordner auf der rechten Seite des Texts auf , und Menu Dropdown wählen Sie Exportieren aus.
    • Klicken Sie im Arbeitsbereich oder in einem Benutzerordner auf , Down Caret und wählen Sie Exportieren aus.
  2. Wählen Sie das Exportformat aus:
    • DBC Archive: Exportieren Sie ein Databricks-Archiv, ein Binärformat, das Metadaten und Notebookbefehlsergebnisse enthält.
    • Quelldatei:Exportieren Sie ein ZIP-Archiv von Notebook-Quelldateien, das in einen Azure Databricks-Arbeitsbereich importiert, in einer CI/CD-Pipeline verwendet oder als Quelldateien in der Standardsprache jedes Notebooks angezeigt werden kann. Notebook-Befehlsergebnisse sind nicht enthalten.
    • HTML-Archiv:Exportieren Sie ein ZIP-Archiv von HTML-Dateien. Die HTML-Datei jedes Notebooks kann in einen Azure Databricks arbeitsbereich importiert oder als HTML angezeigt werden. Notebook-Befehlsergebnisse sind enthalten.

Notebooks und Cluster

Bevor Sie in einem Notebook arbeiten können, müssen Sie das Notebook zunächst an einen Cluster anfügen. In diesem Abschnitt wird beschrieben, wie Notebooks an Cluster angefügt und von clustern getrennt werden und was im Hintergrund geschieht, wenn Sie diese Aktionen ausführen.

In diesem Abschnitt

Ausführungskontexte

Wenn Sie ein Notebook an einen Cluster anfügen, erstellt Azure Databricks einen Ausführungskontext. Ein Ausführungskontext enthält den Zustand für eine REPL-Umgebung für jede unterstützte Programmiersprache: Python, R, Scala und SQL. Wenn Sie eine Zelle in einem Notebook ausführen, wird der Befehl an die entsprechende Sprach-REPL-Umgebung versendet und ausgeführt.

Sie können auch die REST 1.2-API verwenden, um einen Ausführungskontext zu erstellen und einen Befehl zur Ausführung im Ausführungskontext zu senden. Auf ähnliche Weise wird der Befehl an die REPL-Sprachumgebung versendet und ausgeführt.

Ein Cluster verfügt über eine maximale Anzahl von Ausführungskontexten (145). Sobald die Anzahl der Ausführungskontexte diesen Schwellenwert erreicht hat, können Sie kein Notebook an den Cluster anfügen oder einen neuen Ausführungskontext erstellen.

Leerlaufausführungskontexte

Ein Ausführungskontext wird als leer betrachtet, wenn die letzte abgeschlossene Ausführung über einen festgelegten Leerlaufschwellenwert liegt. Die letzte abgeschlossene Ausführung ist der Letzte, zu dem das Notebook die Ausführung von Befehlen abgeschlossen hat. Der Leerlaufschwellenwert ist die Zeit, die zwischen der letzten abgeschlossenen Ausführung und jedem Versuch, das Notebook automatisch zu trennen, verläuft. Der Standardmäßige Leerlaufschwellenwert beträgt 24 Stunden.

Wenn ein Cluster die maximale Kontextgrenze erreicht hat, entfernt Azure Databricks Leerlaufausführungskontexte (beginnend mit der zuletzt verwendeten) nach Bedarf. Auch wenn ein Kontext entfernt wird, wird das Notebook, das den Kontext verwendet, weiterhin an den Cluster angefügt und in der Notebookliste des Clusters angezeigt. Streaming-Notebooks gelten als aktiv ausgeführt, und ihr Kontext wird erst dann wieder beendet, wenn die Ausführung beendet wurde. Wenn ein Leerlaufkontext getrennt wird, zeigt die Benutzeroberfläche eine Meldung an, die angibt, dass das Notebook, das den Kontext verwendet, aufgrund des Leerlaufs getrennt wurde.

Notebook context evicted

Wenn Sie versuchen, ein Notebook an den Cluster anfügen, das über die maximale Anzahl von Ausführungskontexten verfügt und keine Kontexte im Leerlauf sind (oder wenn die automatische Trennung deaktiviert ist), zeigt die Benutzeroberfläche eine Meldung an, dass der aktuelle Schwellenwert für maximale Ausführungskontexte erreicht wurde und das Notebook im getrennten Zustand verbleibt.

Notebook detached

Wenn Sie einen Prozess verzweigen, wird ein Leerlaufausführungskontext weiterhin als leer betrachtet, sobald die Ausführung der Anforderung, die den Prozess gezweigt hat, zurückgegeben wird. Das Forking separater Prozesse wird mit Spark nicht empfohlen.

Konfigurieren der automatischen Kontextablage

Die automatische Eviction ist standardmäßig aktiviert. Um die automatische Eviction für einen Cluster zu deaktivieren, legen Sie die Spark-Eigenschaft fest.

Anfügen eines Notebooks an einen Cluster

Um ein Notebook an einen Cluster anzufügen, benötigen Sie die Berechtigung An Clusterebene anfügen.

Wichtig

Solange ein Notebook an einen Cluster angefügt ist, verfügt jeder Benutzer mit der Berechtigung Kann ausgeführt für das Notebook über die implizite Berechtigung für den Zugriff auf den Cluster.

So fügen Sie ein Notebook an einen Cluster an:

  1. Klicken Sie auf der Notebook-Symbolleiste auf Notebook Cluster IconGetrennt.Cluster Dropdown
  2. Wählen Sie in der Dropdown-Dropdown-Option einen Clusteraus.

Wichtig

Für ein angefügtes Notebook sind die folgenden Apache Spark Variablen definiert.

Klasse Variablenname
SparkContext sc
SQLContext/HiveContext sqlContext
SparkSession (Spark 2.x) spark

Erstellen Sie keine SparkSession , SparkContext oder SQLContext . Dies führt zu inkonsistentem Verhalten.

Bestimmen der Spark- und Databricks Runtime-Version

Führen Sie Folgendes aus, um die Spark-Version des Clusters zu ermitteln, an den Ihr Notebook angefügt ist:

spark.version

Führen Sie Folgendes aus, um die Databricks Runtime Version des Clusters zu ermitteln, an den Ihr Notebook angefügt ist:

Scala
dbutils.notebook.getContext.tags("sparkVersion")
Python
spark.conf.get("spark.databricks.clusterUsageTags.sparkVersion")

Hinweis

Sowohl dieses Tag als auch sparkVersion die spark_version Eigenschaft, die von den Endpunkten in der sparkVersion und spark_version benötigt wird, beziehen sich auf die Databricks Runtime Versionund nicht auf die Spark-Version.

Trennen eines Notebooks von einem Cluster

  1. Klicken Sie auf der Notebook-Symbolleiste auf Notebook Cluster IconAngefügt. Cluster Dropdown

  2. Wählen Sie die Option Trennen aus.

    Detach notebook

Sie können Notebooks auch über die Registerkarte Notebooks auf der Seite mit den Clusterdetails von einem Cluster trennen.

Wenn Sie ein Notebook von einem Cluster trennen, wird der Ausführungskontext entfernt, und alle berechneten Variablenwerte werden aus dem Notebook gelöscht.

Tipp

Azure Databricks empfiehlt, nicht verwendete Notebooks von einem Cluster zu trennen. Dadurch wird Speicherplatz auf dem Treiber freigegeben.

Alle anzeigen an einen Cluster angefügten Notebooks

Auf der Registerkarte Notebooks auf der Seite mit den Clusterdetails werden alle Notebooks angezeigt, die an einen Cluster angefügt sind. Auf der Registerkarte wird auch der Status jedes angefügten Notebooks sowie der Zeitpunkt der letzten Ausführung eines Befehls über das Notebook angezeigt.

Cluster details attached notebooks

Planen eines Notebooks

So planen Sie die regelmäßige Ausführung eines Notebookauftrags:

  1. Klicken Sie im Notebook Notebook schedule button oben rechts. Wenn für dieses Notebook keine Aufträge vorhanden sind, wird das Dialogfeld Zeitplan angezeigt.

    Schedule notebook dialog

    Wenn bereits Aufträge für das Notebook vorhanden sind, wird das Dialogfeld Aufträgeliste angezeigt. Klicken Sie auf Zeitplan hinzufügen,um das Dialogfeld Zeitplan anzuzeigen.

    Job list dialog

  2. Geben Sie im Dialogfeld Zeitplan optional einen Namen für den Auftrag ein. Der Standardname ist der Name des Notebooks.

  3. Wählen Sie Manuell aus, um Ihren Auftrag nur auszuführen, wenn er manuell ausgelöst wird, oder Auf Geplant, um einen Zeitplan für die Ausführung des Auftrags zu definieren. Wenn Sie Geplantauswählen, verwenden Sie die Dropdown-Dropdowns, um Häufigkeit, Uhrzeit und Zeitzone anzugeben.

  4. Wählen Sie in der Dropdowngruppe Cluster den Cluster aus, um die Aufgabe auszuführen.

    Wenn Sie über die Berechtigung Clustererstellung zulassen verfügen, wird der Auftrag standardmäßig auf einem neuen Auftragsclusterausgeführt. Um die Konfiguration des Standardauftragsclusters zu bearbeiten, klicken Sie rechts neben dem Feld auf Bearbeiten, um das Clusterkonfigurationsdialogfeldanzuzeigen.

    Wenn Sie nicht über die Berechtigung Clustererstellung zulassen verfügen, wird der Auftrag standardmäßig auf dem Cluster ausgeführt, an den das Notebook angefügt ist. Wenn das Notebook nicht an einen Cluster angefügt ist, müssen Sie in der Dropdown-Dropdowngruppe Cluster einen Cluster auswählen.

  5. Geben Sie optional parameter ein, die an den Auftrag übergeben werden sollen. Klicken Sie auf Hinzufügen, und geben Sie den Schlüssel und wert jedes Parameters an. Parameter legen den Wert des Notebookwidgets fest, das durch den Schlüssel des Parameters angegeben wird. Verwenden Sie Taskparametervariablen, um einen begrenzten Satz dynamischer Werte als Teil eines Parameterwerts zu übergeben.

  6. Geben Sie optional E-Mail-Adressen an, um E-Mail-Benachrichtigungen zu Auftragsereignissen zu erhalten. Weitere Informationen finden Sie unter Warnungen.

  7. Klicken Sie auf Submit(Senden).

Verwalten geplanter Notebookaufträge

Klicken Sie auf die Schaltfläche Zeitplan, um aufträge anzuzeigen, die diesem Notebook zugeordnet sind. Das Dialogfeld mit der Liste der Aufträge wird angezeigt, in dem alle derzeit für dieses Notebook definierten Aufträge angezeigt werden. Klicken Sie zum Verwalten von Aufträgen Jobs Vertical Ellipsis rechts neben einem Auftrag in der Liste.

Job list menu

Über dieses Menü können Sie einen geplanten Auftrag bearbeiten, klonen, anzeigen, anhalten, fortsetzen oder löschen.

Wenn Sie einen geplanten Auftrag klonen, wird ein neuer Auftrag mit den gleichen Parametern wie der ursprüngliche Auftrag erstellt. Der neue Auftrag wird in der Liste mit dem Namen "Clone of " (Klonen von ) angezeigt.

Wie Sie einen Auftrag bearbeiten, hängt von der Komplexität des Auftragszeitplans ab. Entweder wird das Dialogfeld Zeitplan oder der Bereich Auftragsdetails angezeigt, in dem Sie den Zeitplan, den Cluster, die Parameter usw. bearbeiten können.

Verteilen von Notebooks

Damit Sie Azure Databricks Notebookseinfach verteilen können, unterstützt Azure Databricks das Databricks-Archiv.Dabei handelt es sich um ein Paket, das einen Ordner mit Notebooks oder ein einzelnes Notebook enthalten kann. Ein Databricks-Archiv ist eine JAR-Datei mit zusätzlichen Metadaten und hat die Erweiterung .dbc . Die im Archiv enthaltenen Notebooks haben ein Azure Databricks internes Format.

Importieren eines Archivs

  1. Klicken Sie Down Caret auf oder rechts neben einem Ordner oder Menu Dropdown Notebook, und wählen Sie Importierenaus.
  2. Wählen Sie Datei oder URLaus.
  3. Wechseln Sie zu einem Databricks-Archiv in der Dropdownzone, oder löschen Sie es.
  4. Klicken Sie auf Importieren. Das Archiv wird in Azure Databricks importiert. Wenn das Archiv einen Ordner enthält, erstellt Azure Databricks diesen Ordner neu.

Exportieren eines Archivs

Klicken Sie Down Caret auf oder rechts neben einem Ordner oder Menu Dropdown Notebook, und wählen Sie Down Caret DBC-Archiv exportierenaus. Azure Databricks lädt eine Datei mit dem Namen <[folder|notebook]-name>.dbc herunter.