Notebooks beheren

U kunt notebooks beheren met behulp van de gebruikersinterface, de CLI en door de Werkruimte-API aan teroepen. Dit artikel is gericht op het uitvoeren van notebooktaken met behulp van de gebruikersinterface. Zie Databricks CLI en Werkruimte-APIvoor de andere methoden.

Een notebook maken

De knop Maken gebruiken

De eenvoudigste manier om een nieuw notebook in uw standaardmap te maken, is door de knop Maken te gebruiken:

  1. Klik  op Pictogram maken Maken in de zijbalk en selecteer Notebook in het menu. Het dialoogvenster Notitieblok maken wordt weergegeven.
  2. Voer een naam in en selecteer de standaardtaal van het notebook.
  3. Als er clusters worden uitgevoerd, wordt de vervolgkeuzerij Cluster weergegeven. Selecteer het cluster waar u het notebook aan wilt koppelen.
  4. Klik op Create.

Een notebook in een map maken

U kunt een nieuw notebook maken in elke map (bijvoorbeeld in de map Gedeeld) door de volgende stappen uit te voeren:

  1. Klik in de zijbalk op  Werkruimtepictogram Werkruimte. Voer een van de volgende handelingen uit:
    • Klik naast een map op de vervolgkeuzelijst Menu aan de rechterkant van de tekst en selecteer  Maken > Notebook.

      Notebook maken

    • Klik in de werkruimte of een gebruikersmap op Down Caret en  selecteer Create > Notebook.

  2. Volg stap 2 tot en met 4 in De knop Maken gebruiken.

Een notitieblok openen

Klik in uw werkruimte op een Notebookpictogram. Het notebookpad wordt weergegeven wanneer u de muisaanwijzer over de notebooktitel beweegt.

Een notebook verwijderen

Zie Bewerkingen voor mappen en werkruimteobjecten voor informatie over het openen van het werkruimtemenu en het verwijderen van notebooks of andere items in de werkruimte.

Pad van notebook kopiëren

Als u een pad naar een notebookbestand wilt kopiëren zonder het notebook te openen, klikt u met de rechtermuisknop op de notebooknaam of klikt u op de vervolgkeuzelijst Menu rechts van de notebooknaam en selecteert u  Bestandspad kopiëren.

Pad van notebook kopiëren

De naam van een notebook wijzigen

Als u de titel van een geopend notebook wilt wijzigen, klikt u op de titel en bewerkt u inline of klikt u op Bestand > Naam wijzigen.

Toegang tot een notebook beheren

Als uw Azure Databricks-account het abonnement Azure Databricks Premiumheeft, kunt u toegangsbeheer voor werkruimten gebruiken om te bepalen wie toegang heeft tot een notebook.

Externe indelingen van notebooks

Azure Databricks ondersteunt verschillende externe notebookindelingen:

  • Bronbestand: een bestand met alleen broncode-instructies met de extensie .scala .py , , of .sql .r .
  • HTML: Een Azure Databricks notebook met de extensie .html .
  • DBC-archief: een Databricks-archief.
  • IPython-notebook: een Jupyter-notebook met de extensie .ipynb .
  • RMarkdown: een R Markdown-document met de extensie .Rmd .

In deze sectie:

Een notebook importeren

U kunt een externe notebook importeren vanuit een URL of een bestand. U kunt ook een ZIP-archief importeren met notebooks die bulksgewijs zijn geëxporteerd uit Azure Databricks werkruimte.

  1. Klik  op WerkruimtepictogramWerkruimte in de zijbalk. Voer een van de volgende handelingen uit:

    • Klik naast een map op de  vervolgkeuzelijst Menu aan de rechterkant van de tekst en selecteer Importeren.

    • Klik in de werkruimte of een gebruikersmap op  Down Caret en selecteer Importeren.

      Notebook importeren

  2. Geef de URL op of blader naar een bestand met een ondersteunde externe indeling of een ZIP-archief met notebooks die zijn geëxporteerd uit Azure Databricks werkruimte.

  3. Klik op Import.

    • Als u één notebook kiest, wordt dit geëxporteerd in de huidige map.
    • Als u een DBC- of ZIP-archief kiest, wordt de mapstructuur opnieuw gemaakt in de huidige map en wordt elk notebook geïmporteerd.

Een notebook exporteren

Selecteer in de notebookwerkbalk Bestandsbestand > Exporteren en een indeling.

Notitie

Wanneer u een notebook exporteert als HTML, IPython-notebook of archief (DBC) en u de resultaten niet hebt gew cleared, worden de resultaten van het uitvoeren van het notebook opgenomen.

Alle notebooks in een map exporteren

Notitie

Wanneer u een notebook exporteert als HTML, IPython-notebook of archief (DBC) en u de resultaten niet hebt gew cleared, worden de resultaten van het uitvoeren van het notebook opgenomen.

Alle mappen in een werkruimtemap exporteren als een ZIP-archief:

  1. Klik  op WerkruimtepictogramWerkruimte in de zijbalk. Voer een van de volgende handelingen uit:
    • Klik naast een map op de  vervolgkeuzelijst Menu aan de rechterkant van de tekst en selecteer Exporteren.
    • Klik in de werkruimte of een gebruikersmap op  Down Caret en selecteer Exporteren.
  2. Selecteer de exportindeling:
    • DBC-archief: exporteert een Databricks-archief, een binaire indeling die metagegevens en notebookopdrachtresultaten bevat.
    • Bronbestand: exporteert een ZIP-archief met notebookbronbestanden die kunnen worden geïmporteerd in een Azure Databricks-werkruimte, worden gebruikt in een CI/CD-pijplijn of worden weergegeven als bronbestanden in de standaardtaal van elk notebook. Notebook-opdrachtresultaten zijn niet opgenomen.
    • HTML-archief: exporteert een ZIP-archief met HTML-bestanden. Het HTML-bestand van elk notebook kan worden geïmporteerd in Azure Databricks werkruimte of worden bekeken als HTML. De resultaten van de notebook-opdracht zijn opgenomen.

Notebooks en clusters

Voordat u aan een notebook kunt werken, moet u eerst het notebook aan een cluster koppelen. In deze sectie wordt beschreven hoe u notebooks koppelt aan en van clusters en wat er achter de schermen gebeurt wanneer u deze acties uit te voeren.

In deze sectie:

Uitvoeringscontexten

Wanneer u een notebook aan een cluster koppelt, Azure Databricks een uitvoeringscontext. Een uitvoeringscontext bevat de status voor een REPL-omgeving voor elke ondersteunde programmeertaal: Python, R, Scala en SQL. Wanneer u een cel in een notebook uitvoeren, wordt de opdracht verzonden naar de juiste taal REPL-omgeving en uitgevoerd.

U kunt ook de REST 1.2 API gebruiken om een uitvoeringscontext te maken en een opdracht te verzenden die moet worden uitgevoerd in de uitvoeringscontext. Op dezelfde manier wordt de opdracht verzonden naar de REPL-taalomgeving en uitgevoerd.

Een cluster heeft een maximum aantal uitvoeringscontexten (145). Zodra het aantal uitvoeringscontexten deze drempelwaarde heeft bereikt, kunt u geen notebook aan het cluster koppelen of een nieuwe uitvoeringscontext maken.

Contexten voor niet-actieve uitvoering

Een uitvoeringscontext wordt als inactief beschouwd wanneer de laatste voltooide uitvoering een bepaalde drempelwaarde voor inactieve uitvoering heeft overschreden. De laatste voltooide uitvoering is de laatste keer dat het notebook de uitvoering van opdrachten heeft voltooid. De niet-actieve drempelwaarde is de hoeveelheid tijd die moet worden gebruikt tussen de laatste voltooide uitvoering en een poging om het notebook automatisch los te maken. De standaardwaarde voor inactieve is 24 uur.

Wanneer een cluster de maximale contextlimiet heeft bereikt, verwijdert Azure Databricks waar nodig inactieve uitvoeringscontexten (te beginnen met de minst recent gebruikte) (onbesteld). Zelfs wanneer een context wordt verwijderd, is het notebook dat de context gebruikt nog steeds gekoppeld aan het cluster en wordt het weergegeven in de notebooklijst van het cluster. Streaming-notebooks worden beschouwd als actief actief en hun context wordt nooit verwijderd totdat de uitvoering ervan is gestopt. Als een niet-actieve context wordt onbelast, wordt in de gebruikersinterface een bericht weergegeven waarin wordt aangegeven dat het notebook dat de context gebruikt, is losgekoppeld omdat deze niet actief is.

Notebookcontext is eruit gehaald

Als u een notebook probeert te koppelen aan een cluster met een maximum aantal uitvoeringscontexten en er geen niet-actieve contexten zijn (of als automatische uitzetting is uitgeschakeld), wordt in de gebruikersinterface een bericht weergegeven met de melding dat de huidige drempelwaarde voor de maximale uitvoeringscontext is bereikt en dat het notebook de losgekoppelde status blijft.

Notebook losgekoppeld

Als u een proces verteert, wordt een niet-actieve uitvoeringscontext nog steeds als inactief beschouwd zodra de uitvoering van de aanvraag die het proces heeft gevorkt, wordt teruggevorkt. Het forken van afzonderlijke processen wordt niet aanbevolen met Spark.

Automatische uitzetting van context configureren

Automatische uitzetting is standaard ingeschakeld. Als u automatische uitzetting voor een cluster wilt uitschakelen, stelt u de Spark-eigenschap spark.databricks.chauffeur.enableIdleContextTracking false in.

Een notebook koppelen aan een cluster

Als u een notebook aan een cluster wilt koppelen, hebt u de machtiging Kan koppelen aan clusterniveau nodig.

Belangrijk

Zolang een notebook is gekoppeld aan een cluster, heeft elke gebruiker met de machtiging Kan uitvoeren voor het notebook impliciete machtigingen voor toegang tot het cluster.

Een notebook aan een cluster koppelen:

  1. Klik in de notebookwerkbalk op  NotebookClusterpictogram Ontkoppeld  cluster vervolgkeuzevenster .
  2. Selecteer een cluster in de vervolgkeuzeop.

Belangrijk

In een gekoppeld notebook zijn de volgende Apache Spark gedefinieerd.

Klas Naam variabele
SparkContext sc
SQLContext/HiveContext sqlContext
SparkSession (Spark 2.x) spark

Maak geen SparkSession , SparkContext of SQLContext . Dit leidt tot inconsistent gedrag.

Spark- en Databricks Runtime bepalen

Voer het volgende uit om te bepalen aan welke Spark-versie van het cluster uw notebook is gekoppeld:

spark.version

Voer de volgende Databricks Runtime om te bepalen aan welke versie van het cluster uw notebook is gekoppeld:

Scala
dbutils.notebook.getContext.tags("sparkVersion")
Python
spark.conf.get("spark.databricks.clusterUsageTags.sparkVersion")

Notitie

Zowel deze tag als de eigenschap die vereist is voor de eindpunten in de Clusters-API en taken-API verwijzen naar de sparkVersion Databricks Runtime versie , niet de spark_version Spark-versie.

Een notebook loskoppelen van een cluster

  1. Klik in de notebookwerkbalk op Pictogram notebookcluster   vervolgkeuzepagina Cluster.

  2. Selecteer Loskoppelen.

    Notebook loskoppelen

U kunt notebooks ook loskoppelen van een cluster met behulp van het tabblad Notebooks op de pagina met clusterdetails.

Wanneer u een notebook loskoppelt van een cluster, wordt de uitvoeringscontext verwijderd en worden alle berekende variabelewaarden uit het notebook gew cleared.

Tip

Azure Databricks wordt u aangeraden ongebruikte notebooks los tekoppelen van een cluster. Hierdoor wordt geheugenruimte vrij op het stuurprogramma.

Alles weergeven notebooks koppelen aan een cluster

Op het tabblad Notebooks op de pagina met clusterdetails worden alle notebooks weergegeven die aan een cluster zijn gekoppeld. Op het tabblad wordt ook de status van elk gekoppeld notebook weergegeven, samen met de laatste keer dat een opdracht vanuit het notebook is uitgevoerd.

Aan clusterdetails gekoppelde notebooks

Een notebook plannen

U kunt als volgende een notebook-taak plannen om periodiek te worden uitgevoerd:

  1. Klik in het notebook op Notebook-planningsknop rechtsboven. Als er geen taken bestaan voor dit notebook, wordt het dialoogvenster Planning weergegeven.

    Dialoogvenster Notebook plannen

    Als er al taken voor het notebook bestaan, wordt het dialoogvenster Takenlijst weergegeven. Klik op Een schema toevoegen om het dialoogvenster Planning weer te geven.

    Dialoogvenster Taaklijst

  2. Voer in het dialoogvenster Planning desgewenst een naam in voor de taak. De standaardnaam is de naam van het notebook.

  3. Selecteer Handmatig om uw taak alleen uit te voeren wanneer deze handmatig wordt geactiveerd of Gepland om een planning voor het uitvoeren van de taak te definiëren. Als u Gepland selecteert, gebruikt u de vervolgkeuzen om de frequentie, tijd en tijdzone op te geven.

  4. Selecteer in de vervolgkeuzelijst Cluster het cluster om de taak uit te voeren.

    Als u machtigingen voor het maken van clusters toestaan hebt, wordt de taak standaard uitgevoerd op een nieuw taakcluster. Als u de configuratie van het standaard taakcluster wilt bewerken, klikt u rechts van het veld op Bewerken om het dialoogvenster voor clusterconfiguratie weer te geven.

    Als u geen machtigingen voor het maken van clusters toestaan hebt, wordt de taak standaard uitgevoerd op het cluster waar het notebook aan is gekoppeld. Als het notebook niet is gekoppeld aan een cluster, moet u een cluster selecteren in de vervolgkeuzeop het cluster.

  5. Voer eventueel parameters in die aan de taak moeten worden doorgeven. Klik op Toevoegen en geef de sleutel en waarde van elke parameter op. Parameters stellen de waarde in van de notebookwidget die is opgegeven door de sleutel van de parameter . Gebruik Taakparametervariabelen om een beperkte set dynamische waarden door te geven als onderdeel van een parameterwaarde.

  6. Geef desgewenst e-mailadressen op voor het ontvangen van e-mailwaarschuwingen bij taakgebeurtenissen. Zie Waarschuwingen.

  7. Klik op Submit

Geplande notebooktaken beheren

Als u taken wilt weergeven die aan dit notebook zijn gekoppeld, klikt u op de knop Planning. Het dialoogvenster takenlijst wordt weergegeven, met alle taken die momenteel zijn gedefinieerd voor dit notebook. Als u taken wilt beheren, klikt u op Het  verticale beletselteken voor taken rechts van een taak in de lijst.

Menu Taaklijst

In dit menu kunt u een geplande taak bewerken, klonen, weergeven, onderbreken, hervatten of verwijderen.

Wanneer u een geplande taak kloont, wordt er een nieuwe taak gemaakt met dezelfde parameters als de oorspronkelijke taak. De nieuwe taak wordt weergegeven in de lijst met de naam 'Kloon van '.

Hoe u een taak bewerkt, is afhankelijk van de complexiteit van de planning van de taak. Het dialoogvenster Planning of het tabblad Taken van de pagina Taken wordt weergegeven, zodat u de planning, het cluster, de parameters, en meer kunt bewerken.

Notebooks distribueren

Om u eenvoudig Azure Databricks notebookste kunnen distribueren, ondersteunt Azure Databricks het Databricks-archief. Dit is een pakket dat een map met notebooks of één notebook kan bevatten. Een Databricks-archief is een JAR-bestand met extra metagegevens en heeft de extensie .dbc . De notebooks in het archief hebben een interne Azure Databricks indeling.

Een archief importeren

  1. Klik  op Caret- of  menu-vervolgkeuzelijst omlaag rechts van een map of notebook en selecteer Importeren.
  2. Kies Bestand of URL.
  3. Ga naar of drop een Databricks-archief in de dropzone.
  4. Klik op Import. Het archief wordt geïmporteerd in Azure Databricks. Als het archief een map bevat, wordt Azure Databricks map opnieuw gemaakt.

Een archief exporteren

Klik rechts van een map of notebook op Caret- of Menu-vervolgkeuzelijst en selecteer  Exporteren >  DBC-archief. Azure Databricks downloadt een bestand met de naam <[folder|notebook]-name>.dbc .