Hantera anteckningsböcker

Du kan hantera notebook-filer med hjälp av användargränssnittet, CLI och genom att anropa arbetsyte-API:et. Den här artikeln fokuserar på att utföra notebook-uppgifter med hjälp av användargränssnittet. De andra metoderna finns i Databricks CLI och Workspace API 2.0.

Skapa en notebook-fil

Använd knappen Skapa

Det enklaste sättet att skapa en ny anteckningsbok i standardmappen är att använda knappen Skapa :

  1. Klicka på Create IconSkapa i sidopanelen och välj Anteckningsbok på menyn. Dialogrutan Skapa anteckningsbok visas.
  2. Ange ett namn och välj anteckningsbokens standardspråk.
  3. Om det finns kluster som körs visas listrutan Kluster . Välj det kluster som du vill koppla notebook-filen till.
  4. Klicka på Skapa.

Skapa en anteckningsbok i valfri mapp

Du kan skapa en ny anteckningsbok i valfri mapp (till exempel i den delade mappen) genom att följa dessa steg:

  1. Klicka på Workspace IconArbetsyta i sidofältet. Gör något av följande:
    • Bredvid valfri mapp klickar du Menu Dropdown på till höger i texten och väljer Skapa > anteckningsbok.

      Create notebook

    • I arbetsytan eller en användarmapp klickar du på Down Caret och väljer Skapa > anteckningsbok.

  2. Följ steg 2 till 4 i Använd knappen Skapa.

Öppna en anteckningsbok

I din arbetsyta klickar du på en Notebook Icon. Anteckningsbokens sökväg visas när du hovra över anteckningsbokens rubrik.

Ta bort en notebook-fil

Se Objektåtgärder för mappar och arbetsytor för information om hur du kommer åt arbetsytemenyn och tar bort anteckningsböcker eller andra objekt på arbetsytan.

Kopiera sökvägen till en notebook-fil

Om du vill kopiera en sökväg till en notebook-fil utan att öppna anteckningsboken högerklickar du på anteckningsbokens namn eller klickar på Menu Dropdown till höger om anteckningsbokens namn och väljer Kopiera filsökväg.

Copy notebook path

Byta namn på en notebook-fil

Om du vill ändra rubriken för en öppen anteckningsbok klickar du på rubriken och redigerar infogad eller klickar på Filbyte>.

Åtkomstkontroll till en notebook-fil

Om ditt Azure Databricks-konto har Azure Databricks Premium Plan kan du använda åtkomstkontroll för arbetsytan för att styra vem som har åtkomst till en notebook-fil.

Externa format för notebook-filer

Azure Databricks stöder flera externa notebook-format:

  • Källfil: En fil som endast innehåller källkodsuttryck med tillägget .scala, .py, .sqleller .r.
  • HTML: En Azure Databricks-notebook-fil med tillägget .html.
  • DBC-arkiv: Ett Databricks-arkiv.
  • IPython Notebook: En Jupyter Notebook med tillägget .ipynb.
  • RMarkdown: Ett R Markdown-dokument med tillägget .Rmd.

I det här avsnittet:

Importera en notebook-fil

Du kan importera en extern notebook-fil från en URL eller en fil. Du kan också importera ett ZIP-arkiv med notebook-filer som exporteras massvis från en Azure Databricks-arbetsyta.

  1. Klicka på Workspace IconArbetsyta i sidofältet. Gör något av följande:

    • Bredvid valfri mapp klickar du Menu Dropdown på till höger i texten och väljer Importera.

    • I arbetsytan eller en användarmapp klickar du på Down Caret och väljer Importera.

      Import notebook

  2. Ange URL:en eller bläddra till en fil som innehåller ett externt format som stöds eller ett ZIP-arkiv med notebook-filer som exporteras från en Azure Databricks-arbetsyta.

  3. Klicka på Importera.

    • Om du väljer en enskild notebook-fil exporteras den i den aktuella mappen.
    • Om du väljer ett DBC- eller ZIP-arkiv återskapas dess mappstruktur i den aktuella mappen och varje notebook-fil importeras.

Konvertera en fil till en notebook-fil

Du kan konvertera befintliga Python-, SQL-, Scala- och R-skript till notebook-filer med en cell genom att lägga till en kommentar i den första cellen i filen:

Python

# Databricks notebook source

SQL

-- Databricks notebook source

Scala

// Databricks notebook source

R

# Databricks notebook source

Databricks-notebook-filer använder en särskild kommentar omgiven av blanksteg för att definiera celler:

Python

# COMMAND ----------

SQL

-- COMMAND ----------

Scala

// COMMAND ----------

R

# COMMAND ----------

Exportera en notebook-fil

I verktygsfältet för anteckningsboken väljer du Filexport > och ett format.

Anteckning

När du exporterar en notebook-fil som HTML, IPython Notebook eller arkiv (DBC) och du inte har rensat resultatet inkluderas resultatet av att köra notebook-filen.

Exportera alla anteckningsböcker i en mapp

Anteckning

När du exporterar en notebook-fil som HTML, IPython Notebook eller arkiv (DBC) och du inte har rensat resultatet inkluderas resultatet av att köra notebook-filen.

Så här exporterar du alla mappar i en arbetsytemapp som ett ZIP-arkiv:

  1. Klicka på Workspace IconArbetsyta i sidofältet. Gör något av följande:
    • Bredvid valfri mapp klickar du Menu Dropdown på till höger i texten och väljer Exportera.
    • I arbetsytan eller en användarmapp klickar du på Down Caret och väljer Exportera.
  2. Välj exportformat:
    • DBC-arkiv: Exportera ett Databricks-arkiv, ett binärt format som innehåller metadata och resultat från notebook-kommandon.
    • Källfil: Exportera ett ZIP-arkiv med källfiler för notebook-filer som kan importeras till en Azure Databricks-arbetsyta, användas i en CI/CD-pipeline eller visas som källfiler på varje notebook-fils standardspråk. Resultat från notebook-kommandot ingår inte.
    • HTML-arkiv: Exportera ett ZIP-arkiv med HTML-filer. Varje notebook-fils HTML-fil kan importeras till en Azure Databricks-arbetsyta eller visas som HTML. Resultat från notebook-kommandot ingår.

Notebook-filer och kluster

Innan du kan utföra något arbete i en notebook-fil måste du först koppla anteckningsboken till ett kluster. I det här avsnittet beskrivs hur du ansluter och kopplar från notebook-filer till och från kluster och vad som händer i bakgrunden när du utför dessa åtgärder.

I det här avsnittet:

Körningskontexter

När du kopplar en notebook-fil till ett kluster skapar Azure Databricks en körningskontext. En körningskontext innehåller tillståndet för en REPL-miljö för varje programmeringsspråk som stöds: Python, R, Scala och SQL. När du kör en cell i en notebook-fil skickas kommandot till rätt SPRÅK REPL-miljö och körs.

Du kan också använda REST 1.2-API :et för att skapa en körningskontext och skicka ett kommando som ska köras i körningskontexten. På samma sätt skickas kommandot till språket REPL-miljön och körs.

Ett kluster har ett maximalt antal körningskontexter (145). När antalet körningskontexter har nått det här tröskelvärdet kan du inte koppla en notebook-fil till klustret eller skapa en ny körningskontext.

Inaktiva körningskontexter

En körningskontext anses vara inaktiv när den senaste slutförda körningen inträffade efter ett angivet tröskelvärde för inaktivitet. Den senaste slutförda körningen är sista gången notebook-filen slutförde körningen av kommandon. Tröskelvärdet för inaktivitet är den tid som måste passera mellan den senaste slutförda körningen och alla försök att koppla från anteckningsboken automatiskt. Standardtröskelvärdet för inaktivitet är 24 timmar.

När ett kluster har nått den maximala kontextgränsen tar Azure Databricks bort (tar bort) inaktiva körningskontexter (från och med de senast använda) efter behov. Även om en kontext tas bort är anteckningsboken som använder kontexten fortfarande kopplad till klustret och visas i klustrets anteckningsbokslista. Strömmande notebook-filer betraktas som aktiva och deras kontext tas aldrig bort förrän körningen har stoppats. Om en inaktiv kontext tas bort visar användargränssnittet ett meddelande som anger att anteckningsboken med kontexten har kopplats från på grund av inaktivitet.

Notebook context evicted

Om du försöker koppla en notebook-fil till ett kluster som har maximalt antal körningskontexter och det inte finns några inaktiva kontexter (eller om automatisk borttagning är inaktiverat), visar användargränssnittet ett meddelande som säger att det aktuella högsta tröskelvärdet för körningskontexter har uppnåtts och notebook-filen förblir i frånkopplat tillstånd.

Notebook detached

Om du förgrenar en process anses fortfarande en inaktiv körningskontext vara inaktiv när körningen av begäran som förgrenade processen returneras. Förgrening av separata processer rekommenderas inte med Spark.

Konfigurera automatisk borttagning av kontext

Automatisk borttagning är aktiverat som standard. Om du vill inaktivera automatisk borttagning för ett kluster anger du egenskapenspark.databricks.chauffeur.enableIdleContextTracking false Spark.

Koppla en notebook-fil till ett kluster

Om du vill koppla en notebook-fil till ett kluster behöver du behörigheten Kan koppla till klusternivå.

Viktigt

Så länge en notebook-fil är ansluten till ett kluster har alla användare med behörigheten Kan köra i anteckningsboken implicit behörighet att komma åt klustret.

Så här kopplar du en notebook-fil till ett kluster:

  1. Klicka på Notebook Cluster IconKoppla frånCluster Dropdown i anteckningsbokens verktygsfält.
  2. Välj ett kluster i listrutan.

Viktigt

En ansluten notebook-fil har följande Apache Spark-variabler definierade.

Klass Variabelnamn
SparkContext sc
SQLContext/HiveContext sqlContext
SparkSession (Spark 2.x) spark

Skapa inte en SparkSession, SparkContext, eller SQLContext. Detta leder till inkonsekvent beteende.

Fastställa Spark- och Databricks Runtime-version

Kör för att fastställa Spark-versionen av klustret som din notebook-fil är ansluten till:

spark.version

Om du vill ta reda på vilken Databricks Runtime-version av klustret som anteckningsboken är ansluten till kör du:

spark.conf.get("spark.databricks.clusterUsageTags.sparkVersion")

Anteckning

Både den här sparkVersion taggen och egenskapen spark_version som krävs av slutpunkterna i Clusters API 2.0 och Jobs API 2.1 refererar till Databricks Runtime-versionen, inte Spark-versionen.

Koppla från en notebook-fil från ett kluster

  1. I verktygsfältet notebook klickar du på Notebook Cluster IconBifogad Cluster Dropdown.

  2. Välj Koppla från.

    Detach notebook

Du kan också koppla från notebook-filer från ett kluster med hjälp av fliken Notebooks på sidan klusterinformation.

När du kopplar från en notebook-fil från ett kluster tas körningskontexten bort och alla beräknade variabelvärden rensas från notebook-filen.

Tips

Azure Databricks rekommenderar att du kopplar bort oanvända notebook-filer från ett kluster. Detta frigör minne på drivrutinen.

Visa alla notebook-filer som är kopplade till ett kluster

Fliken Notebooks på sidan klusterinformation visar alla notebook-filer som är anslutna till ett kluster. På fliken visas även status för varje bifogad anteckningsbok, tillsammans med den senaste gången ett kommando kördes från anteckningsboken.

Cluster details attached notebooks

Schemalägga en notebook-fil

Så här schemalägger du ett notebook-jobb så att det körs regelbundet:

  1. Klicka Notebook schedule button längst upp till höger i anteckningsboken. Om det inte finns några jobb för den här anteckningsboken visas dialogrutan Schema.

    Schedule notebook dialog

    Om det redan finns jobb för anteckningsboken visas dialogrutan Jobblista. Om du vill visa dialogrutan Schema klickar du på Lägg till ett schema.

    Job list dialog

  2. Ange ett namn för jobbet i dialogrutan Schema. Standardnamnet är namnet på anteckningsboken.

  3. Välj Manuell om du bara vill köra jobbet när det utlöses manuellt eller Schemalagt för att definiera ett schema för att köra jobbet. Om du väljer Schemalagd använder du listrutorna för att ange frekvens, tid och tidszon.

  4. I listrutan Kluster väljer du klustret för att köra uppgiften.

    Om du har behörighet att skapa kluster körs jobbet som standard i ett nytt jobbkluster. Om du vill redigera konfigurationen av standardjobbklustret klickar du på Redigera till höger om fältet för att visa dialogrutan klusterkonfiguration.

    Om du inte har behörighet att skapa kluster körs jobbet som standard på klustret som notebook-filen är kopplad till. Om anteckningsboken inte är ansluten till ett kluster måste du välja ett kluster i listrutan Kluster .

  5. Du kan också ange parametrar som ska skickas till jobbet. Klicka på Lägg till och ange nyckeln och värdet för varje parameter. Parametrar anger värdet för notebook-widgeten som anges av nyckeln för parametern. Använd aktivitetsparametervariabler för att skicka en begränsad uppsättning dynamiska värden som en del av ett parametervärde.

  6. Du kan också ange e-postadresser för att ta emot e-postaviseringar om jobbhändelser. Se Aviseringar.

  7. Klicka på Skicka.

Hantera schemalagda notebook-jobb

Om du vill visa jobb som är associerade med den här anteckningsboken klickar du på knappen Schema . Dialogrutan Jobblista visas och visar alla jobb som för närvarande har definierats för den här anteckningsboken. Om du vill hantera jobb klickar du Jobs Vertical Ellipsis till höger om ett jobb i listan.

Job list menu

På den här menyn kan du redigera, klona, visa, pausa, återuppta eller ta bort ett schemalagt jobb.

När du klonar ett schemalagt jobb skapas ett nytt jobb med samma parametrar som originalet. Det nya jobbet visas i listan med namnet "Clone of ".

Hur du redigerar ett jobb beror på komplexiteten i jobbets schema. Antingen visas dialogrutan Schema eller panelen Jobbinformation så att du kan redigera schemat, klustret, parametrarna och så vidare.

Distribuera notebook-filer

För att du enkelt ska kunna distribuera Azure Databricks-notebook-filer har Azure Databricks stöd för Databricks-arkivet, vilket är ett paket som kan innehålla en mapp med notebook-filer eller en enda notebook-fil. Ett Databricks-arkiv är en JAR-fil med extra metadata och har tillägget .dbc. Notebook-filerna i arkivet har ett internt Azure Databricks-format.

Importera ett arkiv

  1. Klicka Down Caret eller Menu Dropdown till höger om en mapp eller anteckningsbok och välj Importera.
  2. Välj Fil eller URL.
  3. Gå till eller släpp ett Databricks-arkiv i dropzone.
  4. Klicka på Importera. Arkivet importeras till Azure Databricks. Om arkivet innehåller en mapp återskapar Azure Databricks mappen.

Exportera ett arkiv

Klicka Down Caret eller Menu Dropdown till höger om en mapp eller anteckningsbok och välj Exportera > DBC-arkiv. Azure Databricks laddar ned en fil med namnet <[folder|notebook]-name>.dbc.