Hantera anteckningsböcker
Du kan hantera notebook-filer med hjälp av användargränssnittet, CLI och genom att anropa arbetsyte-API:et. Den här artikeln fokuserar på att utföra notebook-uppgifter med hjälp av användargränssnittet. De andra metoderna finns i Databricks CLI och Workspace API 2.0.
Skapa en notebook-fil
Använd knappen Skapa
Det enklaste sättet att skapa en ny anteckningsbok i standardmappen är att använda knappen Skapa :
- Klicka på
Skapa i sidopanelen och välj Anteckningsbok på menyn. Dialogrutan Skapa anteckningsbok visas.
- Ange ett namn och välj anteckningsbokens standardspråk.
- Om det finns kluster som körs visas listrutan Kluster . Välj det kluster som du vill koppla notebook-filen till.
- Klicka på Skapa.
Skapa en anteckningsbok i valfri mapp
Du kan skapa en ny anteckningsbok i valfri mapp (till exempel i den delade mappen) genom att följa dessa steg:
- Klicka på
Arbetsyta i sidofältet. Gör något av följande:
Bredvid valfri mapp klickar du
på till höger i texten och väljer Skapa > anteckningsbok.
I arbetsytan eller en användarmapp klickar du på
och väljer Skapa > anteckningsbok.
- Följ steg 2 till 4 i Använd knappen Skapa.
Öppna en anteckningsbok
I din arbetsyta klickar du på en . Anteckningsbokens sökväg visas när du hovra över anteckningsbokens rubrik.
Ta bort en notebook-fil
Se Objektåtgärder för mappar och arbetsytor för information om hur du kommer åt arbetsytemenyn och tar bort anteckningsböcker eller andra objekt på arbetsytan.
Kopiera sökvägen till en notebook-fil
Om du vill kopiera en sökväg till en notebook-fil utan att öppna anteckningsboken högerklickar du på anteckningsbokens namn eller klickar på till höger om anteckningsbokens namn och väljer Kopiera filsökväg.
Byta namn på en notebook-fil
Om du vill ändra rubriken för en öppen anteckningsbok klickar du på rubriken och redigerar infogad eller klickar på Filbyte>.
Åtkomstkontroll till en notebook-fil
Om ditt Azure Databricks-konto har Azure Databricks Premium Plan kan du använda åtkomstkontroll för arbetsytan för att styra vem som har åtkomst till en notebook-fil.
Externa format för notebook-filer
Azure Databricks stöder flera externa notebook-format:
- Källfil: En fil som endast innehåller källkodsuttryck med tillägget
.scala
,.py
,.sql
eller.r
. - HTML: En Azure Databricks-notebook-fil med tillägget
.html
. - DBC-arkiv: Ett Databricks-arkiv.
- IPython Notebook: En Jupyter Notebook med tillägget
.ipynb
. - RMarkdown: Ett R Markdown-dokument med tillägget
.Rmd
.
I det här avsnittet:
- Importera en notebook-fil
- Konvertera en fil till en notebook-fil
- Exportera en notebook-fil
- Exportera alla anteckningsböcker i en mapp
Importera en notebook-fil
Du kan importera en extern notebook-fil från en URL eller en fil. Du kan också importera ett ZIP-arkiv med notebook-filer som exporteras massvis från en Azure Databricks-arbetsyta.
Klicka på
Arbetsyta i sidofältet. Gör något av följande:
Bredvid valfri mapp klickar du
på till höger i texten och väljer Importera.
I arbetsytan eller en användarmapp klickar du på
och väljer Importera.
Ange URL:en eller bläddra till en fil som innehåller ett externt format som stöds eller ett ZIP-arkiv med notebook-filer som exporteras från en Azure Databricks-arbetsyta.
Klicka på Importera.
- Om du väljer en enskild notebook-fil exporteras den i den aktuella mappen.
- Om du väljer ett DBC- eller ZIP-arkiv återskapas dess mappstruktur i den aktuella mappen och varje notebook-fil importeras.
Konvertera en fil till en notebook-fil
Du kan konvertera befintliga Python-, SQL-, Scala- och R-skript till notebook-filer med en cell genom att lägga till en kommentar i den första cellen i filen:
Python
# Databricks notebook source
SQL
-- Databricks notebook source
Scala
// Databricks notebook source
R
# Databricks notebook source
Databricks-notebook-filer använder en särskild kommentar omgiven av blanksteg för att definiera celler:
Python
# COMMAND ----------
SQL
-- COMMAND ----------
Scala
// COMMAND ----------
R
# COMMAND ----------
Exportera en notebook-fil
I verktygsfältet för anteckningsboken väljer du Filexport > och ett format.
Anteckning
När du exporterar en notebook-fil som HTML, IPython Notebook eller arkiv (DBC) och du inte har rensat resultatet inkluderas resultatet av att köra notebook-filen.
Exportera alla anteckningsböcker i en mapp
Anteckning
När du exporterar en notebook-fil som HTML, IPython Notebook eller arkiv (DBC) och du inte har rensat resultatet inkluderas resultatet av att köra notebook-filen.
Så här exporterar du alla mappar i en arbetsytemapp som ett ZIP-arkiv:
- Klicka på
Arbetsyta i sidofältet. Gör något av följande:
- Bredvid valfri mapp klickar du
på till höger i texten och väljer Exportera.
- I arbetsytan eller en användarmapp klickar du på
och väljer Exportera.
- Bredvid valfri mapp klickar du
- Välj exportformat:
- DBC-arkiv: Exportera ett Databricks-arkiv, ett binärt format som innehåller metadata och resultat från notebook-kommandon.
- Källfil: Exportera ett ZIP-arkiv med källfiler för notebook-filer som kan importeras till en Azure Databricks-arbetsyta, användas i en CI/CD-pipeline eller visas som källfiler på varje notebook-fils standardspråk. Resultat från notebook-kommandot ingår inte.
- HTML-arkiv: Exportera ett ZIP-arkiv med HTML-filer. Varje notebook-fils HTML-fil kan importeras till en Azure Databricks-arbetsyta eller visas som HTML. Resultat från notebook-kommandot ingår.
Notebook-filer och kluster
Innan du kan utföra något arbete i en notebook-fil måste du först koppla anteckningsboken till ett kluster. I det här avsnittet beskrivs hur du ansluter och kopplar från notebook-filer till och från kluster och vad som händer i bakgrunden när du utför dessa åtgärder.
I det här avsnittet:
- Körningskontexter
- Koppla en notebook-fil till ett kluster
- Koppla från en notebook-fil från ett kluster
- Visa alla notebook-filer som är kopplade till ett kluster
Körningskontexter
När du kopplar en notebook-fil till ett kluster skapar Azure Databricks en körningskontext. En körningskontext innehåller tillståndet för en REPL-miljö för varje programmeringsspråk som stöds: Python, R, Scala och SQL. När du kör en cell i en notebook-fil skickas kommandot till rätt SPRÅK REPL-miljö och körs.
Du kan också använda REST 1.2-API :et för att skapa en körningskontext och skicka ett kommando som ska köras i körningskontexten. På samma sätt skickas kommandot till språket REPL-miljön och körs.
Ett kluster har ett maximalt antal körningskontexter (145). När antalet körningskontexter har nått det här tröskelvärdet kan du inte koppla en notebook-fil till klustret eller skapa en ny körningskontext.
Inaktiva körningskontexter
En körningskontext anses vara inaktiv när den senaste slutförda körningen inträffade efter ett angivet tröskelvärde för inaktivitet. Den senaste slutförda körningen är sista gången notebook-filen slutförde körningen av kommandon. Tröskelvärdet för inaktivitet är den tid som måste passera mellan den senaste slutförda körningen och alla försök att koppla från anteckningsboken automatiskt. Standardtröskelvärdet för inaktivitet är 24 timmar.
När ett kluster har nått den maximala kontextgränsen tar Azure Databricks bort (tar bort) inaktiva körningskontexter (från och med de senast använda) efter behov. Även om en kontext tas bort är anteckningsboken som använder kontexten fortfarande kopplad till klustret och visas i klustrets anteckningsbokslista. Strömmande notebook-filer betraktas som aktiva och deras kontext tas aldrig bort förrän körningen har stoppats. Om en inaktiv kontext tas bort visar användargränssnittet ett meddelande som anger att anteckningsboken med kontexten har kopplats från på grund av inaktivitet.
Om du försöker koppla en notebook-fil till ett kluster som har maximalt antal körningskontexter och det inte finns några inaktiva kontexter (eller om automatisk borttagning är inaktiverat), visar användargränssnittet ett meddelande som säger att det aktuella högsta tröskelvärdet för körningskontexter har uppnåtts och notebook-filen förblir i frånkopplat tillstånd.
Om du förgrenar en process anses fortfarande en inaktiv körningskontext vara inaktiv när körningen av begäran som förgrenade processen returneras. Förgrening av separata processer rekommenderas inte med Spark.
Konfigurera automatisk borttagning av kontext
Automatisk borttagning är aktiverat som standard. Om du vill inaktivera automatisk borttagning för ett kluster anger du egenskapenspark.databricks.chauffeur.enableIdleContextTracking false
Spark.
Koppla en notebook-fil till ett kluster
Om du vill koppla en notebook-fil till ett kluster behöver du behörigheten Kan koppla till klusternivå.
Viktigt
Så länge en notebook-fil är ansluten till ett kluster har alla användare med behörigheten Kan köra i anteckningsboken implicit behörighet att komma åt klustret.
Så här kopplar du en notebook-fil till ett kluster:
- Klicka på
Koppla från
i anteckningsbokens verktygsfält.
- Välj ett kluster i listrutan.
Viktigt
En ansluten notebook-fil har följande Apache Spark-variabler definierade.
Klass | Variabelnamn |
---|---|
SparkContext |
sc |
SQLContext /HiveContext |
sqlContext |
SparkSession (Spark 2.x) |
spark |
Skapa inte en SparkSession
, SparkContext
, eller SQLContext
. Detta leder till inkonsekvent beteende.
Fastställa Spark- och Databricks Runtime-version
Kör för att fastställa Spark-versionen av klustret som din notebook-fil är ansluten till:
spark.version
Om du vill ta reda på vilken Databricks Runtime-version av klustret som anteckningsboken är ansluten till kör du:
spark.conf.get("spark.databricks.clusterUsageTags.sparkVersion")
Anteckning
Både den här sparkVersion
taggen och egenskapen spark_version
som krävs av slutpunkterna i Clusters API 2.0 och Jobs API 2.1 refererar till Databricks Runtime-versionen, inte Spark-versionen.
Koppla från en notebook-fil från ett kluster
I verktygsfältet notebook klickar du på
Bifogad
.
Välj Koppla från.
Du kan också koppla från notebook-filer från ett kluster med hjälp av fliken Notebooks på sidan klusterinformation.
När du kopplar från en notebook-fil från ett kluster tas körningskontexten bort och alla beräknade variabelvärden rensas från notebook-filen.
Tips
Azure Databricks rekommenderar att du kopplar bort oanvända notebook-filer från ett kluster. Detta frigör minne på drivrutinen.
Visa alla notebook-filer som är kopplade till ett kluster
Fliken Notebooks på sidan klusterinformation visar alla notebook-filer som är anslutna till ett kluster. På fliken visas även status för varje bifogad anteckningsbok, tillsammans med den senaste gången ett kommando kördes från anteckningsboken.
Schemalägga en notebook-fil
Så här schemalägger du ett notebook-jobb så att det körs regelbundet:
Klicka
längst upp till höger i anteckningsboken. Om det inte finns några jobb för den här anteckningsboken visas dialogrutan Schema.
Om det redan finns jobb för anteckningsboken visas dialogrutan Jobblista. Om du vill visa dialogrutan Schema klickar du på Lägg till ett schema.
Ange ett namn för jobbet i dialogrutan Schema. Standardnamnet är namnet på anteckningsboken.
Välj Manuell om du bara vill köra jobbet när det utlöses manuellt eller Schemalagt för att definiera ett schema för att köra jobbet. Om du väljer Schemalagd använder du listrutorna för att ange frekvens, tid och tidszon.
I listrutan Kluster väljer du klustret för att köra uppgiften.
Om du har behörighet att skapa kluster körs jobbet som standard i ett nytt jobbkluster. Om du vill redigera konfigurationen av standardjobbklustret klickar du på Redigera till höger om fältet för att visa dialogrutan klusterkonfiguration.
Om du inte har behörighet att skapa kluster körs jobbet som standard på klustret som notebook-filen är kopplad till. Om anteckningsboken inte är ansluten till ett kluster måste du välja ett kluster i listrutan Kluster .
Du kan också ange parametrar som ska skickas till jobbet. Klicka på Lägg till och ange nyckeln och värdet för varje parameter. Parametrar anger värdet för notebook-widgeten som anges av nyckeln för parametern. Använd aktivitetsparametervariabler för att skicka en begränsad uppsättning dynamiska värden som en del av ett parametervärde.
Du kan också ange e-postadresser för att ta emot e-postaviseringar om jobbhändelser. Se Aviseringar.
Klicka på Skicka.
Hantera schemalagda notebook-jobb
Om du vill visa jobb som är associerade med den här anteckningsboken klickar du på knappen Schema . Dialogrutan Jobblista visas och visar alla jobb som för närvarande har definierats för den här anteckningsboken. Om du vill hantera jobb klickar du till höger om ett jobb i listan.
På den här menyn kan du redigera, klona, visa, pausa, återuppta eller ta bort ett schemalagt jobb.
När du klonar ett schemalagt jobb skapas ett nytt jobb med samma parametrar som originalet. Det nya jobbet visas i listan med namnet "Clone of ".
Hur du redigerar ett jobb beror på komplexiteten i jobbets schema. Antingen visas dialogrutan Schema eller panelen Jobbinformation så att du kan redigera schemat, klustret, parametrarna och så vidare.
Distribuera notebook-filer
För att du enkelt ska kunna distribuera Azure Databricks-notebook-filer har Azure Databricks stöd för Databricks-arkivet, vilket är ett paket som kan innehålla en mapp med notebook-filer eller en enda notebook-fil. Ett Databricks-arkiv är en JAR-fil med extra metadata och har tillägget .dbc
. Notebook-filerna i arkivet har ett internt Azure Databricks-format.
Importera ett arkiv
- Klicka
eller
till höger om en mapp eller anteckningsbok och välj Importera.
- Välj Fil eller URL.
- Gå till eller släpp ett Databricks-arkiv i dropzone.
- Klicka på Importera. Arkivet importeras till Azure Databricks. Om arkivet innehåller en mapp återskapar Azure Databricks mappen.
Exportera ett arkiv
Klicka eller
till höger om en mapp eller anteckningsbok och välj Exportera > DBC-arkiv. Azure Databricks laddar ned en fil med namnet
<[folder|notebook]-name>.dbc
.