Hantera anteckningsböcker

Du kan hantera antecknings böcker med hjälp av användar gränssnittet, CLI och genom att anropa API: t för arbets ytan. Den här artikeln fokuserar på att utföra antecknings uppgifter med hjälp av användar gränssnittet. Andra metoder finns i DATABRICKS CLI och ARBETSYTE- API.

Skapa en notebook-fil

  1. Klicka på ikonen för arbets ytans knapp  arbets yta eller Start- knappens Home  Start ikon på sid panelen. Gör något av följande:
    • Bredvid en mapp klickar du på  meny List rutan på höger sida om texten och väljer skapa > Notebook.

      Skapa antecknings bok

    • I arbets ytan eller i en användarsession klickar du på  cirkumflex och väljer skapa > antecknings bok.

  2. I dialog rutan skapa antecknings bok anger du ett namn och väljer antecknings bokens standard språk.
  3. Om du kör kluster visas List rutan kluster . Välj det kluster som du vill koppla antecknings boken till.
  4. Klicka på Skapa.

Öppna en anteckningsbok

I arbets ytan klickar du på en Notebook-fil. Antecknings bokens sökväg visas när du hovrar över antecknings bokens titel.

Ta bort en notebook-fil

Se objekt åtgärder för mappar och arbets ytor för information om hur du kommer åt menyn arbets yta och ta bort antecknings böcker eller andra objekt i arbets ytan.

Kopiera sökvägen till en notebook-fil

Om du vill kopiera en sökväg för antecknings boken utan att öppna antecknings boken högerklickar du på antecknings bokens namn eller klickar på  list rutan till höger om antecknings boken och väljer Kopiera fil Sök väg

Kopiera sökvägen till en notebook-fil

Byta namn på en notebook-fil

Om du vill ändra titeln på en öppen antecknings bok klickar du på rubriken och redigerar infogad eller klickar på fil > Byt namn.

Åtkomstkontroll till en notebook-fil

Om ditt Azure Databricks konto har Azure Databricks premiums plankan du använda åtkomst kontroll för arbets ytor för att kontrol lera vem som har åtkomst till en bärbar dator.

Externa Notebook-format

Azure Databricks stöder flera externa Notebook-format:

  • Källfil: en fil som endast innehåller käll kods uttryck med tillägget .scala ,, .py .sql eller .r .
  • HTML: en Azure Databricks Notebook med tillägget .html .
  • DBC-Arkiv: ett Databricks-Arkiv.
  • IPython Notebook: en Jupyter-anteckningsbok med tillägget .ipynb .
  • RMarkdown: ett R markdown-dokument med tillägget .Rmd .

I det här avsnittet:

Importera en bärbar dator

Du kan importera en extern antecknings bok från en URL eller en fil.

  1. Klicka på ikonen för arbets ytans knapp  arbets yta eller Start- knappens Home  Start ikon på sid panelen. Gör något av följande:

    • Bredvid en mapp klickar du på  meny List rutan på höger sida om texten och väljer Importera.

    • I arbets ytan eller i en användarsession klickar du på  cirkumflex och väljer Importera.

      Importera antecknings bok

  2. Ange URL: en eller bläddra till en fil som innehåller ett externt format som stöds.

  3. Klicka på Importera.

Exportera en bärbar dator

I verktygsfältet Notebook väljer du fil > export och ett format.

Anteckning

När du exporterar en antecknings bok som HTML, IPython Notebook eller Archive (DBC) och du inte har tagit bort resultaten, ingår resultatet av att köra antecknings boken.

Notebook-filer och kluster

Innan du kan göra något arbete i en bärbar dator måste du först ansluta antecknings boken till ett kluster. I det här avsnittet beskrivs hur du ansluter och kopplar från antecknings böcker till och från kluster och vad som händer i bakgrunden när du utför dessa åtgärder.

I det här avsnittet:

Körnings kontexter

När du ansluter en antecknings bok till ett kluster skapar Azure Databricks en körnings kontext. En körnings kontext innehåller tillstånd för en repl -miljö för varje programmeringsspråk som stöds: python, R, Scala och SQL. När du kör en cell i en antecknings bok skickas kommandot till rätt språk REPL-miljö och körs.

Du kan också använda REST 1,2 API för att skapa en körnings kontext och skicka ett kommando som ska köras i körnings kontexten. Kommandot skickas på samma sätt till REPL-miljön för språk och körs.

Ett kluster har maximalt antal körnings kontexter (145). När antalet körnings kontexter har nått tröskelvärdet kan du inte ansluta en antecknings bok till klustret eller skapa en ny körnings kontext.

Aktiva körnings kontexter

En körnings kontext anses vara inaktiv när den senaste slutförda körningen passerade ett tröskelvärde för inaktivitet. Senast slutförda körning är den senaste gången som antecknings boken slutförde körningen av kommandon. Tröskelvärdet för inaktivitet är den tid som måste passera mellan den senaste slutförda körningen och eventuella försök att automatiskt koppla från antecknings boken. Standard tröskelvärdet för inaktivitet är 24 timmar.

När ett kluster har nått den maximala kontext gränsen Azure Databricks tar bort (avlägsnar) inaktiva körnings kontexter (från och med den senast använda) efter behov. Även om en kontext tas bort är den bärbara datorn som använder kontexten fortfarande kopplad till klustret och visas i klustrets lista över bärbara datorer. Strömmande antecknings böcker anses aktivt och deras kontext avlägsnas aldrig förrän körningen har stoppats. Om en inaktiv kontext avlägsnas visas ett meddelande i användar gränssnittet som anger att den bärbara datorn som använder kontexten kopplades från på grund av inaktiv.

Antecknings bokens kontext har avlägsnats

Om du försöker ansluta en antecknings bok till ett kluster som har maximalt antal körnings kontexter och det inte finns några inaktiva kontexter (eller om autoavlägsning är inaktiverat) visas ett meddelande om att tröskelvärdet för maximalt antal körnings kontexter har uppnåtts och antecknings boken är kvar i tillståndet Detached.

Antecknings boken är frånkopplad

Om du använder en process som förgrening, anses en inaktiv körnings kontext fortfarande vara inaktiv när körningen av begäran som förgrenade processen returneras. Förgreningar av separata processer rekommenderas inte med Spark.

Konfigurera automatisk borttagning av kontext

Du kan konfigurera Sammanhangs beroende automatiskt genom att ange egenskapen Spark spark.databricks.chauffeur.enableIdleContextTracking .

  • I Databricks 5,0 och senare är automatisk borttagning aktiverat som standard. Du inaktiverar automatisk borttagning för ett kluster genom att ange spark.databricks.chauffeur.enableIdleContextTracking false .
  • I Databricks 4,3 är automatisk borttagning inaktiverat som standard. Du aktiverar automatisk borttagning för ett kluster genom att ange spark.databricks.chauffeur.enableIdleContextTracking true .

Koppla en antecknings bok till ett kluster

Så här ansluter du en antecknings bok till ett kluster:

  1. I verktygsfältet Notebook klickar du på  kluster ikon listruta för frånkopplat  kluster .
  2. Välj ett klusteri list rutan.

Viktigt

En ansluten antecknings bok har följande Apache Spark variabler definierade.

Klass Variabelnamn
SparkContext sc
SQLContext/HiveContext sqlContext
SparkSession (Spark 2. x) spark

Skapa inte en SparkSession , SparkContext eller SQLContext . Detta leder till inkonsekvent beteende.

Fastställa Spark-och Databricks runtime version

För att fastställa Spark-versionen av klustret som antecknings boken är ansluten till, kör:

spark.version

För att fastställa Databricks Runtime versionen av klustret som antecknings boken är kopplad till, kör:

Scala
dbutils.notebook.getContext.tags("sparkVersion")
Python
spark.conf.get("spark.databricks.clusterUsageTags.sparkVersion")

Anteckning

Både den här sparkVersion taggen och spark_version egenskapen som krävs av slut punkterna i API : erna och jobb-API: et i klustret refererar till den Databricks runtime versionen, inte Spark-versionen.

Koppla från en antecknings bok från ett kluster

  1. I verktygsfältet Notebook klickar du på  kluster ikon bifogad  kluster List rutan .

  2. Välj Koppla från.

    Koppla från Notebook

Du kan också koppla från antecknings böcker från ett kluster med hjälp av fliken antecknings böcker på sidan kluster information.

När du kopplar från en antecknings bok från ett kluster tas körnings kontexten bort och alla beräknade variabel värden rensas från antecknings boken.

Tips

Azure Databricks rekommenderar att du kopplar från oanvända antecknings böcker från ett kluster. Detta frigör minnes utrymme på driv rutinen.

Visa alla antecknings böcker som är anslutna till ett kluster

Fliken antecknings böcker på sidan kluster information visar alla antecknings böcker som är kopplade till ett kluster. Fliken visar också status för alla anslutna antecknings böcker, tillsammans med den senaste gången som ett kommando kördes från antecknings boken.

Bifogade antecknings böcker i kluster information

Schemalägg en bärbar dator

Så här schemalägger du att ett anteckningsbok-jobb ska köras regelbundet:

  1. I verktygsfältet Notebook klickar du på Schema längst upp till höger.
  2. Klicka på + Ny.
  3. Välj schemat.
  4. Klicka på OK.

Distribuera antecknings böcker

För att du enkelt ska kunna distribuera Azure Databricks antecknings böcker, Azure Databricks stöder Databricks-arkivet, som är ett paket som kan innehålla en mapp med antecknings böcker eller en enda bärbar dator. Ett Databricks-arkiv är en JAR-fil med extra metadata och har tillägget .dbc . Antecknings böckerna som finns i arkivet har ett Azure Databricks internt format.

Importera ett arkiv

  1. Klicka på  Nedmarkörer eller  meny List rutan till höger om en mapp eller Notebook och välj Importera.
  2. Välj fil eller URL.
  3. Gå till eller ta bort ett Databricks Arkiv i Dropzone.
  4. Klicka på Importera. Arkivet importeras till Azure Databricks. Om arkivet innehåller en mapp, återskapar Azure Databricks mappen.

Exportera ett arkiv

Klicka på  Nedmarkörer eller  meny List rutan till höger om en mapp eller notebook och välj Exportera > DBC-Arkiv. Azure Databricks laddar ned en fil med namnet <[folder|notebook]-name>.dbc .