Hantera filtillgångar i Databricks Git-mappar

Databricks Git-mappar fungerar som Git-klienter för Databricks-hanterade kloner av Git-baserade källlagringsplatser, så att du kan utföra en delmängd Av Git-åtgärder på deras innehåll från din arbetsyta. Som en del av den här Git-integreringen visas filer som lagras på fjärrlagringsplatsen som "tillgångar" baserat på deras typ, med vissa begränsningar som är specifika för deras typ. I synnerhet notebook-filer har olika egenskaper baserat på deras typ. Läs den här artikeln för att förstå hur du arbetar med tillgångar, särskilt IPYNB-notebook-filer, i Git-mappar.

Tillgångstyper som stöds

Endast vissa Azure Databricks-tillgångstyper stöds av Git-mappar. I det här fallet innebär "stöds" att "kan serialiseras, versionskontrolleras och push-överföras till den säkerhetskopierade Git-lagringsplatsen".

För närvarande är de tillgångstyper som stöds:

Tillgångstyp Details
Arkiv Filer är serialiserade data och kan innehålla allt från bibliotek till binärfiler till kod till bilder. Mer information finns i Vad är arbetsytefiler?
Notebook-fil Notebook-filer är specifikt de filformat för notebook-filer som stöds av Databricks. Notebook-filer anses vara en separat Azure Databricks-tillgångstyp från Filer eftersom de inte serialiseras. Git-mappar avgör en notebook-fil med filnamnstillägget (till exempel .ipynb) eller efter filextensios kombinerat med en särskild markör i filinnehåll (till exempel en # Databricks notebook source kommentar i början av .py källfilerna).
Mapp En mapp är en Azure Databricks-specifik struktur som representerar serialiserad information om en logisk gruppering av filer i Git. Som förväntat upplever användaren detta som en "mapp" när de visar en Azure Databricks Git-mapp eller kommer åt den med Azure Databricks CLI.

Azure Databricks-tillgångstyper som för närvarande inte stöds i Git-mappar innehåller följande:

  • DBSQL-frågor
  • Aviseringar
  • Instrumentpaneler (inklusive äldre instrumentpaneler)

Kommentar

Du kan flytta befintliga tillgångar som inte stöds till en Git-mapp, men du kan inte checka in ändringar i dessa tillgångar tillbaka till lagringsplatsen. Du kan inte skapa nya tillgångar som inte stöds i en Git-mapp.

Notebook-format

Databricks tar hänsyn till två typer av databricks-specifika notebook-format på hög nivå: "source" och "ipynb". När en användare checkar in en notebook-fil i källformatet checkar Databricks-plattformen in en platt fil med ett språksuffix, till exempel .py, .sql, .scalaeller .r. En "source"-format notebook innehåller endast källkod och innehåller inte utdata som tabellvisningar och visualiseringar som är resultatet av att köra notebook-filen.

Formatet "ipynb" har dock utdata associerade med det, och dessa artefakter skickas automatiskt till Git-lagringsplatsen som säkerhetskopierar Git-mappen när du push-överför anteckningsboken .ipynb som genererade dem. Om du vill checka in utdata tillsammans med koden använder du notebook-formatet "ipynb" och konfigurationskonfigurationen så att en användare kan checka in genererade utdata. Därför stöder "ipynb" också en bättre visningsupplevelse i Databricks för notebook-filer som skickas till fjärranslutna Git-lagringsplatser via Git-mappar.

Källformat för notebook-fil Details
source Kan vara valfri kodfil med ett standardfilsuffix som signalerar kodspråket, till exempel .py, .scala.r och .sql. "käll"-notebook-filer behandlas som textfiler och innehåller inga associerade utdata när de checkas tillbaka till en Git-lagringsplats.
ipynb "ipynb"-filer slutar med .ipynb och kan, om de konfigureras, skicka utdata (till exempel visualiseringar) från Databricks Git-mappen till git-lagringsplatsen för säkerhetskopiering. En .ipnynb notebook-fil kan innehålla kod på valfritt språk som stöds av Databricks-notebook-filer (trots py delen av .ipynb).

Om du vill att utdata ska skickas tillbaka till lagringsplatsen när du har kört en notebook-fil använder du en .ipynb (Jupyter)-anteckningsbok. Om du bara vill köra notebook-filen och hantera den i Git använder du ett källformat som .py.

Mer information om notebook-format som stöds finns i Exportera och importera Databricks-notebook-filer.

Kommentar

Vad är "utdata"?

Utdata är resultatet av att köra en notebook-fil på Databricks-plattformen, inklusive tabellvisningar och visualiseringar.

Hur gör jag för att ange vilket format en notebook-fil använder, förutom filnamnstillägget?

Överst i en notebook-fil som hanteras av Databricks finns det vanligtvis en kommentar med en rad som anger formatet. För en .py "käll"-notebook-fil ser du till exempel en rad som ser ut så här:

# Databricks notebook source

För .ipynb filer används filsuffixet för att indikera att det är notebook-formatet "ipynb".

IPYNB-notebook-filer i Databricks Git-mappar

Stöd för Jupyter Notebooks (.ipynb filer) finns i Git-mappar. Du kan klona lagringsplatser med .ipynb notebook-filer, arbeta med dem i Databricks-produkten och sedan checka in och push-överföra dem som .ipynb notebook-filer. Metadata som instrumentpanelen för notebook-filer bevaras. Administratörer kan styra om utdata kan checkas in eller inte.

Tillåt incheckning av notebook-utdata .ipynb

Som standard tillåter .ipynb inte administratörsinställningen för Git-mappar att notebook-utdata checkas in. Arbetsyteadministratörer kan ändra den här inställningen:

  1. Gå till Administratörsinställningar > Arbetsyteinställningar.

  2. Under Git-mappar > Tillåt Git-mappar att exportera IPYNB-utdata väljer du Tillåt: IPYNB-utdata kan aktiveras.

    Administratörskonsol: Tillåt Att Git-mappar exporterar IPYNB-utdata.

Viktigt!

När utdata ingår bevaras visualiserings- och instrumentpanelskonfigurationerna med filformatet .ipynb.

Kontrollera artefaktincheckningar för IPYNB-notebook-utdata

När du checkar in en .ipynb fil skapar Databricks en konfigurationsfil som gör att du kan styra hur du checkar in utdata: .databricks/commit_outputs.

  1. Om du har en .ipynb notebook-fil men ingen konfigurationsfil på lagringsplatsen öppnar du modalen Git-status.

  2. I meddelandedialogrutan klickar du på Skapa commit_outputs fil.

    Användargränssnitt för notebook-incheckning: Knappen Skapa commit_outputs fil.

Du kan också generera konfigurationsfiler från menyn Arkiv . Menyn Arkiv har en kontroll som gör att du automatiskt kan uppdatera konfigurationsfilen för att ange inkludering eller exkludering av utdata för en specifik notebook-fil.

  1. I menyn Arkiv väljer du Checka in notebook-filer.

    Noteboook-redigerare: Checka in notebook-filer matar ut status och kontroll.

  2. I dialogrutan bekräftar du ditt val att checka in notebook-utdata.

    Dialogrutan Checka in notebooks-utdata.

Konvertera en källanteckningsbok till IPYNB

Du kan konvertera en befintlig källanteckningsbok i en Git-mapp till en IPYNB-notebook-fil via Azure Databricks-användargränssnittet.

  1. Öppna en källanteckningsbok på arbetsytan.

  2. Välj Arkiv på arbetsytans meny och välj sedan Ändra notebook-format [källa]. Om notebook-filen redan är i IPYNB-format är [källa] [ipynb] i menyelementet.

    Arbetsytans filmeny expanderad med alternativet Ändra notebook-format.

  3. I den modala dialogrutan väljer du "Jupyter Notebook-format (.ipynb)" och klickar på Ändra.

    Den modala dialogrutan där du kan välja FORMATET IPYNB Notebook.

Du kan även:

  • Skapa nya .ipynb notebook-filer.
  • Visa diff som koddiff (kodändringar i celler) eller rå-diff (kodändringar visas som JSON-syntax, som innehåller notebook-utdata som metadata).

Mer information om vilka typer av notebook-filer som stöds i Azure Databricks finns i Exportera och importera Databricks-notebook-filer.