Hantera filtillgångar i Databricks Git-mappar
Databricks Git-mappar fungerar som Git-klienter för Databricks-hanterade kloner av Git-baserade källlagringsplatser, så att du kan utföra en delmängd Av Git-åtgärder på deras innehåll från din arbetsyta. Som en del av den här Git-integreringen visas filer som lagras på fjärrlagringsplatsen som "tillgångar" baserat på deras typ, med vissa begränsningar som är specifika för deras typ. I synnerhet notebook-filer har olika egenskaper baserat på deras typ. Läs den här artikeln för att förstå hur du arbetar med tillgångar, särskilt IPYNB-notebook-filer, i Git-mappar.
Tillgångstyper som stöds
Endast vissa Azure Databricks-tillgångstyper stöds av Git-mappar. I det här fallet innebär "stöds" att "kan serialiseras, versionskontrolleras och push-överföras till den säkerhetskopierade Git-lagringsplatsen".
För närvarande är de tillgångstyper som stöds:
Tillgångstyp | Details |
---|---|
Arkiv | Filer är serialiserade data och kan innehålla allt från bibliotek till binärfiler till kod till bilder. Mer information finns i Vad är arbetsytefiler? |
Notebook-fil | Notebook-filer är specifikt de filformat för notebook-filer som stöds av Databricks. Notebook-filer anses vara en separat Azure Databricks-tillgångstyp från Filer eftersom de inte serialiseras. Git-mappar avgör en notebook-fil med filnamnstillägget (till exempel .ipynb ) eller efter filextensios kombinerat med en särskild markör i filinnehåll (till exempel en # Databricks notebook source kommentar i början av .py källfilerna). |
Mapp | En mapp är en Azure Databricks-specifik struktur som representerar serialiserad information om en logisk gruppering av filer i Git. Som förväntat upplever användaren detta som en "mapp" när de visar en Azure Databricks Git-mapp eller kommer åt den med Azure Databricks CLI. |
Azure Databricks-tillgångstyper som för närvarande inte stöds i Git-mappar innehåller följande:
- DBSQL-frågor
- Aviseringar
- Instrumentpaneler (inklusive äldre instrumentpaneler)
Kommentar
Du kan flytta befintliga tillgångar som inte stöds till en Git-mapp, men du kan inte checka in ändringar i dessa tillgångar tillbaka till lagringsplatsen. Du kan inte skapa nya tillgångar som inte stöds i en Git-mapp.
Notebook-format
Databricks tar hänsyn till två typer av databricks-specifika notebook-format på hög nivå: "source" och "ipynb". När en användare checkar in en notebook-fil i källformatet checkar Databricks-plattformen in en platt fil med ett språksuffix, till exempel .py
, .sql
, .scala
eller .r
. En "source"-format notebook innehåller endast källkod och innehåller inte utdata som tabellvisningar och visualiseringar som är resultatet av att köra notebook-filen.
Formatet "ipynb" har dock utdata associerade med det, och dessa artefakter skickas automatiskt till Git-lagringsplatsen som säkerhetskopierar Git-mappen när du push-överför anteckningsboken .ipynb
som genererade dem. Om du vill checka in utdata tillsammans med koden använder du notebook-formatet "ipynb" och konfigurationskonfigurationen så att en användare kan checka in genererade utdata. Därför stöder "ipynb" också en bättre visningsupplevelse i Databricks för notebook-filer som skickas till fjärranslutna Git-lagringsplatser via Git-mappar.
Källformat för notebook-fil | Details |
---|---|
source | Kan vara valfri kodfil med ett standardfilsuffix som signalerar kodspråket, till exempel .py , .scala .r och .sql . "käll"-notebook-filer behandlas som textfiler och innehåller inga associerade utdata när de checkas tillbaka till en Git-lagringsplats. |
ipynb | "ipynb"-filer slutar med .ipynb och kan, om de konfigureras, skicka utdata (till exempel visualiseringar) från Databricks Git-mappen till git-lagringsplatsen för säkerhetskopiering. En .ipnynb notebook-fil kan innehålla kod på valfritt språk som stöds av Databricks-notebook-filer (trots py delen av .ipynb ). |
Om du vill att utdata ska skickas tillbaka till lagringsplatsen när du har kört en notebook-fil använder du en .ipynb
(Jupyter)-anteckningsbok. Om du bara vill köra notebook-filen och hantera den i Git använder du ett källformat som .py
.
Mer information om notebook-format som stöds finns i Exportera och importera Databricks-notebook-filer.
Kommentar
Vad är "utdata"?
Utdata är resultatet av att köra en notebook-fil på Databricks-plattformen, inklusive tabellvisningar och visualiseringar.
Hur gör jag för att ange vilket format en notebook-fil använder, förutom filnamnstillägget?
Överst i en notebook-fil som hanteras av Databricks finns det vanligtvis en kommentar med en rad som anger formatet. För en .py
"käll"-notebook-fil ser du till exempel en rad som ser ut så här:
# Databricks notebook source
För .ipynb
filer används filsuffixet för att indikera att det är notebook-formatet "ipynb".
IPYNB-notebook-filer i Databricks Git-mappar
Stöd för Jupyter Notebooks (.ipynb
filer) finns i Git-mappar. Du kan klona lagringsplatser med .ipynb
notebook-filer, arbeta med dem i Databricks-produkten och sedan checka in och push-överföra dem som .ipynb
notebook-filer. Metadata som instrumentpanelen för notebook-filer bevaras. Administratörer kan styra om utdata kan checkas in eller inte.
Tillåt incheckning av notebook-utdata .ipynb
Som standard tillåter .ipynb
inte administratörsinställningen för Git-mappar att notebook-utdata checkas in. Arbetsyteadministratörer kan ändra den här inställningen:
Gå till Administratörsinställningar > Arbetsyteinställningar.
Under Git-mappar > Tillåt Git-mappar att exportera IPYNB-utdata väljer du Tillåt: IPYNB-utdata kan aktiveras.
Viktigt!
När utdata ingår bevaras visualiserings- och instrumentpanelskonfigurationerna med filformatet .ipynb.
Kontrollera artefaktincheckningar för IPYNB-notebook-utdata
När du checkar in en .ipynb
fil skapar Databricks en konfigurationsfil som gör att du kan styra hur du checkar in utdata: .databricks/commit_outputs
.
Om du har en
.ipynb
notebook-fil men ingen konfigurationsfil på lagringsplatsen öppnar du modalen Git-status.I meddelandedialogrutan klickar du på Skapa commit_outputs fil.
Du kan också generera konfigurationsfiler från menyn Arkiv . Menyn Arkiv har en kontroll som gör att du automatiskt kan uppdatera konfigurationsfilen för att ange inkludering eller exkludering av utdata för en specifik notebook-fil.
I menyn Arkiv väljer du Checka in notebook-filer.
I dialogrutan bekräftar du ditt val att checka in notebook-utdata.
Konvertera en källanteckningsbok till IPYNB
Du kan konvertera en befintlig källanteckningsbok i en Git-mapp till en IPYNB-notebook-fil via Azure Databricks-användargränssnittet.
Öppna en källanteckningsbok på arbetsytan.
Välj Arkiv på arbetsytans meny och välj sedan Ändra notebook-format [källa]. Om notebook-filen redan är i IPYNB-format är [källa] [ipynb] i menyelementet.
I den modala dialogrutan väljer du "Jupyter Notebook-format (.ipynb)" och klickar på Ändra.
Du kan även:
- Skapa nya
.ipynb
notebook-filer. - Visa diff som koddiff (kodändringar i celler) eller rå-diff (kodändringar visas som JSON-syntax, som innehåller notebook-utdata som metadata).
Mer information om vilka typer av notebook-filer som stöds i Azure Databricks finns i Exportera och importera Databricks-notebook-filer.
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för