Share via


Vad är arbetsytefiler?

En arbetsytefil är en fil i Azure Databricks-arbetsytan som inte är en Databricks-anteckningsbok. Arbetsytefiler kan vara valfri filtyp. Vanliga exempel:

  • .py filer som används i anpassade moduler.
  • .md filer, till exempel README.md.
  • .csv eller andra små datafiler.
  • .txt Filer.
  • .whl Bibliotek.
  • Loggfiler.

Arbetsytefiler innehåller filer som tidigare kallades "Filer i lagringsplatser". Rekommendationer om hur du arbetar med filer finns i Rekommendationer för filer i volymer och arbetsytefiler.

Viktigt!

Arbetsytefiler aktiveras överallt som standard i Databricks Runtime version 11.2, men kan inaktiveras av administratörer med hjälp av REST-API:et. För produktionsarbetsbelastningar använder du Databricks Runtime 11.3 LTS eller senare. Kontakta arbetsytans administratör om du inte kan komma åt den här funktionen.

Vad du kan göra med arbetsytefiler

Azure Databricks tillhandahåller funktioner som liknar lokal utveckling för många filtyper för arbetsytor, inklusive en inbyggd filredigerare. Alla användningsfall för alla filtyper stöds inte. Även om du till exempel kan inkludera bilder i en importerad katalog eller lagringsplats kan du inte bädda in bilder i notebook-filer.

Du kan skapa, redigera och hantera åtkomst till arbetsytefiler med hjälp av välbekanta mönster från notebook-interaktioner. Du kan använda relativa sökvägar för biblioteksimporter från arbetsytefiler, ungefär som lokal utveckling. Mer information finns i:

Init-skript som lagras i arbetsytefiler har ett särskilt beteende. Du kan använda arbetsytefiler för att lagra och referera till init-skript i alla Databricks Runtime-versioner. Se Lagra init-skript i arbetsytefiler.

Kommentar

I Databricks Runtime 14.0 och senare är den aktuella standardkatalogen (CWD) för kod som körs lokalt katalogen som innehåller anteckningsboken eller skriptet som körs. Det här är en ändring i beteendet från Databricks Runtime 13.3 LTS och nedan. Se Vad är standardkatalogen för aktuell arbetskatalog?.

Begränsningar

En fullständig lista över begränsningar för arbetsytefiler finns i begränsningar för arbetsytefiler.

Storleksgräns för fil

Enskilda arbetsytefiler är begränsade till 500 MB.

Användare kan ladda upp filstorlekar upp till 500 MB från användargränssnittet. Den maximala filstorleken som tillåts när du skriver från ett kluster är 256 MB.

Databricks Runtime-versioner för filer i Git-mappar med ett kluster med Azure Databricks Container Services

I kluster som kör Databricks Runtime 11.3 LTS och senare kan du med standardinställningarna använda arbetsytefiler i Git-mappar med Azure Databricks Container Services (DCS).

I kluster som kör Databricks Runtime version 10.4 LTS och 9.1 LTS måste du konfigurera dockerfile för att komma åt arbetsytefiler i Git-mappar i ett kluster med DCS. Se följande dockerfiles för önskad Databricks Runtime-version:

Se Anpassa containrar med Databricks Container Service

Aktivera arbetsytefiler

Om du vill aktivera stöd för icke-notebook-filer på din Databricks-arbetsyta anropar du REST API:et /api/2.0/workspace-conf från en notebook-fil eller annan miljö med åtkomst till databricks-arbetsytan. Arbetsytefiler är aktiverade som standard.

Om du vill aktivera eller återaktivera stöd för filer som inte är notebook-filer på databricks-arbetsytan anropar /api/2.0/workspace-conf du och hämtar värdet för enableWorkspaceFileSystem nyckeln. Om den är inställd på trueär filer som inte är notebook-filer redan aktiverade för din arbetsyta.

I följande exempel visas hur du kan anropa det här API:et från en notebook-fil för att kontrollera om arbetsytefiler är inaktiverade och i så fall återaktivera dem.

Exempel: Notebook för återaktivering av stöd för Databricks-arbetsytefiler

Hämta notebook-fil