Share via


Was sind Arbeitsbereichsdateien?

Eine Arbeitsbereichsdatei ist jede Datei im Azure Databricks-Arbeitsbereich, die kein Databricks-Notebook ist. Arbeitsbereichsdateien können einen beliebigen Dateityp haben. Häufige Beispiele sind:

  • .py-Dateien, die in benutzerdefinierten Modulen verwendet werden.
  • .md-Dateien, z. B README.md.
  • .csv- oder andere kleine Datendateien.
  • .txt-Dateien.
  • .whl-Bibliotheken.
  • Protokolldateien.

Arbeitsbereichsdateien enthalten Dateien, die früher als „Dateien in Repos“ bezeichnet wurden.

Wichtig

Arbeitsbereichsdateien sind in Databricks Runtime 11.2 und höher standardmäßig überall aktiviert, können aber von Administrator*innen mithilfe der REST-API deaktiviert werden. Verwenden Sie für Produktionsworkloads Databricks Runtime 11.3 LTS oder höher. Wenden Sie sich an den Arbeitsbereichsadministrator, wenn Sie nicht auf diese Funktionalität zugreifen können.

Verwendungszwecke von Arbeitsbereichsdateien

Azure Databricks bietet Funktionen, die der lokalen Entwicklung für viele Arbeitsbereichsdateitypen ähneln, einschließlich eines integrierten Datei-Editors. Nicht alle Anwendungsfälle für alle Dateitypen werden unterstützt. Sie können zwar z. B. Bilder in ein importiertes Verzeichnis oder Repository einschließen, Bilder in Notebooks einbetten, können Sie jedoch nicht.

Sie können den Zugriff auf Arbeitsbereichsdateien mithilfe vertrauter Muster aus Notebookinteraktionen erstellen, bearbeiten und verwalten. Sie können relative Pfade für Bibliotheksimporte aus Arbeitsbereichsdateien verwenden, ähnlich wie bei der lokalen Entwicklung. Weitere Informationen finden Sie unter:

In Arbeitsbereichsdateien gespeicherte Initskripts weisen ein besonderes Verhalten auf. Mithilfe von Arbeitsbereichsdateien können Sie Initskripts in jeder Databricks Runtime-Version speichern und darauf verweisen. Weitere Informationen finden Sie unter Speichern von Initialisierungsskripts in Arbeitsbereichsdateien.

Hinweis

In Databricks Runtime 14.0 und höher ist das aktuelle Standardarbeitsverzeichnis (CWD) für lokal ausgeführten Code das Verzeichnis, das das ausgeführte Notebook oder Skript enthält. Dies ist eine Verhaltensänderung von Databricks Runtime 13.3 LTS und niedriger. Weitere Informationen finden Sie unter Was ist das aktuelle Standardarbeitsverzeichnis?.

Einschränkungen

Eine vollständige Liste der Einschränkungen für Arbeitsbereichsdateien finden Sie unter Einschränkungen bei Arbeitsbereichsdateien.

Dateigrößenbeschränkung

Einzelne Arbeitsbereichsdateien sind auf 500 MB begrenzt.

Benutzer*innen können Dateien mit einer Größe von bis zu 500 MB über die Benutzeroberfläche hochladen. Die maximale Dateigröße, die beim Schreiben aus einem Cluster zulässig ist, beträgt 256 MB.

Databricks Runtime-Versionen für Dateien in Git-Ordnern mit einem Cluster mit Azure Databricks Container Services

In Clustern, in denen Databricks Runtime 11.3 LTS und höher ausgeführt wird, können Sie mit den Standardeinstellungen Arbeitsbereichsdateien in Git-Ordnern mit Azure Databricks Container Services (DCS) verwenden.

In Clustern, in denen die Databricks Runtime-Versionen 10.4 LTS und 9.1 LTS ausgeführt werden, müssen Sie das Dockerfile für den Zugriff auf Arbeitsbereichsdateien in Git-Ordnern in einem Cluster mit DCS konfigurieren. Die folgenden Dockerfiles bieten Informationen zur gewünschten Databricks Runtime-Version:

Weitere Informationen finden Sie unter Anpassen von Containern mit dem Databricks-Containerdienst.

Arbeitsbereichsdateien aktivieren

Um die Unterstützung für Nicht-Notebook-Dateien in Ihrem Databricks-Arbeitsbereich zu aktivieren, rufen Sie die REST-API /api/2.0/workspace-conf von einem Notebook oder einer anderen Umgebung mit Zugriff auf Ihren Databricks-Arbeitsbereich auf. Arbeitsbereichsdateien sind standardmäßig aktiviert.

Um die Unterstützung für Nicht-Notebook-Dateien in Ihrem Databricks-Arbeitsbereich zu aktivieren oder wieder zu aktivieren, rufen Sie /api/2.0/workspace-conf auf und erhalten den Wert des Schlüssels enableWorkspaceFileSystem. Wenn diese Option auf true festgelegt ist, sind Nicht-Notebook-Dateien bereits für Ihren Arbeitsbereich aktiviert.

Im folgenden Beispiel wird gezeigt, wie Sie diese API von einem Notebook aus aufrufen können, um zu prüfen, ob Arbeitsbereichsdateien deaktiviert sind und sie gegebenenfalls wieder zu aktivieren.

Beispiel: Notebook für die erneute Aktivierung der Unterstützung für Databricks-Arbeitsbereichsdateien

Notebook abrufen