Was ist das Databricks-Dateisystem (Databricks File System, DBFS)?

Artikel
03/01/2024

Das Databricks-Dateisystem (Databricks File System, DBFS) ist ein verteiltes Dateisystem, das in einen Azure Databricks-Arbeitsbereich eingebunden und in Azure Databricks-Clustern verfügbar ist. DBFS ist eine Abstraktion, die auf skalierbarem Objektspeicher aufbaut und Unix-artige Dateisystemaufrufe nativen Cloudspeicher-API-Aufrufen zuordnet.

Hinweis

Azure Databricks-Arbeitsbereiche werden mit einem DBFS-Stammvolume bereitgestellt, auf das alle Benutzer standardmäßig zugreifen können. Databricks rät davon ab, Produktionsdaten an diesem Speicherort zu speichern.

Welche Möglichkeiten bietet DBFS?

DBFS bietet Komfort durch Zuordnung von Cloudobjektspeicher-URIs zu relativen Pfaden.

Dies ermöglicht die Interaktion mit dem Objektspeicher unter Verwendung von Verzeichnis- und Dateisemantiken anstelle von cloudspezifischen API-Befehlen.
Ermöglicht Ihnen das Einbinden von Cloudobjektspeicherorten, damit Sie Speicheranmeldeinformationen zu Pfaden im Azure Databricks-Arbeitsbereich zuordnen können.
Vereinfacht den Prozess der Aufbewahrung von Dateien im Objektspeicher, wodurch virtuelle Computer und angefügter Volumespeicher bei der Clusterbeendigung sicher gelöscht werden können.
Bietet einen praktischen Speicherort für Initialisierungsskripts, JAR-Dateien, Bibliotheken und Konfigurationen für die Clusterinitialisierung.
Bietet einen praktischen Speicherort für Prüfpunktdateien, die während des Modelltrainings mit OSS Deep Learning-Bibliotheken erstellt werden.

Hinweis

DBFS ist die Azure Databricks-Implementierung für FUSE. Siehe auch unter Arbeiten mit Dateien in Azure Databricks.

Interagieren mit Dateien in cloudbasiertem Objektspeicher

DBFS bietet viele Optionen für die Interaktion mit Dateien im Cloudobjektspeicher:

Einbinden von Objektspeicher

Durch das Einbinden des Objektspeichers in DBFS können Sie auf Objekte im Objektspeicher zugreifen, als ob sie sich im lokalen Dateisystem befänden. Einbindungen speichern die für den Zugriff auf den Speicher erforderlichen Hadoop-Konfigurationen, sodass Sie diese Einstellungen nicht im Code oder während der Clusterkonfiguration angeben müssen.

Weitere Informationen finden Sie unter Mount Cloud-Objektspeicher auf Azure Databricks.

Was ist der DBFS-Stamm?

Der DBFS-Stamm ist der Standardspeicherort für einen Azure Databricks-Arbeitsbereich, der als Teil der Arbeitsbereicherstellung im Cloudkonto bereitgestellt wird, das den Azure Databricks-Arbeitsbereich enthält. Einzelheiten zur DBFS-Stammkonfiguration und -Bereitstellung finden Sie im Azure Databricks-Schnellstart.

Einige Benutzer von Azure Databricks bezeichnen den DBFS-Stamm als „DBFS“ oder „das DBFS“; es ist wichtig zu unterscheiden, dass DBFS ein Dateisystem ist, das für die Interaktion mit Daten im Cloudobjektspeicher verwendet wird, und der DBFS-Stamm ist ein Cloudobjektspeicherort. Sie verwenden DBFS, um mit dem DBFS-Stamm zu interagieren, aber es handelt sich um unterschiedliche Konzepte, und DBFS hat viele Anwendungen jenseits des DBFS-Stamms.

Der DBFS-Stamm enthält eine Reihe spezieller Speicherorte, die als Standard für verschiedene Aktionen dienen, die von Benutzern im Arbeitsbereich ausgeführt werden. Welche Verzeichnisse befinden sich standardmäßig im DBFS-Stamm?.

Wie funktioniert DBFS mit Unity Catalog?

Unity Catalog fügt die Konzepte externer Speicherorte und Anmeldeinformationen verwalteter Speicher hinzu, um Organisationen den Zugriff auf Daten im Cloudobjektspeicher mit den geringsten Rechten zu ermöglichen. Unity Catalog bietet auch einen neuen Standardspeicherort für verwaltete Tabellen. Einige Sicherheitskonfigurationen bieten direkten Zugriff auf verwaltete Unity Catalog-Ressourcen und DBFS. Databricks hat Empfehlungen für die Verwendung von DBFS und Unity Catalog zusammengestellt.