Angeben des DBFS-Pfads

Bei der Arbeit mit Azure Databricks müssen Sie manchmal auf das Databricks File System (DBFS) zugreifen.

Der Zugriff auf Dateien in DBFS erfolgt mit standardmäßigen Dateisystembefehlen, die Syntax variiert jedoch je nach verwendeter Sprache oder dem verwendeten Tool.

Nehmen Sie beispielsweise den folgenden DBFS-Pfad:

dbfs:/mnt/test_folder/test_folder1/

Apache Spark

Geben Sie unter Spark den vollständigen Pfad im Spark-Befehl read an.

spark.read.parquet(“dbfs:/mnt/test_folder/test_folder1/file.parquet”)

DBUtils

Wenn Sie DBUtilsverwenden, sollte der vollständige DBFS-Pfad wie in Spark-Befehlen verwendet werden. Die sprachspezifische Formatierung um den DBFS-Pfad unterscheidet sich je nach verwendeter Sprache.

%fs
ls dbfs:/mnt/test_folder/test_folder1/
dbutils.fs.ls(‘dbfs:/mnt/test_folder/test_folder1/’)
dbutils.fs.ls(“dbfs:/mnt/test_folder/test_folder1/”)

Hinweis

Die Angabe dbfs: ist bei Verwendung von DBUtils- oder Spark-Befehlen nicht erforderlich. Der Pfad dbfs:/mnt/test_folder/test_folder1/ entspricht /mnt/test_folder/test_folder1/ .

Shellbefehle

Shellbefehle erkennen den DFBS-Pfad nicht. Stattdessen wird auf DBFS und die darin enthaltenen Dateien mit der gleichen Syntax wie auf jeden anderen Ordner im Dateisystem zugegriffen.

Bash

ls /dbfs/mnt/test_folder/test_folder1/
cat /dbfs/mnt/test_folder/test_folder1/file_name.txt

Python

import os
os.listdir('/dbfs/mnt/test_folder/test_folder1/’)

Scala

import java.io.File
val directory = new File("/dbfs/mnt/test_folder/test_folder1/")
directory.listFiles