Jak zadat cestu DBFS

Při práci s Azure Databricks někdy budete muset mít přístup k systému souborů datacihly (DBFS).

Přístup k souborům na DBFS se provádí pomocí standardních příkazů systému souborů. syntaxe se ale liší v závislosti na použitém jazyku nebo nástroji.

Například proveďte následující cestu DBFS:

dbfs:/mnt/test_folder/test_folder1/

Apache Spark

V části Spark byste měli v příkazu Spark Read zadat úplnou cestu.

spark.read.parquet(“dbfs:/mnt/test_folder/test_folder1/file.parquet”)

DBUtils

Pokud používáte DBUtils, měla by se použít úplná cesta DBFS, stejně jako v příkazech Spark. Formátování specifické pro jazyk kolem cesty DBFS se liší v závislosti na použitém jazykovém jazyce.

%fs
ls dbfs:/mnt/test_folder/test_folder1/
dbutils.fs.ls(‘dbfs:/mnt/test_folder/test_folder1/’)
dbutils.fs.ls(“dbfs:/mnt/test_folder/test_folder1/”)

Poznámka

dbfs:Při použití příkazů DBUtils nebo Spark se zadání nepožaduje. Cesta dbfs:/mnt/test_folder/test_folder1/ je ekvivalentní k /mnt/test_folder/test_folder1/ .

Příkazy prostředí

Příkazy prostředí nerozpoznají cestu DFBS. Místo toho DBFS a soubory v nástroji jsou k dispozici se stejnou syntaxí jako jakákoli jiná složka v systému souborů.

Bash

ls /dbfs/mnt/test_folder/test_folder1/
cat /dbfs/mnt/test_folder/test_folder1/file_name.txt

Python

import os
os.listdir('/dbfs/mnt/test_folder/test_folder1/’)

Scala

import java.io.File
val directory = new File("/dbfs/mnt/test_folder/test_folder1/")
directory.listFiles