DBFS-CLI (Legacy)

Wichtig

Diese Dokumentation wurde eingestellt und wird unter Umständen nicht aktualisiert.

Diese Informationen gelten für ältere Versionen der Databricks-Befehlszeilenschnittstelle (0.18 und niedriger). Databricks empfiehlt, stattdessen die neuere Databricks-CLI Version 0.205 oder höher zu verwenden. Weitere Informationen finden Sie unter Was ist die Databricks-CLI?. Führen Sie databricks -v aus, um die Version Ihrer Databricks CLI zu ermitteln.

Informationen zum Migrieren der Databricks CLI-Version 0.18 oder niedriger zur Databricks CLI-Version 0.205 oder höher finden Sie unter Databricks CLI-Migration.

Sie führen Databricks-DBFS-CLI-Unterbefehle aus, die Sie an databricks fs (oder den Alias dbfs) anfügen. Dabei wird allen DBFS-Pfaden dbfs:/ vorangestellt. Diese Unterbefehle rufen die DBFS-API auf.

databricks fs -h
Usage: databricks fs [OPTIONS] COMMAND [ARGS]...

  Utility to interact with DBFS. DBFS paths are all prefixed
  with dbfs:/. Local paths can be absolute or local.

Options:
  -v, --version
  -h, --help     Show this message and exit.

Commands:
  cat        Shows the contents of a file. Does not work for directories.
  configure
  cp         Copies files to and from DBFS.
    Options:
      -r, --recursive
      --overwrite     Overwrites files that exist already.
  ls         Lists files in DBFS.
    Options:
      --absolute      Displays absolute paths.
      -l              Displays full information including size and file type.
  mkdirs     Makes directories in DBFS.
  mv         Moves a file between two DBFS paths.
  rm         Removes files from DBFS.
    Options:
      -r, --recursive

Bei Vorgängen, die mehr als 10.000 Dateien auflisten, verschieben oder löschen, wird dringend von der Verwendung der DBFS-CLI abgeraten.

  • Beim list-Vorgang (databricks fs ls) tritt nach ca. 60 Sekunden ein Timeout auf.
  • Beim move-Vorgang (databricks fs mv) tritt nach ca. 60 Sekunden ein Timeout auf, was möglicherweise zu teilweise verschobenen Daten führt.
  • Beim delete-Vorgang (databricks fs rm) werden Batches oder Dateien inkrementell gelöscht.

Es wird empfohlen, solche Vorgänge im Kontext eines Clusters mithilfe des Hilfsprogramms für Dateisysteme (dbutils.fs) auszuführen. dbutils.fs deckt den Funktionsbereich der DBFS-REST-API ab, jedoch über Notebooks. Das Ausführen solcher Vorgänge mithilfe von Notebooks bietet bessere Kontrolle beispielsweise durch selektive Löschungen, Verwaltbarkeit und die Möglichkeit, periodische Aufträge zu automatisieren.

Einschränkungen

Die Verwendung der Databricks-DBFS-CLI mit firewallfähigen Speichercontainern wird nicht unterstützt. Databricks empfiehlt die Verwendung von Databricks Connect oder az storage.

Auflisten des Inhalts einer Datei

Führen Sie databricks fs cat --help aus, um die Syntaxdokumentation anzuzeigen.

databricks fs cat dbfs:/tmp/my-file.txt
Apache Spark is awesome!

Kopieren einer Datei

Führen Sie databricks fs cp --help aus, um die Syntaxdokumentation anzuzeigen.

databricks fs cp dbfs:/tmp/your_file.txt dbfs:/parent/child/grandchild/my_file.txt --overwrite

Bei einer erfolgreichen Ausführung zeigt dieser Befehl nichts an.

Auflisten von Informationen zu Dateien und Verzeichnissen

Führen Sie databricks fs ls --help aus, um die Syntaxdokumentation anzuzeigen.

databricks fs ls dbfs:/tmp --absolute -l
file  42408084  dbfs:/tmp/LoanStats.csv    1590005159000
file        40  dbfs:/tmp/file_b.txt       1603991038000
dir          0  dbfs:/tmp/hive                         0
dir          0  dbfs:/tmp/mlflow                       0
file       385  dbfs:/tmp/multi-line.json  1597770632000
dir          0  dbfs:/tmp/new                          0
dir          0  dbfs:/tmp/parent                       0
file       243  dbfs:/tmp/test.json        1597770628000
file        40  dbfs:/tmp/test_dbfs.txt    1603989162000

Erstellen eines Verzeichnisses

Führen Sie databricks fs mkdirs --help aus, um die Syntaxdokumentation anzuzeigen.

databricks fs mkdirs dbfs:/tmp/new-dir

Bei einer erfolgreichen Ausführung zeigt dieser Befehl nichts an.

Verschieben einer Datei

Führen Sie databricks fs mv --help aus, um die Syntaxdokumentation anzuzeigen.

databricks fs mv dbfs:/tmp/my-file.txt dbfs:/parent/child/grandchild/my-file.txt

Bei einer erfolgreichen Ausführung zeigt dieser Befehl nichts an.

Löschen von Dateien

Führen Sie databricks fs rm --help aus, um die Nutzungsdokumentation anzuzeigen.

databricks fs rm dbfs:/tmp/parent/child/grandchild/my-file.txt
Delete finished successfully.