DBFS CLI

Ejecute comandos de la CLI de DBFS de Databricks anexándolos a (o al alias ), con el prefijo de todas las rutas de databricks fs dbfs acceso de DBFS con dbfs:/ .

databricks fs -h
Usage: databricks fs [OPTIONS] COMMAND [ARGS]...

  Utility to interact with DBFS. DBFS paths are all prefixed
  with dbfs:/. Local paths can be absolute or local.

Options:
  -v, --version
  -h, --help     Show this message and exit.

Commands:
  cat        Shows the contents of a file. Does not work for directories.
  configure
  cp         Copies files to and from DBFS.
    Options:
      -r, --recursive
      --overwrite     Overwrites files that exist already.
  ls         Lists files in DBFS.
    Options:
      --absolute      Displays absolute paths.
      -l              Displays full information including size and file type.
  mkdirs     Makes directories in DBFS.
  mv         Moves a file between two DBFS paths.
  rm         Removes files from DBFS.
    Options:
      -r, --recursive

Para las operaciones que enumeran, mueven o eliminan más de 10 000 archivos, se desaconseja encarecidamente el uso de la CLI de DBFS.

  • La list operación ( ) se realizará después de aproximadamente databricks fs ls 60 s.
  • La operación ( ) se completará después de unos 60, lo que podría provocar move databricks fs mv datos parcialmente movidos.
  • La delete operación ( ) eliminará databricks fs rm incrementalmente lotes de archivos.

Se recomienda realizar estas operaciones en el contexto de un clúster mediante la utilidad del sistema de archivos (dbutils.fs). dbutils.fs abarca el ámbito funcional de la API REST de DBFS, pero desde cuadernos. La ejecución de estas operaciones mediante cuadernos proporciona un mejor control, como eliminaciones selectivas, capacidad de administración y la posibilidad de automatizar trabajos periódicos.

Limitaciones

No se admite el uso de la CLI de DBFS de Databricks con contenedores de almacenamiento habilitados para firewall. Databricks recomienda usar Databricks Connect o az storage.

Enumeración del contenido de un archivo

Para mostrar la documentación de uso, ejecute databricks fs cat --help .

databricks fs cat dbfs:/tmp/my-file.txt
Apache Spark is awesome!

Copiar un archivo

Para mostrar la documentación de uso, ejecute databricks fs cp --help .

databricks fs cp dbfs:/tmp/your_file.txt dbfs:/parent/child/grandchild/my_file.txt --overwrite

Si se ejecuta correctamente, este comando no muestra nada.

Enumeración de información sobre archivos y directorios

Para mostrar la documentación de uso, ejecute databricks fs ls --help .

databricks fs ls dbfs:/tmp --absolute -l
file  42408084  dbfs:/tmp/LoanStats.csv    1590005159000
file        40  dbfs:/tmp/file_b.txt       1603991038000
dir          0  dbfs:/tmp/hive                         0
dir          0  dbfs:/tmp/mlflow                       0
file       385  dbfs:/tmp/multi-line.json  1597770632000
dir          0  dbfs:/tmp/new                          0
dir          0  dbfs:/tmp/parent                       0
file       243  dbfs:/tmp/test.json        1597770628000
file        40  dbfs:/tmp/test_dbfs.txt    1603989162000

Creación de un directorio

Para mostrar la documentación de uso, ejecute databricks fs mkdirs --help .

databricks fs mkdirs dbfs:/tmp/new-dir

Si se ejecuta correctamente, este comando no muestra nada.

Mover un archivo

Para mostrar la documentación de uso, ejecute databricks fs mv --help .

databricks fs mv dbfs:/tmp/my-file.txt dbfs:/parent/child/grandchild/my-file.txt

Si se ejecuta correctamente, este comando no muestra nada.

Eliminación de un archivo

Para mostrar la documentación de uso, ejecute databricks fs rm --help .

databricks fs rm dbfs:/tmp/parent/child/grandchild/my-file.txt
Delete finished successfully.