CLI de DBFS (heredada)

Importante

Esta documentación se ha retirado y es posible que no se actualice.

Esta información se aplica a las versiones heredadas de la CLI de Databricks 0.18 y versiones posteriores. En su lugar, Databricks recomienda usar la versión más reciente 0.205 o posterior de la CLI de Databricks. Consulte ¿Qué es la CLI de Databricks?. Para encontrar su versión de la CLI de Databricks, ejecute databricks -v.

Para migrar de la versión 0.18 o inferior a la versión 0.205 o superior de la CLI de Databricks, consulte Migración de la CLI de Databricks.

Para ejecutar los subcomandos de la CLI de DBFS de Databricks, debe anexarlos a databricks fs (o al alias dbfs) y agregar el prefijo dbfs:/ a todas las rutas de acceso de DBFS. Estos subcomandos llaman a la API de DBFS.

databricks fs -h
Usage: databricks fs [OPTIONS] COMMAND [ARGS]...

  Utility to interact with DBFS. DBFS paths are all prefixed
  with dbfs:/. Local paths can be absolute or local.

Options:
  -v, --version
  -h, --help     Show this message and exit.

Commands:
  cat        Shows the contents of a file. Does not work for directories.
  configure
  cp         Copies files to and from DBFS.
    Options:
      -r, --recursive
      --overwrite     Overwrites files that exist already.
  ls         Lists files in DBFS.
    Options:
      --absolute      Displays absolute paths.
      -l              Displays full information including size and file type.
  mkdirs     Makes directories in DBFS.
  mv         Moves a file between two DBFS paths.
  rm         Removes files from DBFS.
    Options:
      -r, --recursive

No se recomienda el uso de la CLI de DBFS en operaciones que enumeren, muevan o eliminen más de 10 000 archivos.

  • El tiempo de espera de la operación list (databricks fs ls) se agotará transcurridos 60 segundos aproximadamente.
  • El tiempo de espera de la operación move (databricks fs mv) se agotará transcurridos 60 segundos aproximadamente, lo que puede provocar que los datos se muevan parcialmente.
  • La operación delete (databricks fs rm) eliminará lotes de archivos de forma incremental.

Se recomienda realizar estas operaciones en el contexto de un clúster, mediante la Utilidad del sistema de archivos (dbutils.fs). dbutils.fs abarca el ámbito funcional de la API de REST de DBFS, pero desde cuadernos. La ejecución de estas operaciones mediante cuadernos proporciona un mejor control, como eliminaciones selectivas, manejabilidad y la posibilidad de automatizar trabajos periódicos.

Limitaciones

No se admite el uso de la CLI de DBFS de Databricks con contenedores de almacenamiento con el firewall habilitado. Databricks recomienda usar Databricks Connect o az storage.

Enumeración del contenido de un archivo

Para mostrar la documentación de uso, ejecute databricks fs cat --help.

databricks fs cat dbfs:/tmp/my-file.txt
Apache Spark is awesome!

Copiar un archivo

Para mostrar la documentación de uso, ejecute databricks fs cp --help.

databricks fs cp dbfs:/tmp/your_file.txt dbfs:/parent/child/grandchild/my_file.txt --overwrite

Si se ejecuta correctamente, este comando no muestra nada.

Enumeración de información sobre archivos y directorios

Para mostrar la documentación de uso, ejecute databricks fs ls --help.

databricks fs ls dbfs:/tmp --absolute -l
file  42408084  dbfs:/tmp/LoanStats.csv    1590005159000
file        40  dbfs:/tmp/file_b.txt       1603991038000
dir          0  dbfs:/tmp/hive                         0
dir          0  dbfs:/tmp/mlflow                       0
file       385  dbfs:/tmp/multi-line.json  1597770632000
dir          0  dbfs:/tmp/new                          0
dir          0  dbfs:/tmp/parent                       0
file       243  dbfs:/tmp/test.json        1597770628000
file        40  dbfs:/tmp/test_dbfs.txt    1603989162000

Creación de un directorio

Para mostrar la documentación de uso, ejecute databricks fs mkdirs --help.

databricks fs mkdirs dbfs:/tmp/new-dir

Si se ejecuta correctamente, este comando no muestra nada.

Mover un archivo

Para mostrar la documentación de uso, ejecute databricks fs mv --help.

databricks fs mv dbfs:/tmp/my-file.txt dbfs:/parent/child/grandchild/my-file.txt

Si se ejecuta correctamente, este comando no muestra nada.

Eliminación de un archivo

Para mostrar la documentación de uso, ejecute databricks fs rm --help.

databricks fs rm dbfs:/tmp/parent/child/grandchild/my-file.txt
Delete finished successfully.