¿Qué es el sistema de archivos de Databricks (DBFS)?

El sistema de archivos de Databricks (DBFS) es un sistema de archivos distribuido montado en un área de trabajo de Azure Databricks y disponible en los clústeres de Azure Databricks. DBFS es una abstracción del almacenamiento de objetos escalable que asigna llamadas de sistemas de archivos similares a Unix a llamadas API nativas del almacenamiento en la nube.

Nota:

Las áreas de trabajo de Azure Databricks se implementan con un volumen raíz de DBFS, al que todos los usuarios pueden acceder de forma predeterminada. Databricks recomienda almacenar los datos de producción en esta ubicación.

¿Para qué sirve DBFS?

DBFS significa comodidad, ya que asigna los identificadores URI de almacenamiento de objetos en la nube a rutas de acceso relativas.

  • Le permite interactuar con el almacenamiento de objetos mediante la semántica de archivos y directorios, en lugar de los comandos de la API específicos de la nube.
  • Permite montar ubicaciones de almacenamiento de objetos en la nube para que pueda asignar credenciales de almacenamiento a rutas de acceso en el área de trabajo de Azure Databricks.
  • Simplifica el proceso de conservación de archivos en el almacenamiento de objetos, lo que permite que tanto las máquinas virtuales como el almacenamiento volúmenes conectados se eliminen de forma segura en la terminación del clúster.
  • Ofrece una ubicación cómoda para almacenar scripts de inicialización, archivos JAR, bibliotecas y configuraciones para la inicialización de clústeres.
  • Proporciona una ubicación cómoda para los archivos de punto de control creados durante el entrenamiento del modelo con bibliotecas de aprendizaje profundo de software de código abierto.

Nota:

DBFS es la implementación de Azure Databricks para FUSE. Consulte Trabajar con archivos en Azure Databricks.

Interacción con archivos en el almacenamiento de objetos basado en la nube

DBFS proporciona muchas opciones para interactuar con archivos en el almacenamiento de objetos en la nube:

Montaje del almacenamiento de objetos

El montaje del almacenamiento de objetos en DBFS permite acceder a objetos en el almacenamiento de objetos, como si estuvieran en el sistema de archivos local. Los montajes almacenan las configuraciones de Hadoop necesarias para acceder al almacenamiento, por lo que no es necesario especificar los valores en el código ni durante la configuración del clúster.

Para más información, consulte Montaje del almacenamiento de objetos en la nube en Azure Databricks.

¿Qué es la raíz de DBFS?

La raíz de DBFS es la ubicación de almacenamiento predeterminada para cualquier área de trabajo de Azure Databricks, y se aprovisiona como parte de la creación del área de trabajo en la cuenta de la nube que contiene el área de trabajo de Azure Databricks. Para más información sobre la configuración e implementación de la raíz de DBFS, consulte el inicio rápido de Azure Databricks.

Es posible que algunos usuarios de Azure Databricks llamen a la raíz de DBFS como "DBFS" o "el DBFS"; es importante diferenciar que DBFS es un sistema de archivos que se usa para interactuar con los datos en el almacenamiento de objetos en la nube y que la raíz de DBFS es una ubicación de almacenamiento de objetos en la nube. DBFS se usa para interactuar con la raíz de DBFS, pero son conceptos distintos y DBFS tiene muchas aplicaciones más allá de la raíz de DBFS.

La raíz de DBFS contiene varias ubicaciones especiales que sirven como valores predeterminados para las distintas acciones realizadas por los usuarios en el área de trabajo. Para más información, consulte ¿Qué directorios están en la raíz de DBFS de forma predeterminada?.

Para configurar claves administradas por el cliente para la cuenta de almacenamiento que incluye la raíz de DBFS, consulte Claves administradas por el cliente para la raíz de DBFS.

Para limitar el acceso de red a la cuenta de almacenamiento que incluye la raíz de DBFS, consulte Habilitación de la compatibilidad del firewall con la cuenta de almacenamiento del área de trabajo.

¿Cómo funciona DBFS con Unity Catalog?

Unity Catalog agrega los conceptos de ubicaciones externas y credenciales de almacenamiento administrado para ayudar a las organizaciones a proporcionar privilegios mínimos de acceso a los datos en el almacenamiento de objetos en la nube. Unity Catalog también proporciona una nueva ubicación de almacenamiento predeterminada para las tablas administradas. Algunas configuraciones de seguridad proporcionan acceso directo tanto a los recursos administrados de Unity Catalog como a DBFS. Databricks ha compilado recomendaciones para usar DBFS y Unity Catalog.