Che cos'è Databricks File System (DBFS)?

Databricks File System (DBFS) è un file system distribuito montato in un'area di lavoro di Azure Databricks e disponibile nei cluster Azure Databricks. DBFS è un'astrazione sull'archiviazione di oggetti scalabile che esegue il mapping delle chiamate di file system simili a Unix alle chiamate API di archiviazione cloud native.

Nota

Le aree di lavoro di Azure Databricks vengono distribuite con un volume radice DBFS, accessibile a tutti gli utenti per impostazione predefinita. Databricks consiglia di archiviare i dati di produzione in questa posizione.

Cosa è possibile fare con DBFS?

DBFS offre praticità eseguendo il mapping degli URI di archiviazione degli oggetti cloud ai percorsi relativi.

  • Consente di interagire con l'archiviazione di oggetti usando la semantica di directory e file anziché i comandi API specifici del cloud.
  • Consente di montare i percorsi di archiviazione degli oggetti cloud in modo da poter eseguire il mapping delle credenziali di archiviazione ai percorsi nell'area di lavoro di Azure Databricks.
  • Semplifica il processo di persistenza dei file nell'archiviazione di oggetti, consentendo l'eliminazione sicura delle macchine virtuali e dell'archiviazione del volume collegato alla terminazione del cluster.
  • Fornisce un percorso pratico per l'archiviazione di script init, JAR, librerie e configurazioni per l'inizializzazione del cluster.
  • Fornisce un percorso pratico per i file di checkpoint creati durante il training del modello con librerie di Deep Learning oss.

Nota

DBFS è l'implementazione di Azure Databricks per FU edizione Standard. Vedere Usare file in Azure Databricks.

Interagire con i file nell'archiviazione di oggetti basata sul cloud

DBFS offre molte opzioni per interagire con i file nell'archiviazione di oggetti cloud:

Montare l'archiviazione di oggetti

Il montaggio dell'archiviazione di oggetti in DBFS consente di accedere agli oggetti nell'archivio oggetti come se fossero presenti nel file system locale. I montaggi archiviano le configurazioni hadoop necessarie per accedere all'archiviazione, pertanto non è necessario specificare queste impostazioni nel codice o durante la configurazione del cluster.

Per altre informazioni, vedere Montaggio dell'archiviazione di oggetti cloud in Azure Databricks.

Che cos'è la radice DBFS?

La radice DBFS è il percorso di archiviazione predefinito per un'area di lavoro di Azure Databricks, di cui è stato effettuato il provisioning come parte della creazione dell'area di lavoro nell'account cloud contenente l'area di lavoro di Azure Databricks. Per informazioni dettagliate sulla configurazione e la distribuzione radice di DBFS, vedere la guida introduttiva di Azure Databricks.

Alcuni utenti di Azure Databricks possono fare riferimento alla radice DBFS come "DBFS" o "DBFS"; è importante distinguere che DBFS è un file system usato per interagire con i dati nell'archiviazione di oggetti cloud e la radice DBFS è un percorso di archiviazione di oggetti cloud. Si usa DBFS per interagire con la radice DBFS, ma sono concetti distinti e DBFS include molte applicazioni oltre la radice DBFS.

La radice DBFS contiene una serie di posizioni speciali che fungono da impostazioni predefinite per varie azioni eseguite dagli utenti nell'area di lavoro. Per informazioni dettagliate, vedere Quali directory si trovano nella radice DBFS per impostazione predefinita?.

Come funziona DBFS con Unity Catalog?

Unity Catalog aggiunge i concetti relativi alle posizioni esterne e alle credenziali di archiviazione gestite per consentire alle organizzazioni di fornire privilegi minimi di accesso ai dati nell'archiviazione di oggetti cloud. Unity Catalog fornisce anche un nuovo percorso di archiviazione predefinito per le tabelle gestite. Alcune configurazioni di sicurezza forniscono l'accesso diretto alle risorse gestite dal catalogo unity e a DBFS. Databricks include raccomandazioni compilate per l'uso di DBFS e Unity Catalog.