Co je systém souborů Databricks (DBFS)?

Systém souborů Databricks (DBFS) je distribuovaný systém souborů připojený k pracovnímu prostoru Azure Databricks a dostupný v clusterech Azure Databricks. DBFS je abstrakce nad škálovatelným úložištěm objektů, které mapuje volání systému souborů podobného unixu na nativní volání rozhraní API cloudového úložiště.

Poznámka:

Pracovní prostory Azure Databricks se nasazují s kořenovým svazkem DBFS, který je ve výchozím nastavení přístupný všem uživatelům. V případě Databricks doporučujeme v tomto umístění neukládat produkční data.

Co můžete dělat s DBFS?

DBFS poskytuje pohodlí mapováním identifikátorů URI cloudového úložiště objektů na relativní cesty.

  • Umožňuje pracovat s úložištěm objektů pomocí sémantiky adresáře a souboru místo příkazů rozhraní API specifických pro cloud.
  • Umožňuje připojit umístění cloudového úložiště objektů, abyste mohli mapovat přihlašovací údaje úložiště na cesty v pracovním prostoru Azure Databricks.
  • Zjednodušuje proces uchovávání souborů do úložiště objektů, což umožňuje bezpečné odstranění virtuálních počítačů a připojeného úložiště svazků při ukončení clusteru.
  • Poskytuje pohodlné umístění pro ukládání inicializačních skriptů, jars, knihoven a konfigurací pro inicializaci clusteru.
  • Poskytuje vhodné umístění pro soubory kontrolních bodů vytvořené během trénování modelu pomocí knihoven hlubokého učení OSS.

Poznámka:

DBFS je implementace Azure Databricks pro FUSE. Viz Práce se soubory v Azure Databricks.

Interakce se soubory v cloudovém úložišti objektů

DBFS nabízí řadu možností pro interakci se soubory v cloudovém úložišti objektů:

Připojení úložiště objektů

Připojení úložiště objektů k DBFS umožňuje přístup k objektům v úložišti objektů, jako by byly v místním systému souborů. Připojí konfigurace Hadoopu potřebné pro přístup k úložišti, takže tato nastavení nemusíte zadávat v kódu nebo během konfigurace clusteru.

Další informace najdete v tématu Připojení cloudového úložiště objektů v Azure Databricks.

Co je kořen DBFS?

Kořen DBFS je výchozím umístěním úložiště pro pracovní prostor Azure Databricks, které je zřízené jako součást vytváření pracovního prostoru v cloudovém účtu obsahujícím pracovní prostor Azure Databricks. Podrobnosti o konfiguraci a nasazení kořenového adresáře DBFS najdete v rychlém startu pro Azure Databricks.

Někteří uživatelé Azure Databricks můžou odkazovat na kořen DBFS jako "DBFS" nebo "DBFS"; Je důležité rozlišovat, že DBFS je systém souborů používaný pro interakci s daty v cloudovém úložišti objektů a kořen DBFS je umístění cloudového úložiště objektů. Systém souborů DBFS se používá k interakci s kořenem DBFS, ale jsou to odlišné koncepty a DBFS má mnoho aplikací nad rámec kořenového adresáře DBFS.

Kořenový adresář DBFS obsahuje řadu speciálních umístění, která slouží jako výchozí nastavení pro různé akce prováděné uživateli v pracovním prostoru. Podrobnosti najdete v tématu Jaké adresáře jsou ve výchozím nastavení v kořenovém adresáři DBFS?.

Pokud chcete nakonfigurovat klíče spravované zákazníkem pro účet úložiště, který obsahuje kořen DBFS, přečtěte si téma Klíče spravované zákazníkem pro kořen DBFS.

Pokud chcete omezit síťový přístup k účtu úložiště, který obsahuje kořenový adresář DBFS, přečtěte si téma Povolení podpory brány firewall pro váš účet úložiště pracovního prostoru.

Jak DBFS funguje s katalogem Unity?

Katalog Unity přidává koncepty externích umístění a přihlašovacích údajů spravovaného úložiště, které organizacím pomáhají poskytovat přístup k datům v cloudovém úložišti objektů s nejnižšími oprávněními. Katalog Unity také poskytuje nové výchozí umístění úložiště pro spravované tabulky. Některé konfigurace zabezpečení poskytují přímý přístup k prostředkům spravovaným katalogem Unity i DBFS. Databricks zkompiloval doporučení pro používání DBFS a katalogu Unity.