Co je systém souborů Databricks (DBFS)?
Systém souborů Databricks (DBFS) je distribuovaný systém souborů připojený k pracovnímu prostoru Azure Databricks a dostupný v clusterech Azure Databricks. DBFS je abstrakce nad škálovatelným úložištěm objektů, které mapuje volání systému souborů podobného unixu na nativní volání rozhraní API cloudového úložiště.
Poznámka:
Pracovní prostory Azure Databricks se nasazují s kořenovým svazkem DBFS, který je ve výchozím nastavení přístupný všem uživatelům. V případě Databricks doporučujeme v tomto umístění neukládat produkční data.
Co můžete dělat s DBFS?
DBFS poskytuje pohodlí mapováním identifikátorů URI cloudového úložiště objektů na relativní cesty.
- Umožňuje pracovat s úložištěm objektů pomocí sémantiky adresáře a souboru místo příkazů rozhraní API specifických pro cloud.
- Umožňuje připojit umístění cloudového úložiště objektů, abyste mohli mapovat přihlašovací údaje úložiště na cesty v pracovním prostoru Azure Databricks.
- Zjednodušuje proces uchovávání souborů do úložiště objektů, což umožňuje bezpečné odstranění virtuálních počítačů a připojeného úložiště svazků při ukončení clusteru.
- Poskytuje pohodlné umístění pro ukládání inicializačních skriptů, jars, knihoven a konfigurací pro inicializaci clusteru.
- Poskytuje vhodné umístění pro soubory kontrolních bodů vytvořené během trénování modelu pomocí knihoven hlubokého učení OSS.
Poznámka:
DBFS je implementace Azure Databricks pro FUSE. Viz Práce se soubory v Azure Databricks.
Interakce se soubory v cloudovém úložišti objektů
DBFS nabízí řadu možností pro interakci se soubory v cloudovém úložišti objektů:
- Práce se soubory na platformě Azure Databricks
- Zobrazení seznamu, přesunutí, kopírování a odstranění souborů pomocí nástrojů Databricks
- Procházení souborů v DBFS
- Nahrání souborů do DBFS pomocí uživatelského rozhraní
- Interakce se soubory DBFS pomocí rozhraní příkazového řádku Databricks
- Interakce se soubory DBFS pomocí rozhraní REST API Databricks
Připojení úložiště objektů
Připojení úložiště objektů k DBFS umožňuje přístup k objektům v úložišti objektů, jako by byly v místním systému souborů. Připojí konfigurace Hadoopu potřebné pro přístup k úložišti, takže tato nastavení nemusíte zadávat v kódu nebo během konfigurace clusteru.
Další informace najdete v tématu Připojení cloudového úložiště objektů v Azure Databricks.
Co je kořen DBFS?
Kořen DBFS je výchozím umístěním úložiště pro pracovní prostor Azure Databricks, které je zřízené jako součást vytváření pracovního prostoru v cloudovém účtu obsahujícím pracovní prostor Azure Databricks. Podrobnosti o konfiguraci a nasazení kořenového adresáře DBFS najdete v rychlém startu pro Azure Databricks.
Někteří uživatelé Azure Databricks můžou odkazovat na kořen DBFS jako "DBFS" nebo "DBFS"; Je důležité rozlišovat, že DBFS je systém souborů používaný pro interakci s daty v cloudovém úložišti objektů a kořen DBFS je umístění cloudového úložiště objektů. Systém souborů DBFS se používá k interakci s kořenem DBFS, ale jsou to odlišné koncepty a DBFS má mnoho aplikací nad rámec kořenového adresáře DBFS.
Kořenový adresář DBFS obsahuje řadu speciálních umístění, která slouží jako výchozí nastavení pro různé akce prováděné uživateli v pracovním prostoru. Podrobnosti najdete v tématu Jaké adresáře jsou ve výchozím nastavení v kořenovém adresáři DBFS?.
Pokud chcete nakonfigurovat klíče spravované zákazníkem pro účet úložiště, který obsahuje kořen DBFS, přečtěte si téma Klíče spravované zákazníkem pro kořen DBFS.
Pokud chcete omezit síťový přístup k účtu úložiště, který obsahuje kořenový adresář DBFS, přečtěte si téma Povolení podpory brány firewall pro váš účet úložiště pracovního prostoru.
Jak DBFS funguje s katalogem Unity?
Katalog Unity přidává koncepty externích umístění a přihlašovacích údajů spravovaného úložiště, které organizacím pomáhají poskytovat přístup k datům v cloudovém úložišti objektů s nejnižšími oprávněními. Katalog Unity také poskytuje nové výchozí umístění úložiště pro spravované tabulky. Některé konfigurace zabezpečení poskytují přímý přístup k prostředkům spravovaným katalogem Unity i DBFS. Databricks zkompiloval doporučení pro používání DBFS a katalogu Unity.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro