Mi az a Databricks-fájlrendszer (DBFS)?
A Databricks fájlrendszer (DBFS) egy elosztott fájlrendszer, amely egy Azure Databricks-munkaterületre van csatlakoztatva, és elérhető az Azure Databricks-fürtökön. A DBFS egy absztrakció a méretezhető objektumtárolón, amely Unix-szerű fájlrendszerhívásokat képez le natív felhőalapú tárolási API-hívásokhoz.
Megjegyzés:
Az Azure Databricks-munkaterületek egy DBFS-gyökérkötettel települnek, amely alapértelmezés szerint minden felhasználó számára elérhető. A Databricks nem javasolja, hogy itt éles adatokat tároljon.
Mit tehet a DBFS-sel?
A DBFS a felhőalapú objektumtárolási URI-k relatív elérési utakhoz való leképezésével nyújt kényelmet.
- Lehetővé teszi, hogy a felhőspecifikus API-parancsok helyett címtár- és fájlszemantikával kommunikáljon az objektumtárolással .
- Lehetővé teszi a felhőalapú objektumtárolási helyek csatlakoztatását , hogy a tároló hitelesítő adatait az Azure Databricks-munkaterület útvonalaihoz rendelhesse.
- Leegyszerűsíti a fájlok objektumtárolásra való megőrzésének folyamatát, lehetővé téve a virtuális gépek és a csatlakoztatott kötettárolók biztonságos törlését a fürt leállításakor.
- Kényelmes helyet biztosít inicializálási szkriptek, JAR-k, kódtárak és konfigurációk tárolásához.
- Kényelmes helyet biztosít a modellbetanítás során létrehozott ellenőrzőpont-fájlokhoz az OSS mélytanulási kódtáraival.
Megjegyzés:
A DBFS a FU Azure Databricks-implementációja Standard kiadás. Lásd: Fájlok használata az Azure Databricksben.
Fájlok használata felhőalapú objektumtárolóban
A DBFS számos lehetőséget kínál a felhőobjektum-tárolóban lévő fájlok használatára:
- Fájlok használata az Azure Databricksben
- Fájlok listázása, áthelyezése, másolása és törlése a Databricks Utilities használatával
- Fájlok tallózása a DBFS-ben
- Fájlok feltöltése a DBFS-be a felhasználói felülettel
- DBFS-fájlok kezelése a Databricks parancssori felületével
- DBFS-fájlok kezelése a Databricks REST API használatával
Objektumtároló csatlakoztatása
Az objektumtároló dbFS-hez való csatlakoztatásával úgy érheti el az objektumtárolóban lévő objektumokat, mintha a helyi fájlrendszerben lennének. A tároló eléréséhez szükséges Hadoop-konfigurációkat csatlakoztatja, így ezeket a beállításokat nem kell megadnia a kódban vagy a fürtkonfiguráció során.
További információ: Felhőobjektum-tároló csatlakoztatása az Azure Databrickshez.
Mi az a DBFS-gyökér?
A DBFS-gyökér az Azure Databricks-munkaterület alapértelmezett tárolási helye, amely az Azure Databricks-munkaterületet tartalmazó felhőfiókban történő munkaterület-létrehozás részeként van kiépítve. A DBFS gyökérkonfigurációjával és üzembe helyezésével kapcsolatos részletekért tekintse meg az Azure Databricks gyorsútmutatóját.
Az Azure Databricks egyes felhasználói "DBFS" vagy "DBFS" néven hivatkozhatnak a DBFS-gyökérre; fontos különbséget tenni abban, hogy a DBFS egy fájlrendszer, amelyet a felhőbeli objektumtárolókban lévő adatok kezelésére használnak, a DBFS-gyökér pedig egy felhőalapú objektumtárolási hely. A DBFS-t használja a DBFS-gyökerével való interakcióhoz, de ezek eltérő fogalmak, és a DBFS-nek számos alkalmazása van a DBFS-gyökéren kívül.
A DBFS-gyökér számos speciális helyet tartalmaz, amelyek alapértelmezésként szolgálnak a munkaterület felhasználói által végrehajtott különböző műveletekhez. További információ: Milyen könyvtárak vannak alapértelmezés szerint a DBFS-gyökérben?.
Hogyan működik a DBFS a Unity Catalogtal?
A Unity Catalog hozzáadja a külső helyek és a felügyelt tár hitelesítő adatainak fogalmait, hogy a szervezetek a lehető legkevesebb jogosultsággal férjenek hozzá a felhőbeli objektumtárolók adataihoz. A Unity Catalog egy új alapértelmezett tárolási helyet is biztosít a felügyelt táblákhoz. Egyes biztonsági konfigurációk közvetlen hozzáférést biztosítanak a Unity Katalógus által felügyelt erőforrásokhoz és a DBFS-hez. A Databricks ajánlásokat állított össze a DBFS és a Unity Catalog használatához.