Co to jest system plików usługi Databricks (DBFS)?

System plików usługi Databricks (DBFS) to rozproszony system plików zainstalowany w obszarze roboczym usługi Azure Databricks i dostępny w klastrach usługi Azure Databricks. DBFS to abstrakcja skalowalnego magazynu obiektów, który mapuje wywołania systemu plików przypominającego system unix na wywołania natywnego interfejsu API magazynu w chmurze.

Uwaga

Obszary robocze usługi Azure Databricks są wdrażane przy użyciu woluminu głównego SYSTEMU PLIKÓW DBFS, dostępnego domyślnie dla wszystkich użytkowników. Usługa Databricks nie zaleca przechowywania danych produkcyjnych w tej lokalizacji.

Co można zrobić za pomocą systemu plików DBFS?

System plików DBFS zapewnia wygodę przez mapowanie identyfikatorów URI magazynu obiektów w chmurze na ścieżki względne.

  • Umożliwia interakcję z magazynem obiektów przy użyciu semantyki katalogów i plików zamiast poleceń interfejsu API specyficznych dla chmury.
  • Umożliwia instalowanie lokalizacji przechowywania obiektów w chmurze, dzięki czemu można mapować poświadczenia magazynu na ścieżki w obszarze roboczym usługi Azure Databricks.
  • Upraszcza proces utrwalania plików w magazynie obiektów, dzięki czemu maszyny wirtualne i dołączony magazyn woluminów mogą być bezpiecznie usuwane po zakończeniu działania klastra.
  • Zapewnia wygodną lokalizację przechowywania skryptów inicjowania, reguł JAR, bibliotek i konfiguracji na potrzeby inicjowania klastra.
  • Zapewnia wygodną lokalizację plików punktów kontrolnych utworzonych podczas trenowania modelu za pomocą bibliotek uczenia głębokiego systemu operacyjnego.

Uwaga

DBFS to implementacja usługi Azure Databricks dla aplikacji FUSE. Zobacz Praca z plikami w usłudze Azure Databricks.

Interakcja z plikami w magazynie obiektów w chmurze

System plików DBFS oferuje wiele opcji interakcji z plikami w magazynie obiektów w chmurze:

Instalowanie magazynu obiektów

Instalowanie magazynu obiektów w systemie plików DBFS umożliwia dostęp do obiektów w magazynie obiektów tak, jakby znajdowały się w lokalnym systemie plików. Instalacja przechowuje konfiguracje usługi Hadoop niezbędne do uzyskiwania dostępu do magazynu, dlatego nie trzeba określać tych ustawień w kodzie ani podczas konfiguracji klastra.

Aby uzyskać więcej informacji, zobacz Instalowanie magazynu obiektów w chmurze w usłudze Azure Databricks.

Co to jest katalog główny systemu plików DBFS?

Katalog główny systemu plików DBFS to domyślna lokalizacja magazynu dla obszaru roboczego usługi Azure Databricks aprowizowana w ramach tworzenia obszaru roboczego w chmurze zawierającego obszar roboczy usługi Azure Databricks. Aby uzyskać szczegółowe informacje na temat konfiguracji i wdrażania głównego systemu plików DBFS, zobacz przewodnik Szybki start dotyczący usługi Azure Databricks.

Niektórzy użytkownicy usługi Azure Databricks mogą odwoływać się do głównego systemu plików DBFS jako "DBFS" lub "DBFS"; Ważne jest, aby odróżnić system plików DBFS jest systemem plików używanym do interakcji z danymi w magazynie obiektów w chmurze, a katalog główny systemu plików DBFS jest lokalizacją przechowywania obiektów w chmurze. System plików DBFS służy do interakcji z katalogiem głównym systemu plików DBFS, ale są one odrębnymi pojęciami, a system PLIKÓW DBFS ma wiele aplikacji poza katalogiem głównym systemu plików DBFS.

Główny system plików DBFS zawiera wiele lokalizacji specjalnych, które służą jako domyślne dla różnych akcji wykonywanych przez użytkowników w obszarze roboczym. Aby uzyskać szczegółowe informacje, zobacz Jakie katalogi są domyślnie w katalogu głównym systemu plików DBFS?.

Aby skonfigurować klucze zarządzane przez klienta dla konta magazynu zawierającego główny system plików DBFS, zobacz Klucze zarządzane przez klienta dla katalogu głównego systemu plików DBFS.

Aby ograniczyć dostęp sieciowy do konta magazynu zawierającego główny system plików DBFS, zobacz Włączanie obsługi zapory dla konta magazynu obszaru roboczego.

Jak system plików DBFS działa z wykazem aparatu Unity?

Wykaz aparatu Unity dodaje pojęcia lokalizacji zewnętrznych i poświadczeń magazynu zarządzanego, aby pomóc organizacjom zapewnić najmniej uprawnień dostępu do danych w magazynie obiektów w chmurze. Wykaz aparatu Unity udostępnia również nową domyślną lokalizację przechowywania dla tabel zarządzanych. Niektóre konfiguracje zabezpieczeń zapewniają bezpośredni dostęp do zasobów zarządzanych przez wykaz aparatu Unity i systemu plików DBFS. Usługa Databricks opracowała zalecenia dotyczące używania systemu plików DBFS i wykazu aparatu Unity.