Co to jest system plików usługi Databricks (DBFS)?

System plików usługi Databricks (DBFS) to rozproszony system plików zainstalowany w obszarze roboczym usługi Azure Databricks i dostępny w klastrach usługi Azure Databricks. DBFS to abstrakcja skalowalnego magazynu obiektów, który mapuje wywołania systemu plików przypominającego system unix na wywołania natywnego interfejsu API magazynu w chmurze.

Uwaga

Obszary robocze usługi Azure Databricks są wdrażane przy użyciu woluminu głównego SYSTEMU PLIKÓW DBFS, dostępnego domyślnie dla wszystkich użytkowników. Usługa Databricks nie zaleca przechowywania danych produkcyjnych w tej lokalizacji.

Co można zrobić za pomocą systemu plików DBFS?

System plików DBFS zapewnia wygodę przez mapowanie identyfikatorów URI magazynu obiektów w chmurze na ścieżki względne.

  • Umożliwia interakcję z magazynem obiektów przy użyciu semantyki katalogów i plików zamiast poleceń interfejsu API specyficznych dla chmury.
  • Umożliwia instalowanie lokalizacji przechowywania obiektów w chmurze, dzięki czemu można mapować poświadczenia magazynu na ścieżki w obszarze roboczym usługi Azure Databricks.
  • Upraszcza proces utrwalania plików w magazynie obiektów, dzięki czemu maszyny wirtualne i dołączony magazyn woluminów mogą być bezpiecznie usuwane po zakończeniu działania klastra.
  • Zapewnia wygodną lokalizację przechowywania skryptów inicjowania, reguł JAR, bibliotek i konfiguracji na potrzeby inicjowania klastra.
  • Zapewnia wygodną lokalizację plików punktów kontrolnych utworzonych podczas trenowania modelu za pomocą bibliotek uczenia głębokiego systemu operacyjnego.

Uwaga

DBFS to implementacja usługi Azure Databricks dla aplikacji FUSE. Zobacz Praca z plikami w usłudze Azure Databricks.

Interakcja z plikami w magazynie obiektów w chmurze

System plików DBFS oferuje wiele opcji interakcji z plikami w magazynie obiektów w chmurze:

Instalowanie magazynu obiektów

Instalowanie magazynu obiektów w systemie plików DBFS umożliwia dostęp do obiektów w magazynie obiektów tak, jakby znajdowały się w lokalnym systemie plików. Instalacja przechowuje konfiguracje usługi Hadoop niezbędne do uzyskiwania dostępu do magazynu, dlatego nie trzeba określać tych ustawień w kodzie ani podczas konfiguracji klastra.

Aby uzyskać więcej informacji, zobacz Instalowanie magazynu obiektów w chmurze w usłudze Azure Databricks.

Co to jest katalog główny systemu plików DBFS?

Katalog główny systemu plików DBFS to domyślna lokalizacja magazynu dla obszaru roboczego usługi Azure Databricks aprowizowana w ramach tworzenia obszaru roboczego w chmurze zawierającego obszar roboczy usługi Azure Databricks. Aby uzyskać szczegółowe informacje na temat konfiguracji i wdrażania głównego systemu plików DBFS, zobacz przewodnik Szybki start dotyczący usługi Azure Databricks.

Niektórzy użytkownicy usługi Azure Databricks mogą odwoływać się do głównego systemu plików DBFS jako "DBFS" lub "DBFS"; Ważne jest, aby odróżnić system plików DBFS jest systemem plików używanym do interakcji z danymi w magazynie obiektów w chmurze, a katalog główny systemu plików DBFS jest lokalizacją przechowywania obiektów w chmurze. System plików DBFS służy do interakcji z katalogiem głównym systemu plików DBFS, ale są one odrębnymi pojęciami, a system PLIKÓW DBFS ma wiele aplikacji poza katalogiem głównym systemu plików DBFS.

Główny system plików DBFS zawiera wiele lokalizacji specjalnych, które służą jako domyślne dla różnych akcji wykonywanych przez użytkowników w obszarze roboczym. Aby uzyskać szczegółowe informacje, zobacz Jakie katalogi są domyślnie w katalogu głównym systemu plików DBFS?.

Jak system plików DBFS działa z wykazem aparatu Unity?

Wykaz aparatu Unity dodaje pojęcia lokalizacji zewnętrznych i poświadczeń magazynu zarządzanego, aby pomóc organizacjom zapewnić najmniej uprawnień dostępu do danych w magazynie obiektów w chmurze. Wykaz aparatu Unity udostępnia również nową domyślną lokalizację przechowywania dla tabel zarządzanych. Niektóre konfiguracje zabezpieczeń zapewniają bezpośredni dostęp do zasobów zarządzanych przez wykaz aparatu Unity i systemu plików DBFS. Usługa Databricks opracowała zalecenia dotyczące używania systemu plików DBFS i wykazu aparatu Unity.