Co to jest system plików usługi Databricks (DBFS)?
System plików usługi Databricks (DBFS) to rozproszony system plików zainstalowany w obszarze roboczym usługi Azure Databricks i dostępny w klastrach usługi Azure Databricks. DBFS to abstrakcja skalowalnego magazynu obiektów, który mapuje wywołania systemu plików przypominającego system unix na wywołania natywnego interfejsu API magazynu w chmurze.
Uwaga
Obszary robocze usługi Azure Databricks są wdrażane przy użyciu woluminu głównego SYSTEMU PLIKÓW DBFS, dostępnego domyślnie dla wszystkich użytkowników. Usługa Databricks nie zaleca przechowywania danych produkcyjnych w tej lokalizacji.
Co można zrobić za pomocą systemu plików DBFS?
System plików DBFS zapewnia wygodę przez mapowanie identyfikatorów URI magazynu obiektów w chmurze na ścieżki względne.
- Umożliwia interakcję z magazynem obiektów przy użyciu semantyki katalogów i plików zamiast poleceń interfejsu API specyficznych dla chmury.
- Umożliwia instalowanie lokalizacji przechowywania obiektów w chmurze, dzięki czemu można mapować poświadczenia magazynu na ścieżki w obszarze roboczym usługi Azure Databricks.
- Upraszcza proces utrwalania plików w magazynie obiektów, dzięki czemu maszyny wirtualne i dołączony magazyn woluminów mogą być bezpiecznie usuwane po zakończeniu działania klastra.
- Zapewnia wygodną lokalizację przechowywania skryptów inicjowania, reguł JAR, bibliotek i konfiguracji na potrzeby inicjowania klastra.
- Zapewnia wygodną lokalizację plików punktów kontrolnych utworzonych podczas trenowania modelu za pomocą bibliotek uczenia głębokiego systemu operacyjnego.
Uwaga
DBFS to implementacja usługi Azure Databricks dla aplikacji FUSE. Zobacz Praca z plikami w usłudze Azure Databricks.
Interakcja z plikami w magazynie obiektów w chmurze
System plików DBFS oferuje wiele opcji interakcji z plikami w magazynie obiektów w chmurze:
- Praca z plikami w usłudze Azure Databricks
- Wyświetlanie, przenoszenie, kopiowanie i usuwanie plików za pomocą narzędzi usługi Databricks
- Przeglądanie plików w systemie plików DBFS
- Przekazywanie plików do systemu plików DBFS za pomocą interfejsu użytkownika
- Interakcja z plikami DBFS przy użyciu interfejsu wiersza polecenia usługi Databricks
- Interakcja z plikami DBFS przy użyciu interfejsu API REST usługi Databricks
Instalowanie magazynu obiektów
Instalowanie magazynu obiektów w systemie plików DBFS umożliwia dostęp do obiektów w magazynie obiektów tak, jakby znajdowały się w lokalnym systemie plików. Instalacja przechowuje konfiguracje usługi Hadoop niezbędne do uzyskiwania dostępu do magazynu, dlatego nie trzeba określać tych ustawień w kodzie ani podczas konfiguracji klastra.
Aby uzyskać więcej informacji, zobacz Instalowanie magazynu obiektów w chmurze w usłudze Azure Databricks.
Co to jest katalog główny systemu plików DBFS?
Katalog główny systemu plików DBFS to domyślna lokalizacja magazynu dla obszaru roboczego usługi Azure Databricks aprowizowana w ramach tworzenia obszaru roboczego w chmurze zawierającego obszar roboczy usługi Azure Databricks. Aby uzyskać szczegółowe informacje na temat konfiguracji i wdrażania głównego systemu plików DBFS, zobacz przewodnik Szybki start dotyczący usługi Azure Databricks.
Niektórzy użytkownicy usługi Azure Databricks mogą odwoływać się do głównego systemu plików DBFS jako "DBFS" lub "DBFS"; Ważne jest, aby odróżnić system plików DBFS jest systemem plików używanym do interakcji z danymi w magazynie obiektów w chmurze, a katalog główny systemu plików DBFS jest lokalizacją przechowywania obiektów w chmurze. System plików DBFS służy do interakcji z katalogiem głównym systemu plików DBFS, ale są one odrębnymi pojęciami, a system PLIKÓW DBFS ma wiele aplikacji poza katalogiem głównym systemu plików DBFS.
Główny system plików DBFS zawiera wiele lokalizacji specjalnych, które służą jako domyślne dla różnych akcji wykonywanych przez użytkowników w obszarze roboczym. Aby uzyskać szczegółowe informacje, zobacz Jakie katalogi są domyślnie w katalogu głównym systemu plików DBFS?.
Jak system plików DBFS działa z wykazem aparatu Unity?
Wykaz aparatu Unity dodaje pojęcia lokalizacji zewnętrznych i poświadczeń magazynu zarządzanego, aby pomóc organizacjom zapewnić najmniej uprawnień dostępu do danych w magazynie obiektów w chmurze. Wykaz aparatu Unity udostępnia również nową domyślną lokalizację przechowywania dla tabel zarządzanych. Niektóre konfiguracje zabezpieczeń zapewniają bezpośredni dostęp do zasobów zarządzanych przez wykaz aparatu Unity i systemu plików DBFS. Usługa Databricks opracowała zalecenia dotyczące używania systemu plików DBFS i wykazu aparatu Unity.