Databricks Dosya Sistemi (DBFS) nedir?

Makale
03/01/2024

Databricks Dosya Sistemi (DBFS), Azure Databricks çalışma alanına bağlanmış ve Azure Databricks kümelerinde kullanılabilen dağıtılmış bir dosya sistemidir. DBFS, Unix benzeri dosya sistemi çağrılarını yerel bulut depolama API çağrılarına eşleyen ölçeklenebilir nesne depolamanın üzerine bir soyutlamadır.

Dekont

Azure Databricks çalışma alanları, varsayılan olarak tüm kullanıcılar tarafından erişilebilen bir DBFS kök birimiyle dağıtılır. Databricks, ürün verilerinin bu konumda depolanmamasını önerir.

DBFS ile ne yapabilirsiniz?

DBFS, bulut nesne depolama URI'lerini göreli yollara eşleyerek kolaylık sağlar.

Buluta özgü API komutları yerine dizin ve dosya semantiği kullanarak nesne depolama ile etkileşim kurmanızı sağlar.
Depolama kimlik bilgilerini Azure Databricks çalışma alanında yollara eşleyebileceğiniz bulut nesnesi depolama konumlarını bağlamanıza olanak tanır.
Dosyaları nesne depolama alanında kalıcı hale getirmek, sanal makinelerin ve bağlı birim depolamanın küme sonlandırma sırasında güvenli bir şekilde silinmesine olanak tanıyacak şekilde basitleştirir.
Küme başlatma için başlatma betiklerini, JAR'leri, kitaplıkları ve yapılandırmaları depolamak için uygun bir konum sağlar.
OSS derin öğrenme kitaplıklarıyla model eğitimi sırasında oluşturulan denetim noktası dosyaları için uygun bir konum sağlar.

Dekont

DBFS, FUSE için Azure Databricks uygulamasıdır. Bkz. Azure Databricks'te dosyalarla çalışma.

Bulut tabanlı nesne depolamadaki dosyalarla etkileşim kurma

DBFS, bulut nesne depolamadaki dosyalarla etkileşim kurmak için birçok seçenek sağlar:

Nesne depolamayı bağlama

Nesne depolamayı DBFS'ye bağlamak, nesne depolamadaki nesnelere yerel dosya sistemindeymiş gibi erişmenizi sağlar. Depolamaya erişmek için gerekli olan hadoop yapılandırmalarını bağlar, bu nedenle bu ayarları kodda veya küme yapılandırması sırasında belirtmeniz gerekmez.

Daha fazla bilgi için bkz . Azure Databricks'te bulut nesne depolamasını bağlama.

DBFS kökü nedir?

DBFS kökü, Azure Databricks çalışma alanını içeren bulut hesabında çalışma alanı oluşturma işlemi kapsamında sağlanan bir Azure Databricks çalışma alanı için varsayılan depolama konumudur. DBFS kök yapılandırması ve dağıtımı hakkında ayrıntılı bilgi için bkz . Azure Databricks hızlı başlangıcı.

Azure Databricks'in bazı kullanıcıları DBFS köküne "DBFS" veya "DBFS" olarak başvurabilir; DBFS'nin bulut nesne depolamadaki verilerle etkileşim kurmak için kullanılan bir dosya sistemi olduğunu ve DBFS kökünü bir bulut nesne depolama konumu olarak ayırt etmek önemlidir. DBFS köküyle etkileşime geçmek için DBFS kullanırsınız, ancak bunlar farklı kavramlardır ve DBFS'nin DBFS kökü dışında birçok uygulaması vardır.

DBFS kökü, çalışma alanında kullanıcılar tarafından gerçekleştirilen çeşitli eylemler için varsayılan olarak hizmet veren bir dizi özel konum içerir. Ayrıntılar için bkz . DbFS kökünde varsayılan olarak hangi dizinler var?.

DBFS Unity Kataloğu ile nasıl çalışır?

Unity Kataloğu, kuruluşların bulut nesne depolamadaki verilere en az ayrıcalık erişimi sağlamasına yardımcı olmak için dış konumlar ve yönetilen depolama kimlik bilgileri kavramlarını ekler. Unity Kataloğu ayrıca yönetilen tablolar için yeni bir varsayılan depolama konumu sağlar. Bazı güvenlik yapılandırmaları hem Unity Kataloğu tarafından yönetilen kaynaklara hem de DBFS'ye doğrudan erişim sağlar. Databricks, DBFS ve Unity Kataloğu'nu kullanmak için öneriler derlemiştir.