Azure Databricks platform mimarisini açıkla

Tamamlandı

Azure Databricks, geliştiricilerin kurumsal düzeyde üretim verileri uygulamaları oluşturma sürecini basitleştirerek aı ve yeniliklerini hızlandırmasını sağlayan, tam olarak yönetilen, bulut tabanlı büyük veri ve Machine Learning platformudur. Databricks ve Microsoft tarafından bir Birleşik efor olarak geliştirilen Azure Databricks, büyük veri işleme ve Machine Learning için tek bir platform ile veri bilimi ve mühendislik ekipleri sağlar.

Uçtan uca yönetilen, bulut için iyileştirilmiş Apache Spark platformu Databricks'in gücünü Microsoft'un Azure platformunun kurumsal ölçeği ve güvenliğiyle birleştiren Azure Databricks, büyük ölçekli Spark iş yüklerini çalıştırmayı basitleştirir.

Azure Databricks kavramsal görünümü

Azure Databricks platformuna genel bakış.

veri mühendislerine, veri bilimcilerine ve iş kullanıcılarına yönelik en iyi platformu sağlamak için Azure Databricks, "birinci taraf" Microsoft hizmeti sağlayan Microsoft Azure yerel olarak tümleşiktir. Azure Databricks işbirliğine dayalı çalışma alanı, bu takımların Kullanıcı yönetimi, git kaynak kodu deposu tümleştirmesi ve Kullanıcı çalışma alanı klasörleri gibi özellikler aracılığıyla birlikte çalışmasını sağlar.

Microsoft, Azure Databricks Azure platformunun tüm özellikleriyle yakından bütünleştirmek için çalışmaktadır. Şu ana kadar tamamlanan bazı tümleştirmelerin listesi aşağıda verilmiştir:

  • VM türleri: makine öğrenimi senaryoları için F serisi, çok büyük bellek senaryolarında M serisi ve genel amaçlı olarak D serisi dahil olmak üzere kümeler için mevcut birçok VM 'ler kullanılabilir.
  • Güvenlik ve gizlilik: Azure 'un geri kalanının sağladığı tüm uyumluluk sertifikalarına uyum sağlamak için, verilerin sahipliği ve denetimi müşteriyle ve Microsoft amaçlar Azure Databricks.
  • Ağ topolojisinde esneklik: Azure Databricks, sanal ağlara (VNet) dağıtımları destekler, bu, hangi kaynaklara ve havuza erişilebileceğini ve bunlara nasıl erişildiğini denetleyebilir.
  • Orchestration: ETL/ELT iş akışları (Azure Databricks analiz iş yükleri dahil) Azure Data Factory işlem hatları kullanılarak gerçekleştirilebilir.
  • Power BI: Power BI, tanıdık araçları kullanarak verileri büyük ölçekte etkileşimli olarak sorgulamak için doğrudan databricks kümelerine bağlanabilir.
  • Azure Active Directory: Azure Databricks çalışma alanları müşteri aboneliklerine dağıtılır, bu nedenle kaynaklara, sonuçlara ve işlere erişimi denetlemek için doğal olarak AAD kullanılabilir.
  • veri depoları: Azure Depolama ve Data Lake Store hizmetleri, var olan veriler üzerinde önbelleğe alma ve iyileştirilmiş analiz sağlamak için databricks dosya sistemi (dbfs) aracılığıyla databricks kullanıcılarına sunulur. Azure Databricks, daha fazla analiz ve gerçek zamanlı hizmet sunmak için azure Synapse Analytics, Azure SQL Veritabanı ve Azure Cosmos DB sonuçlarını kolayca ve verimli bir şekilde karşıya yükler. böylece azure 'da uçtan uca veri mimarileri oluşturmayı basit hale getirebilirsiniz.
  • Gerçek zamanlı analiz: IoT Hub, Azure Event Hubs ve Azure HDInsight Kafka kümeleriyle tümleştirme, geliştiricilerin gerçek zamanlı analiz için ölçeklenebilir akış çözümleri oluşturmalarına olanak sağlar.

Geliştiriciler için bu tasarımda üç şey sunulmaktadır. İlk olarak, var olan bir BLOB depolama alanı veya Data Lake Store gibi, hesabındaki herhangi bir depolama kaynağına kolay bağlantı sağlar. İkincisi, hızlı bir şekilde veri uygulamaları oluşturmak için diğer Azure hizmetleriyle derin tümleştirmelerin avantajlarından faydalanabiliyor. Üçüncü, Databricks, Azure Denetim Merkezi 'nden merkezi olarak yönetilir ve geliştiricilerin altyapı yönetimine değil çekirdek iş değerine odaklanmasına olanak tanır.

Azure Databricks platform mimarisi

Bir Azure Databricks hizmeti oluşturduğunuzda, "Databricks gereci" aboneliğinizde bir Azure kaynağı olarak dağıtılır. Küme oluşturma sırasında, hem sürücü hem de çalışan düğümleri için kullanılacak olan sanal makinelerin (VM 'Ler) türlerini ve boyutlarını belirtirsiniz, ancak Azure Databricks kümenin tüm diğer yönlerini yönetir.

"Databricks gereci", aboneliğiniz dahilinde yönetilen bir kaynak grubu olarak Azure 'a dağıtılır. Bu kaynak grubu, sanal ağ, güvenlik grubu ve depolama hesabı dahil olmak üzere diğer gerekli kaynaklarla birlikte sürücü ve çalışan VM 'Leri içerir. Kümeniz için zamanlanmış işler gibi tüm meta veriler, hata toleransı için coğrafi çoğaltma ile bir Azure veritabanında depolanır.

Yönetilen kaynak grubu Azure Databricks.

Dahili olarak Azure Kubernetes hizmeti (AKS), GÇ üzerinde 100 ABD gecikme süresine sahip olan NvMe SSDs ile, en son nesil Azure donanımında (Dv3 VM) çalışan kapsayıcılarla Azure Databricks denetim düzlemi ve veri düzlemleri çalıştırmak için kullanılır. Bu, Databricks g/ç performansını daha da iyi hale getirir. Ayrıca, hızlandırılmış ağ, bulutta en hızlı sanallaştırılmış ağ altyapısını sağlar. Azure Databricks Spark performansını daha da geliştirmek için bunu kullanır.

Azure Databricks platform mimarisi.

Yukarıdaki diyagramda, Databricks işlerini, sorgu sonuçları bulunan not defterlerini, küme yöneticisini, Web uygulamasını, Hive meta veri deposu ve güvenlik erişimi denetim listelerini (ACL 'Ler) ve kullanıcı oturumlarını barındıran sol taraftaki bir denetim düzlemi gösterilmektedir. Bu bileşenler, Microsoft tarafından Databricks işbirliğiyle yönetilir ve Azure aboneliğinizde yer vermez.

Sağ tarafta, çalışma alanı içinde barındırılan tüm Databricks çalışma zamanı kümelerini içeren veri düzlemi bulunur. Tüm veri işleme ve depolama, istemci aboneliği içinde bulunur. Bu, hiçbir zaman Microsoft/Databricks tarafından yönetilen abonelik içinde hiçbir veri işlemenin gerçekleşmediği anlamına gelir.

Platform mimarisi ayrıntılarını Azure Databricks.

Bir düzeyi daha derin hareket ettirmek, Yukarıdaki diyagramda Azure Databricks platform bileşenleri arasında ne değiş tokuş edilmekte olduğu gösterilmektedir. Web uygulaması ve Küme Yöneticisi Denetim düzleminin bir parçası olduğundan, bir not defterinde yürütülen tüm komutlar, küme yöneticisinden veri düzleminde müşterinin kümelerine gönderilir. Bunun nedeni, veri işlemenin daha önce belirtildiği gibi yalnızca müşterinin kendi aboneliğinde gerçekleşmesinden kaynaklanır. Herhangi bir tablo meta verisi ve günlüğü, bu iki üst düzey bileşen arasında değiştirilir. İstemci aboneliği içindeki müşteri veri kaynakları, okuma ve yazma etkinlikleriyle veri düzlemine sahip verileri değiş tokuş eden.

Standart dağıtım görünümü.

Yukarıdaki diyagramda, her birine dağıtılan Azure bileşenleriyle denetim düzlemi ve veri düzlemi arasındaki sınırları içeren standart bir dağıtım gösterilmektedir. Diyagramın en üstünde, Microsoft aboneliği içinde bulunan denetim düzlemi vardır. Müşteri aboneliği, diyagramın en altında yer alır ve veri düzlemi ile veri kaynaklarını içerir.

Müşteri aboneliğinde Microsoft tarafından yönetilen bir Azure Databricks çalışma alanı sanal ağı (VNet) bulunur. Bu VNet ile Microsoft tarafından yönetilen Azure Databricks denetim düzlemi VNet arasında değiştirilen bilgiler, ağ güvenlik grupları (NSG 'ler) tarafından etkinleştirilen ve bağlantı noktası IP filtrelemesi ile korunan bağlantı noktaları (22 ve 5557) üzerinden GÜVENLI bir TLS bağlantısı üzerinden gönderilir.

Blob Depolama hesabı, çalışma alanı içinde varsayılan dosya depolaması sağlar (databricks dosya sistemi (dbfs)). Bu kaynak ve diğer tüm Microsoft tarafından yönetilen kaynaklar, müşteri tarafından yapılan değişikliklerden tamamen kilitlidir. Müşteri aboneliği içindeki diğer tüm kaynaklar müşteri tarafından yönetilir ve Azure abonelik izinleriniz uyarınca eklenebilir veya değiştirilebilir. Bu kaynaklarla ve veri düzlemi içinde bulunan Databricks kümeleri arasındaki bağlantı, TLS aracılığıyla güvenli hale getirilir.

bunu netleştirmek için, gerektiğinde varsayılan dbfs dosya depolama alanına yazabilirsiniz, ancak hesabın Microsoft tarafından yönetilen denetim düzlemi tarafından yönetilmesinden sonra Blob Depolama hesap ayarlarını değiştiremezsiniz. en iyi uygulama olarak, geçici dosyalar için yalnızca varsayılan depolamayı kullanın ve Azure aboneliğinizde oluşturduğunuz ek depolama hesaplarını (Blob Depolama veya Azure Data Lake Storage 2.), uzun süreli dosya depolaması için bağlayın. Bunun nedeni, varsayılan dosya depolamanın Azure Databricks hesabınızın yaşam döngüsüne bağlı olması. Azure Databricks hesabı silerseniz, varsayılan depolama onunla birlikte silinir.

Özel VNet eşlemesi ve VNET eklemegibi gelişmiş ağ bağlantısına ihtiyacınız varsa, kendi VNET 'iniz Içinde Azure Databricks veri düzlemi kaynakları dağıtabilirsiniz. Bu konu başlığı daha sonra ele alınacaktır.