Azure sanal ağınızda Azure Databricks dağıtma (VNet ekleme)

Varsayılan Azure Databricks dağıtımı, Azure üzerinde tam olarak yönetilen bir hizmettir: tüm kümelerin ilişkilendirilebildiği bir sanal ağ dahil tüm veri düzlemi kaynakları, kilitli bir kaynak grubuna dağıtılır. Ancak ağ özelleştirmeye ihtiyacınız varsa, kendi sanal ağınızda (bazen VNET eklemeolarak adlandırılır) Azure Databricks veri düzlemi kaynaklarını dağıtabilirsiniz, böylece şunları yapabilirsiniz:

Azure Databricks veri düzlemi kaynaklarını kendi sanal ağınıza dağıtmak aynı zamanda esnek CIDR aralıklarından ( /16-/24 VNET için ve alt ağlara kadar her yerde) yararlanmanızı sağlar /26 .

Önemli

VNet 'i var olan bir çalışma alanı için değiştiremezsiniz. Geçerli çalışma alanınız gerekli sayıda etkin küme düğümünü barındıramıyorsa, daha büyük bir sanal ağda bir çalışma alanı daha oluşturmanızı öneririz. Kaynakları (not defterleri, küme yapılandırmaları, işler) eski çalışma alanından yenisine kopyalamak için şu ayrıntılı geçiş adımlarını izleyin.

Sanal ağ gereksinimleri

Azure Databricks çalışma alanınızı dağıttığınız VNet 'in aşağıdaki gereksinimleri karşılaması gerekir:

  • Bölge: VNet, Azure Databricks çalışma alanıyla aynı bölgede bulunmalıdır.

  • Abonelik: VNet Azure Databricks çalışma alanıyla aynı abonelikte olmalıdır.

  • Adres alanı:/24 VNet ve sanal makıne arasındaki CIDR bloğu ve iki alt ağ IÇIN bir CIDR bloğu /26 : bir kapsayıcı alt ağı ve bir konak alt ağı. VNet ve alt ağlarının boyutuna bağlı olarak en fazla küme düğümleri hakkında rehberlik için bkz. Adres alanı ve en fazla küme düğümleri.

  • Alt ağlar: VNet, Azure Databricks çalışma alanınıza adanmış iki alt ağ içermelidir: kapsayıcı alt ağı (bazen özel alt ağ olarak adlandırılır) ve bir konak alt ağı (bazen genel alt ağ olarak adlandırılır). Bununla birlikte, güvenli küme bağlantısıkullanan bir çalışma alanı için, hem kapsayıcı alt ağı hem de ana bilgisayar alt ağı özeldir. Çalışma alanları genelinde alt ağları paylaşmak veya Azure Databricks çalışma alanınız tarafından kullanılan alt ağlarda diğer Azure kaynaklarını dağıtmak desteklenmez . VNet ve alt ağlarının boyutuna bağlı olarak en fazla küme düğümleri hakkında rehberlik için bkz. Adres alanı ve en fazla küme düğümleri.

    Önemli

    Bu alt ağlar ve bir Azure Databricks çalışma alanı arasında bire bir ilişki vardır. Birden çok çalışma alanını tek bir alt ağ arasında paylaşamazsınız. Çalışma alanları genelinde alt ağları paylaşmak veya Azure Databricks çalışma alanınız tarafından kullanılan alt ağlarda diğer Azure kaynaklarını dağıtmak desteklenmez .

VNet 'nizi yapılandırma ve çalışma alanınızı dağıtma şablonları hakkında daha fazla bilgi için bkz. Azure-Databricks tarafından sağlanan Azure Resource Manager şablonları.

Adres alanı ve en yüksek küme düğümleri

Daha küçük bir sanal ağı olan bir çalışma alanının IP adreslerinden (ağ alanı) daha büyük bir sanal ağı olan bir çalışma alanından daha hızlı bir şekilde çalışmasını sağlayabilirsiniz. /16/24 VNet ve sanal makine arasında bir CIDR bloğu ve /26 iki alt ağ (kapsayıcı alt ağı ve konak alt ağı) için bir CIDR bloğu kullanın.

VNet adres alanınızın CıDR aralığı, çalışma alanınızın kullanabileceği en fazla küme düğümü sayısını etkiler:

  • Azure Databricks çalışma alanı VNet 'te iki alt ağ gerektirir: kapsayıcı alt ağı (özel alt ağ olarak da bilinir) ve bir konak alt ağı (ortak alt ağ olarak da bilinir). Çalışma alanı güvenli küme bağlantısıkullanıyorsa, hem kapsayıcı hem de ana bilgisayar alt ağları özeldir.
  • Azure her alt ağda beş IPayırır.
  • Her alt ağ içinde, Azure Databricks küme düğümü başına bir IP adresi gerektirir. Toplam olarak, her küme düğümü için iki IP vardır: konak alt ağındaki konak için bir IP adresi ve kapsayıcı alt ağındaki kapsayıcı için bir IP adresi.
  • Sanal ağınızın tüm adres alanını kullanmak istemeyebilirsiniz. Örneğin, bir sanal ağda birden çok çalışma alanı oluşturmak isteyebilirsiniz. Çalışma alanları genelinde alt ağları paylaşamıyorsanız, toplam VNet adres alanını kullanmayan alt ağların olmasını isteyebilirsiniz.
  • VNet 'in adres alanındaki iki yeni alt ağ için adres alanı ayırmanız ve bu VNet 'teki geçerli veya gelecekteki alt ağların adres alanı ile çakışmayın.

Aşağıdaki tabloda ağ boyutuna bağlı olarak en yüksek alt ağ boyutu gösterilmektedir. Bu tabloda adres alanı alan başka alt ağ yok varsayılır. Önceden var olan alt ağlarınız varsa veya diğer alt ağlar için adres alanı ayırmak istiyorsanız, daha küçük alt ağları kullanın:

VNet adres alanı (CıDR) Başka alt ağ olmadığı varsayılarak en büyük Azure Databricks alt ağ boyutu (CıDR)
/16 /17
/17 /18
/18 /19
/20 /21
/21 /22
/22 /23
/23 /24
/24 /25

Alt ağ boyutuna bağlı olarak en fazla küme düğümünü bulmak için aşağıdaki tabloyu kullanın. Alt ağ başına IP adresleri sütunu, Azure 'a ayrılmış beş IP adresiniiçerir. En sağdaki sütun, o boyuttaki alt ağlarla sağlanan bir çalışma alanında eşzamanlı olarak çalışabilecek küme düğümü sayısını belirtir.

Alt ağ boyutu (CıDR) Alt ağ başına IP adresleri Maksimum Azure Databricks kümesi düğümleri
/17 32768 32763
/18 16384 16379
/19 8192 8187
/20 4096 4091
/21 2048 2043
/22 1024 1019
/23 512 507
/24 256 251
/25 128 123
/26 64 59

Azure portal kullanarak Azure Databricks çalışma alanı oluşturma

Bu bölümde, Azure portal bir Azure Databricks çalışma alanının nasıl oluşturulduğu ve var olan sanal ağınıza nasıl dağıtılacağı açıklanmaktadır. Azure Databricks, henüz yoksa, belirttiğiniz CıDR aralıklarını kullanarak VNet 'i iki yeni alt ağ ile güncelleştirir. Hizmet ayrıca alt ağları yeni bir ağ güvenlik grubuyla güncelleştirir, gelen ve giden kuralları yapılandırır ve son olarak çalışma alanını güncelleştirilmiş VNet 'e dağıtır. VNet yapılandırması üzerinde daha fazla denetim için Portal Kullanıcı arabirimi yerine Azure-Databricks-sağlanan Azure Resource Manager (ARM) şablonlarını kullanın. Örneğin, var olan ağ güvenlik gruplarını kullanın veya kendi güvenlik kurallarınızı oluşturun. Azure Resource Manager şablonları kullanarak gelişmiş yapılandırmakonusuna bakın.

Önemli

Çalışma alanını oluşturan kullanıcının ağ katılımcısı rolüne veya eyleme atanmış özel bir role atanması gerekir .

Azure Databricks çalışma alanını dağıtacağınızı bir sanal ağ yapılandırmanız gerekir. Mevcut bir VNet 'i kullanabilir veya yeni bir sanal ağ oluşturabilirsiniz, ancak sanal ağın, oluşturmayı planladığınız Azure Databricks çalışma alanıyla aynı bölgede ve aynı abonelikte olması gerekir. VNet,/16 ile/24 arasında bir CıDR aralığıyla boyutlandırılmalıdır. Daha fazla gereksinim için bkz. sanal ağ gereksinimleri.

Çalışma alanınızı yapılandırdığınızda, mevcut alt ağları kullanabilir veya yeni alt ağlar için adları ve IP aralıklarını belirtebilirsiniz.

  1. Azure portal + Resource Analytics > Azure Databricks oluştur ' u seçin veya Azure Databricks arayın ve Azure Databricks hizmeti Iletişim kutusunu başlatmak Için > veya + Ekle ' ye tıklayın.

  2. Kendi VNet hızlı başlangıç ortamınızda Azure Databricks oluşturma çalışma alanında açıklanan yapılandırma adımlarını izleyin.

  3. sekmesinde, sanal ağ alanında kullanmak istediğiniz VNET 'i seçin.

    Önemli

    Seçicide ağ adını görmüyorsanız, çalışma alanı için belirttiğiniz Azure bölgesinin istenen VNet 'in Azure bölgesiyle eşleştiğinden emin olun.

    Sanal ağ seçme

  4. Alt ağlarınızı olarak ad girin ve boyutuna kadar bir blokta CIDR aralıkları /26 girin. Sanal ağ ve alt ağlarının boyutuna göre en fazla küme düğümü sayısı hakkında rehberlik için bkz. Adres alanı ve maksimum küme düğümleri.

    • Mevcut alt ağları belirtmek için mevcut alt ağların tam adlarını belirtin. Mevcut alt ağları kullanırken, çalışma alanı oluşturma formundaki IP aralıklarını da mevcut alt ağların IP aralıklarını tam olarak eşecek şekilde ayarlayın.
    • Yeni alt ağlar oluşturmak için, bu sanal ağda henüz mevcut olmayan alt ağ adlarını belirtin. Alt ağlar belirtilen IP aralıkları ile oluşturulur. IP aralıklarını VNet'inizin IP aralığında belirtmeniz ve mevcut alt ağlara henüz tahsis edilmiş durumda olmadığını belirtmeniz gerekir.

    Önemli

    Azure Databricks alt ağ adlarının 30 karakterden uzun olması gerekir. Bu, veri kümesinde alt ağlar için izin verilen maksimum uzunluktan Azure portal. Var olan bir alt ağı kullanmadan önce, adı 30 karakterden uzunsa alt ağı yeniden adlandırabilirsiniz.

    Alt ağlar, küme iç iletişimlerine izin verme kuralını içeren ilişkili ağ güvenlik grubu kurallarına sahip olur. Azure Databricks, kaynak sağlayıcısı aracılığıyla her iki alt ağı da güncelleştirmek için temsilci Microsoft.Databricks/workspaces izinlerine sahip olur. Bu izinler yalnızca ağ güvenlik grubu kuralları için geçerlidir Azure Databricks, sizin ekleyiştirilen diğer ağ güvenlik grubu kurallarına veya tüm ağ güvenlik gruplarına dahil edilen varsayılan ağ güvenlik grubu kurallarına uygulanamaz.

  5. Sanal çalışma alanını sanal Azure Databricks dağıtmak için Oluştur'a tıklayın.

    Not

    Çalışma alanı dağıtımı başarısız olduğunda, çalışma alanı yine de oluşturulur ancak başarısız durumda olur. Başarısız olan çalışma alanını silin ve dağıtım hatalarını gideren yeni bir çalışma alanı oluşturun. Başarısız çalışma alanını sildikten sonra yönetilen kaynak grubu ve başarıyla dağıtılan tüm kaynaklar da silinir.

Azure Resource Manager şablonlarını kullanarak gelişmiş yapılandırma

VNet'in yapılandırması üzerinde daha fazla denetime sahip olmak için portal kullanıcı arabirimi tabanlı otomatik sanal ağ yapılandırması ve çalışma alanı dağıtımı yerine aşağıdaki Azure Resource Manager (ARM) şablonlarını kullanabilirsiniz. Örneğin, mevcut alt ağları, mevcut bir ağ güvenlik grubunu kullanın veya kendi güvenlik kurallarınızı ekleyin.

Çalışma alanını mevcut bir VNet'e dağıtmak için özel bir Azure Resource Manager şablonu veya Azure Databricks Sanal Ağ Ekleme için Çalışma Alanı Şablonu kullanıyorsanız, konak ve kapsayıcı alt ağları oluşturmanız, her alt ağa bir ağ güvenlik grubu eklemeniz ve çalışma alanını dağıtmadan önce alt ağları kaynak sağlayıcısına devredmelisiniz. Dağıtan her çalışma alanı için ayrı bir alt ağ çifti olması gerekir.

Hepsi bire bir şablon

Bir şablon kullanarak bir VNet Azure Databricks çalışma alanı oluşturmak için, Sanal Ağ Eklemeli Çalışma Alanları için Azure Databricks Bire Bir Şablonu kullanın.

Sanal ağ şablonu

Şablon kullanarak uygun alt ağlarla bir VNet oluşturmak için Databricks SanalAğ Ekleme sanal ağ şablonunu kullanın.

Azure Databricks çalışma alanı şablonu

Bir şablonla Azure Databricks çalışma alanını mevcut bir VNet'e dağıtmak için, Sanal Ağ Ekleme için Azure Databricks Şablonu kullanın.

Çalışma alanı şablonu, var olan bir sanal ağı belirtmenize ve mevcut alt ağları kullanmana olanak sağlar:

  • Dağıtan her çalışma alanı için ayrı bir konak/kapsayıcı alt ağı çifti olması gerekir. Alt ağları çalışma alanları arasında paylaşmak veya çalışma alanınız tarafından kullanılan alt ağlara diğer Azure kaynaklarını dağıtmak Azure Databricks desteklenmez.
  • Çalışma alanını dağıtmak için bu sanal ağ şablonunu kullanmadan önce sanal ağ ana bilgisayar ve kapsayıcı alt ağlarında ağ güvenlik grupları ekli olmalı ve Microsoft.Databricks/workspaces Azure Resource Manager için temsilci seçmelisiniz.
  • Düzgün şekilde temsilci alt ağları olan bir sanal ağ oluşturmak için Databricks SanalAğ Ekleme için Sanal Ağ Şablonunu kullanın.
  • Konak ve kapsayıcı alt ağlarını henüz temsilci seçmemişken var olan bir sanal ağı kullanmak için bkz. Alt ağ temsilcisi ekleme veya kaldırma ya da Sanal Ağ Ekleme önizleme çalışma alanını GA'ya yükseltme.

Ağ güvenlik grubu kuralları

Aşağıdaki tablolarda, ağ güvenlik grubu tarafından kullanılan geçerli ağ Azure Databricks. Bu Azure Databricks bir kural eklemeniz veya mevcut bir kuralın kapsamını değiştirmeniz gerekirse, önceden bildirim alırsınız. Bu tür bir değişiklik olduğunda bu makale ve tablolar güncelleştirilecek.

Bu bölümdeki konular:

Ağ Azure Databricks grup kurallarını yönetme

Aşağıdaki bölümlerde listelenen NSG kuralları, VNet'inizin ana bilgisayar ve kapsayıcı alt ağlarının hizmete temsilci olarak temsili sayesinde NSG'nize otomatik olarak Azure Databricks ve yöneten kuralları Microsoft.Databricks/workspaces temsil ediyor. Bu NSG kurallarını güncelleştirme veya silme izniniz yok; bunu yapmaya yapılan tüm girişimler alt ağ temsilcisi tarafından engellenir. Azure Databricks, Microsoft'un sanal ağınıza güvenli bir şekilde hizmet Azure Databricks sağlamak için bu kurallara sahip olması gerekir.

Bu NSG kurallarından bazılarına kaynak ve hedef olarak VirtualNetwork atanmıştır. Bu, Azure'da alt ağ düzeyinde hizmet etiketi bulunmadan tasarımı basitleştirmek için uygulanmıştır. Tüm kümeler, A kümesi aynı çalışma alanında B kümesine bağlanamayacak şekilde dahili olarak ikinci bir ağ ilkesi katmanı tarafından korunur. Bu durum, çalışma alanlarınız aynı müşteri tarafından yönetilen sanal ağda farklı bir alt ağ çifti içine dağıtılırsa birden çok çalışma alanı için de geçerlidir.

Önemli

Çalışma alanı sanal ağı başka bir müşteri tarafından yönetilen ağ ile eşlenmişse veya Azure Databricks olmayan kaynaklar diğer alt ağlarda sağlandı ise Databricks, kaynak trafiğinin Azure Databricks kümelerinden gelen trafiği engellemek için diğer ağlara ve alt ağlara bağlı NSG'lere Gelen trafiği reddet kuralları eklemenizi önermektedir. Kaynak kümenizin bağlanmalarını istediğiniz kaynaklar için bu Azure Databricks eklemenize gerek yok.

13 Ocak 2020'den sonra oluşturulan çalışma alanları için ağ güvenlik grubu kuralları

Aşağıdaki tablo yalnızca 13 Azure Databricks 2020'den sonra oluşturulan çalışma alanları için geçerlidir. Çalışma alanınız 13 Ocak 2020'de güvenli küme bağlantısının (SCC) yayımdan önce oluşturulmuşsa aşağıdaki tabloya bakın.

Önemli

Aşağıdaki tabloda yalnızca güvenli küme bağlantısı (SCC) devre dışı bırakılmıştır.

Yön Protokol Kaynak Kaynak Bağlantı Noktası Hedef Dest Bağlantı Noktası Kullanılan
Gelen Herhangi biri VirtualNetwork Herhangi biri VirtualNetwork Herhangi biri Varsayılan
Gelen TCP AzureDatabricks (hizmet etiketi)
Yalnızca SCC devre dışı bırakılmışsa
Herhangi biri VirtualNetwork 22 Genel IP
Gelen TCP AzureDatabricks (hizmet etiketi)
Yalnızca SCC devre dışı bırakılmışsa
Herhangi biri VirtualNetwork 5557 Genel IP
Giden TCP VirtualNetwork Herhangi biri AzureDatabricks (hizmet etiketi) 443 Varsayılan
Giden TCP VirtualNetwork Herhangi biri SQL 3306 Varsayılan
Giden TCP VirtualNetwork Herhangi biri Depolama 443 Varsayılan
Giden Herhangi biri VirtualNetwork Herhangi biri VirtualNetwork Herhangi biri Varsayılan
Giden TCP VirtualNetwork Herhangi biri EventHub 9093 Varsayılan

13 Ocak 2020'den önce oluşturulan çalışma alanları için ağ güvenlik grubu kuralları

Aşağıdaki tablo yalnızca 13 Azure Databricks 2020'den önce oluşturulan çalışma alanları için geçerlidir. Çalışma alanınız 13 Ocak 2020'de veya sonrasında oluşturulduktan sonra önceki tabloya bakın.

Yön Protokol Kaynak Kaynak Bağlantı Noktası Hedef Dest Bağlantı Noktası Kullanılan
Gelen Herhangi biri VirtualNetwork Herhangi biri VirtualNetwork Herhangi biri Varsayılan
Gelen TCP ControlPlane IP Herhangi biri VirtualNetwork 22 Genel IP
Gelen TCP ControlPlane IP Herhangi biri VirtualNetwork 5557 Genel IP
Giden TCP VirtualNetwork Herhangi biri Web uygulaması IP'i 443 Varsayılan
Giden TCP VirtualNetwork Herhangi biri SQL 3306 Varsayılan
Giden TCP VirtualNetwork Herhangi biri Depolama 443 Varsayılan
Giden Herhangi biri VirtualNetwork Herhangi biri VirtualNetwork Herhangi biri Varsayılan
Giden TCP VirtualNetwork Herhangi biri EventHub 9093 Varsayılan

Önemli

Azure Databricks, Microsoft Azure Azure Genel Bulut altyapısına dağıtılmış bir birinci taraf hizmetidir. Denetim düzlemi ve müşteri veri düzlemi içindeki genel IP'ler arasındaki tüm iletişimler, ağ omurgası Microsoft Azure kalır. Ayrıca bkz. Microsoft genel ağı.

Sorun giderme

Çalışma alanı oluşturma hataları

Alt ağ, hizmet ilişkilendirme bağlantısına başvuru yapmak için aşağıdaki [Microsoft.Databricks/çalışma alanları] temsilcilerden herhangi birini gerektirir

Olası neden: Konak ve kapsayıcı alt ağları hizmete temsilci olarak devredilen bir sanal ağda çalışma alanı Microsoft.Databricks/workspaces oluşturuyoruz. Her alt ağa bir ağ güvenlik grubu eklenmiş olmalıdır ve doğru şekilde yetkilendirilmiş olması gerekir. Daha fazla bilgi için bkz. sanal ağ gereksinimleri .

Alt ağ, çalışma alanı tarafından zaten kullanılıyor

Olası neden: mevcut bir Azure Databricks çalışma alanı tarafından zaten kullanılmakta olan konak ve kapsayıcı alt ağları ile VNet 'te bir çalışma alanı oluşturuyorsunuz. Birden çok çalışma alanını tek bir alt ağ arasında paylaşamazsınız. Dağıttığınız her çalışma alanı için yeni bir konak ve kapsayıcı alt ağı çiftine sahip olmanız gerekir.

Sorun giderme

Erişilemeyen örneklere: kaynaklara SSH aracılığıyla ulaşılamadı.

Olası neden: denetim düzleminin çalışanlara giden trafik engellenir. şirket içi ağınıza bağlı mevcut bir VNet 'e dağıtıyorsanız, Azure Databricks çalışma alanınızı şirket içi ağınıza Bağlansağlanan bilgileri kullanarak kurulumunuzu gözden geçirin.

Beklenmeyen başlatma hatası: küme ayarlanırken beklenmeyen bir hatayla karşılaşıldı. Lütfen yeniden deneyin ve sorun devam ederse Azure Databricks ekibiyle iletişime geçin. İç hata iletisi: Timeout while placing node .

olası neden: çalışanların Azure 'a Depolama uç noktalarına giden trafik engellenir. Özel DNS sunucuları kullanıyorsanız, sanal ağınızdaki DNS sunucularının durumunu da denetleyin.

Bulut Sağlayıcısı Başlatma Hatası: Küme ayarlanırken bulut sağlayıcısı hatasıyla karşılaşıldı. Daha fazla bilgi için Azure Databricks kılavuzuna bakın. Azure hata kodu: AuthorizationFailed/InvalidResourceReference.

Olası neden: VNet veya alt ağlar hiç yok. Sanal ağın ve alt ağların mevcut olduğundan emin olun.

Küme sonlandırıldı. Neden: Spark başlatma hatası: Spark zamanında başlatılamadı. Bu sorun, hatalı çalışan Hive meta veri deposu, geçersiz Spark yapılandırmalarının veya hatalı başlatma betikleri nedeniyle oluşabilir. Bu sorunu gidermek için Spark sürücü günlüklerine bakın ve sorun devam ederse Databricks ile iletişim kurun. İç hata iletisi: Spark failed to start: Driver failed to start in time .

Olası neden: kapsayıcı, barındırma örneği veya DBFS depolama hesabıyla konuşamaz. Alt ağlara DBFS depolama hesabı için sonraki atlamanın İnternet olduğu bir özel yol ekleyerek sorunu çözün.