Kümeleri yapılandırma

Bu makalede, küme oluşturma ve küme oluşturma ve düzenleme Azure Databricks açıklanmıştır. Kullanıcı arabirimini kullanarak kümeleri oluşturmaya ve düzenlemeye odaklanır. Diğer yöntemler için bkz. Kümeler CLI'si ve Kümeler API'si.

İhtiyaçlarınızı en iyi şekilde hangi yapılandırma seçeneklerinin birleşimine karar verme konusunda yardım almak için bkz. küme yapılandırması en iyi yöntemleri.

Küme oluşturma

Gizli bir gizli anahtarından Spark yapılandırma özelliğini alma

Databricks, parolalar gibi hassas bilgilerin düz metin yerine gizli olarak depolanması önerilir. Spark yapılandırmasında gizli diziye başvuru yapmak için aşağıdaki söz dizimlerini kullanın:

spark.<secret-prop-name> <path-value>

Örneğin, adlı bir Spark yapılandırma özelliğini içinde password depolanan gizli dizi değerine ayarlamak secrets/apps/acme-app/password için:

spark.password {{secrets/apps/acme-app/password}}

Daha fazla bilgi için bkz. Spark yapılandırma özelliğinde veya ortam değişkensinde gizli yollar.

Küme ilkesi

Küme ilkesi, kümeleri bir kural kümesine göre yapılandırma olanağını sınırlar. İlke kuralları, küme oluşturma için kullanılabilen öznitelikleri veya öznitelik değerlerini sınırlandırıyor. Küme ilkelerinin, kullanımlarını belirli kullanıcılar ve gruplarla sınırlayıcı ve bu nedenle küme oluşturmada seçebilirsiniz ilkeleri sınırlandıran ACL'ler vardır.

Bir küme ilkesi yapılandırmak için İlke açılan listesinden küme ilkesi'ni seçin.

Küme ilkesi seçme

Not

Çalışma alanında hiçbir ilke oluşturulmadı ise İlke açılan listesi görüntülenmez.

Varsa:

  • Küme oluşturma izni,Sınırsız ilkeyi seçerek tam olarak yapılandırılabilir kümeler oluşturabilirsiniz. Sınırsız ilkesi, hiçbir küme özniteliğini veya öznitelik değerlerini sınırlamaz.
  • Hem küme oluşturma izni hem de küme ilkelerine erişim, Kısıtlanmamış ilkeyi ve erişiminiz olan ilkeleri seçin.
  • Yalnızca küme ilkelerine erişim, erişiminiz olan ilkeleri seçin.

Küme modu

Azure Databricks üç küme modu destekler: Standart, Yüksek Eşzamanlılık ve Tek Düğüm. Varsayılan küme modu Standart'tır.

Not

Küme yapılandırması, varsayılan değeri küme moduna bağlı olan bir otomatik sonlandırma ayarı içerir:

  • Standart ve Tek Düğümlü kümeler varsayılan olarak 120 dakika sonra otomatik olarak sonlandırılır.
  • Yüksek Eşzamanlılık kümeleri otomatik olarak sonlandırılmaz.

Önemli

Küme oluşturulduktan sonra küme modunu değiştiremezsiniz. Farklı bir küme modu oluşturmak için yeni bir küme oluşturmanız gerekir.

Standart kümeler

Tek bir kullanıcı için Standart küme önerilir. Standart kümeler herhangi bir dilde geliştirilen iş yüklerini çalıştırabilirsiniz: Python, SQL, R ve Scala.

Yüksek Eşzamanlılık kümeleri

Yüksek Eşzamanlılık kümesi yönetilen bir bulut kaynağıdır. Yüksek Eşzamanlılık kümelerinin temel avantajları, en fazla kaynak kullanımı ve en düşük sorgu gecikme süreleri için daha fazla bilgi paylaşımı sağlamalarıdır.

Yüksek Eşzamanlılık kümeleri, SQL, Python ve R'de geliştirilen iş yüklerini çalıştırabilirsiniz. Yüksek Eşzamanlılık kümelerinin performansı ve güvenliği, kullanıcı kodunun Scala'da mümkün olmayan ayrı işlemlerde çalıştırarak sağlanır.

Ayrıca, yalnızca Yüksek Eşzamanlılık kümeleri tablo erişim denetimi destekler.

Yüksek Eşzamanlılık kümesi oluşturmak için Küme Modu'ni Yüksek Eşzamanlılık olarak ayarlayın.

Yüksek Eşzamanlılık kümesi modu

Kümeler API'sini kullanarak Yüksek Eşzamanlılık kümesi oluşturma örneği için bkz. Yüksek Eşzamanlılık kümesi örneği.

Tek Düğümlü kümeler

Tek Düğümlü kümede çalışan yoktur ve sürücü düğümünde Spark işleri çalıştırır.

Buna karşılık, Standart küme, Spark işlerini yürütmek için sürücü düğümüne ek olarak en az bir Spark çalışan düğümü gerektirir.

Tek Düğümlü bir küme oluşturmak için Küme Modu'ni Tek Düğüm olarak ayarlayın.

Tek Düğümlü küme modu

Tek Düğümlü kümelerle çalışma hakkında daha fazla bilgi edinmek için bkz. Tek Düğümlü kümeler.

Havuzu

Küme başlangıç süresini azaltmak için, sürücü ve çalışan düğümleri için önceden tanımlanmış boş örnek havuzlarına bir küme iliştirebilirsiniz. Küme, havuzlarda örnekleri kullanılarak oluşturulur. Bir havuzun istenen sürücü veya çalışan düğümlerini oluşturmak için yeterli boş kaynakları yoksa, havuz örnek sağlayıcısından yeni örnekler bırakarak genişler. Ekli bir küme sonlandırılsa, kullandığı örnekler havuzlara döndürülür ve farklı bir küme tarafından yeniden kullanılabilir.

Çalışan düğümleri için bir havuz seçer ancak sürücü düğümü için seçmezsiniz, sürücü düğümü havuzu çalışan düğümü yapılandırmasından devralın.

Önemli

Çalışan düğümleri için değil, sürücü düğümü için bir havuz seçmeye çalışıyorsanız bir hata oluşur ve kümeniz oluşturulmaz. Bu gereksinim, sürücü düğümünün çalışan düğümlerinin oluşturulacak şekilde (veya tam tersi) beklemesi gereken bir durumu engeller.

Havuzlarda havuzlarla çalışma hakkında daha fazla bilgi edinmek için Azure Databricks.

Databricks Runtime

Databricks çalışma zamanları, kümeleriniz üzerinde çalıştıran temel bileşenler kümesidir. Tüm Databricks çalışma zamanları, Apache Spark, performans ve güvenliği geliştiren bileşenler ve güncelleştirmeler içerir. Ayrıntılar için bkz. Databricks çalışma zamanları.

Azure Databricks küme oluşturma veya düzenleme için Databricks Runtime Sürüm açılır listesinde birkaç çalışma zamanı türü ve bu çalışma zamanı türlerinin birkaç sürümünü sunar.

Çalışma zamanı sürümünü seçin

Docker görüntüleri

Bazı Databricks Runtime sürümleri için, bir küme oluşturmada bir Docker görüntüsü belirtebilirsiniz. Örnek kullanım örnekleri arasında kitaplık özelleştirmesi, değişmeyen altın kapsayıcı ortamı ve Docker CI/CD tümleştirmesi yer aldı.

Gpu cihazlarıyla kümelerde özel derin öğrenme ortamları oluşturmak için Docker görüntülerini de kullanabilirsiniz.

Yönergeler için bkz. GPU kümelerde Databricks Container Services ve Databricks Container Services ile kapsayıcıları özelleştirme.

Python sürümü

Önemli

Python 2, 1 Ocak 2020'de yaşam sonuna ulaştı. Python 2, 6.0 ve Databricks Runtime için desteklenmiyor. Databricks Runtime 5.5 ve altı, Python 2'ye destek olmaya devam eder.

Databricks Runtime 6.0 ve üzerini çalıştıran Python kümeleri

Databricks Runtime 6.0 (Desteklenmiyor) ve üzeri yalnızca Python 3'ü destekler. Databricks Runtime 6.0 tarafından tanıtilen Python ortamıyla ilgili önemli değişiklikler için sürüm notlarında Python ortamına bakın.

Databricks Runtime 5.5 LTS çalıştıran Python kümeleri

5 Databricks Runtime LTS, Spark işleri, Python not defteri hücreleri ve kitaplık yüklemesi için python 2 ve 3'ü destekler.

Kullanıcı arabirimi kullanılarak oluşturulan kümeler için varsayılan Python sürümü Python 3'dür. Bu Databricks Runtime 5.5 LTS, Python 2 kullanılarak oluşturulan kümeler REST API sürümüdür.

Python sürümünü belirtme

Kullanıcı arabirimini kullanarak bir küme sanız Python sürümünü belirtmek için Python Sürümü açılan listesinden kümeyi seçin.

Küme Python sürümü

API'yi kullanarak küme oluştururken Python sürümünü belirtmek için ortam değişkenlerini veya PYSPARK_PYTHON olarak /databricks/python/bin/python /databricks/python3/bin/python3 ayarlayın. Örneğin, dbFS'REST API büyük Upload dosya oluşturma örneğine bakın.

Yapılandırmanın geçerli PYSPARK_PYTHON olduğunu doğrulamak için Python not defterinde (veya %python hücresinde) şu çalıştırmayı çalıştırın:

import sys
print(sys.version)

/databricks/python3/bin/python3belirttiysanız, şöyle bir şey yazdırması gerekir:

3.5.2 (default, Sep 10 2016, 08:21:44)
[GCC 5.4.0 20160609]

Önemli

Örneğin Databricks Runtime 5.5 LTS'de bir not defterinde çalıştırarak Python 2 olan %sh python --version Ubuntu sistemi Python sürümünü ifade python eder. Databricks not defterleri ve Spark tarafından kullanılan Python sürümüne başvurmak için kullanın: Bu yol otomatik olarak doğru Python yürütülebilir dosyasını /databricks/python/bin/python işaret etmek üzere yapılandırılır.

Sık sorulan sorular (SSS)

Aynı kümede hem Python 2 hem de Python 3 not defterlerini kullanabilir miyim?

Hayır. Python sürümü küme genelinde bir ayardır ve not defteri başına temelinde yapılandırılabilir değildir.

Python kümelerine hangi kitaplıklar yüklenir?

Yüklü olan kitaplıklarla ilgili ayrıntılar için bkz. Databricks runtime sürüm notları.

Mevcut PyPI kitaplıklarım Python 3 ile çalışacak mı?

Bu, kitaplığın sürümünün bir uygulama sürümünün Python 3 sürümünü destekleyip destekleme Databricks Runtime bağlıdır.

Databricks Runtime 5.5 LTS Python 3.5 kullanır. Databricks Runtime 6.0 ve üzeri ve conda Databricks Runtime Python 3.7 kullanır. Python kitaplığının belirli bir eski sürümünün Python 3.7 ile ileri doğru uyumlu olması mümkün değildir. Bu durumda, kitaplığın daha yeni bir sürümünü kullanabilirsiniz.

Mevcut .egg kitaplıklarım Python 3 ile çalışacak mı?

Mevcut sandviç kitaplığının hem Python 2 hem de 3 ile çapraz uyumlu olup olmadığına bağlıdır. Kitaplık Python 3'ü desteklemezse kitaplık eki başarısız olur veya çalışma zamanı hataları oluşur.

Kodu Python 3'e ve hem Python 2 hem de 3 ile uyumlu kod yazma hakkında kapsamlı bir kılavuz için bkz. Python 3'ü destekleme.

Yine de init betiklerini kullanarak Python kitaplıklarını yükleyebilir miyim?

Küme düğümü başlatma betikleri için yaygın bir kullanım durumu paketleri yüklemektir.

5.5 LTS Databricks Runtime için, Python paketlerinin sistem Python ortamı yerine /databricks/python/bin/pip Databricks Python sanal ortamına yüklendikten emin olmak için kullanın.

6.0 Databricks Runtime ve üzeri için Databricks Runtime Conda ile birlikte komutu doğru Python sanal ortamındaki pip pip komutuna başvurur. Ancak, Python sanal ortamını oluşturmak için bir init betiği kullanıyorsanız, ve'ye erişmek için her zaman mutlak yolu python pip kullanın.

Küme düğümü türü

Küme bir sürücü düğümü ve sıfır veya daha fazla çalışan düğümü içerir.

Sürücü düğümü varsayılan olarak çalışan düğümüyle aynı örnek türünü kullanıyor olsa da, sürücü ve çalışan düğümleri için ayrı bulut sağlayıcısı örnek türleri alabilirsiniz. Farklı örnek türleri aileleri, yoğun bellek kullanan veya işlem yoğun iş yükleri gibi farklı kullanım örneklerine uyar.

Not

Güvenlik gereksinimleriniz işlem yalıtımına sahipse,çalışan Standard_F72s_V2 bir örnek seçin. Bu örnek türleri, fiziksel ana bilgisayar tamamını tüketen ve ABD Savunma Bakanlığı Etki Düzeyi 5 (IL5) iş yüklerini desteklemek için gereken yalıtım düzeyini sağlayan yalıtılmış sanal makineleri temsil ediyor.

Sürücü düğümü

Sürücü düğümü, kümeye bağlı tüm not defterlerinin durum bilgilerini sürdürür. Sürücü düğümü ayrıca SparkContext'i sürdürür ve kümedeki bir not defterinden veya kitaplıktan çalıştırarak tüm komutları yorumlar ve Spark yürütücüleriyle koordine Apache Spark ana bilgisayarını çalıştırır.

Sürücü düğümü türünün varsayılan değeri çalışan düğümü türüyle aynıdır. Spark çalışanlarından çok fazla veri yapmayı ve bunları not defterinde analiz etmeyi planlıyorsanız, daha fazla belleğe sahip daha collect() büyük bir sürücü düğümü türü seçebilirsiniz.

İpucu

Sürücü düğümü bağlı not defterlerinin tüm durum bilgilerini bulundurdu olduğundan, kullanılmayan not defterlerini sürücü düğümünden ayırmayı emin olun.

Çalışan düğümü

Azure Databricks çalışan düğümleri, Kümelerin düzgün çalışması için gereken Spark yürütücülerini ve diğer hizmetleri çalıştırıyor. İş yüklerinizi Spark ile dağıtıldığında, dağıtılmış işlemlerin hepsi çalışan düğümlerinde gerçekleşir. Azure Databricks çalışan düğümü başına bir yürütücü çalıştırır; bu nedenle yürütücü ve çalışan terimleri, uygulama mimarisi bağlamında birbirinin Azure Databricks kullanılır.

İpucu

Spark işini çalıştırmak için en az bir çalışan düğümüne ihtiyacınız vardır. Bir kümede sıfır çalışan varsa, sürücü düğümünde Spark olmayan komutları çalıştırabilirsiniz, ancak Spark komutları başarısız olur.

GPU örnek türleri

Derin öğrenmeyle ilişkili olanlar gibi yüksek performansa talep eden işlem gücü Azure Databricks, grafik işleme birimleri (GPU) ile hızlandırılmış kümeleri destekler. Bu destek Beta aşamasındadır. Daha fazla bilgi için bkz. GPU özellikli kümeler.

Spot örnekler

Maliyet tasarrufu yapmak için Spot örnekleri onay kutusunu kontrol ederek Azure Spot VM'leri olarak da bilinen spot örnekleri kullanmayı seçebilirsiniz.

Spot yapılandırma

İlk örnek her zaman isteğe bağlı (sürücü düğümü her zaman isteğe bağlı) olur ve sonraki örnekler spot örnekler olur. Spot örnekler kullanılabilir olmaması nedeniyle çıkarıldığında, çıkarılan örneklerin yerini alacak isteğe bağlı örnekler dağıtılır.

Küme boyutu ve otomatik ölçeklendirme

Bir kümeyi Azure Databricks küme için sabit sayıda çalışan s sağlama veya küme için en az ve en fazla çalışan sayısı sabilirsiniz.

Sabit boyutlu bir küme belirttiğinizde, Azure Databricks kümenizin belirtilen sayıda çalışana sahip olduğunu doğrular. Çalışan sayısı için bir aralık sağlarken Databricks, işlerinizi çalıştırmak için gereken uygun çalışan sayısını seçer. Bu, otomatik ölçeklendirme olarak adlandırılır.

Otomatik ölçeklendirme ile Azure Databricks, çalışanların iş özelliklerini dikkate alan dinamik olarak yeniden konumlarını oluşturur. İşlem hattınızı belirli bölümleri diğerlerine göre daha yoğun olabilir ve Databricks, işinizin bu aşamaları sırasında otomatik olarak ek çalışan ekler (ve artık ihtiyaç kalmadan bunları kaldırır).

Otomatik ölçeklendirme, bir iş yüküyle eşleşmesi için kümeyi hazırlamaya gerek olmadığı için yüksek küme kullanımına ulaşmayı kolaylaştırır. Bu durum özellikle gereksinimleri zaman içinde değişen iş yükleri için geçerlidir (örneğin, bir gün boyunca bir veri kümesi keşfetmek gibi) ama sağlama gereksinimleri bilinmeyen bir kez daha kısa bir iş yükü için de geçerli olabilir. Bu nedenle otomatik ölçeklendirme iki avantaj sunar:

  • İş yükleri, sabit boyutlu ve az sağlanan kümeye kıyasla daha hızlı çalışır.
  • Otomatik ölçeklendirme kümeleri, statik olarak boyutlandırilen kümelere kıyasla genel maliyetleri düşürün.

Kümenin ve iş yükünün sabit boyutuna bağlı olarak, otomatik ölçeklendirme size aynı anda bu avantajlardan birini veya ikisini birden sunar. Bulut sağlayıcısı örnekleri sonlandıran küme boyutu, seçilen en düşük çalışan sayısının altına iner. Bu durumda, Azure Databricks çalışan sayısını korumak için örnekleri yeniden sağlamayı sürekli yeniden denemez.

Not

Otomatik ölçeklendirme, işler için spark-submit kullanılamaz.

Otomatik ölçeklendirme türleri

Azure Databricks iki tür küme düğümü otomatik ölçeklendirmesi sunar: standart ve iyileştirilmiş. İyileştirilmiş otomatik ölçeklendirmenin avantajları hakkında daha fazla bilgi için İyileştirilmiş Otomatik Ölçeklendirme blog gönderisi'ne bakın.

Otomatik (iş) kümeleri her zaman iyileştirilmiş otomatik ölçeklendirme kullanır. Çok amaçlı kümelerde gerçekleştirilen otomatik ölçeklendirme türü çalışma alanı yapılandırmasına bağlıdır.

Standart otomatik ölçeklendirme, Standart fiyatlandırma katmanında çalışma alanlarındaki tüm amaçlı kümeler tarafından kullanılır. İyileştirilmiş otomatik ölçeklendirme, Azure Databricks Premium Plan'daki tüm amaçlı kümeler tarafından kullanılır.

Otomatik ölçeklendirmenin davranışı

Otomatik ölçeklendirme, iyileştirilmiş veya standart olup olmadığı ve tüm amaçlı veya bir iş kümesine uygulanıp uygulanmayışa bağlı olarak farklı davranır.

İyileştirilmiş otomatik ölçeklendirme

  • 2 adımda ölçeği en azdan en yükseke kadar ölçekler.
  • Karıştırma dosya durumuna bakarak küme boşta kalmasa bile ölçeğin ölçeğini aşağı doğru ölçeklendirebilirsiniz.
  • Geçerli düğümlerin yüzdesine göre ölçeği aşağı doğru ölçeklendirin.
  • İş kümelerde, küme son 40 saniye içinde az kullanılıyorsa ölçeğin ölçeği düşer.
  • Çok amaçlı kümelerde, küme son 150 saniye içinde az kullanılırsa ölçeğin ölçeği düşer.
  • spark.databricks.aggressiveWindowDownSSpark yapılandırma özelliği, kümenin ölçeklendirme kararlarını ne sıklıkta aldığına saniyeler içinde karar verir. Değerin artırılması, kümenin ölçeğinin daha yavaş iner. Maksimum değer 600'tir.

Standart otomatik ölçeklendirme

  • 8 düğüm ekleyerek başlar. Bundan sonra ölçeği katlanarak artmaktadır, ancak maksimuma ulaşmak için birçok adım atabilirsiniz. Spark yapılandırma özelliğini ayarerek ilk adımı spark.databricks.autoscaling.standardFirstStepUp özelleştirebilirsiniz.
  • Ölçeği yalnızca küme tamamen boşta olduğunda ve son 10 dakika boyunca az kullanılıyor olduğunda ölçeklendirin.
  • 1 düğümden başlayarak ölçeği üstel olarak ölçeklendirin.

Otomatik ölçeklendirmeyi etkinleştirme ve yapılandırma

Kümenizi Azure Databricks yeniden boyutlandırmanıza izin vermek için küme için otomatik ölçeklendirmeyi etkinleştirir ve en az ve en fazla çalışan aralığını sağlarsiniz.

  1. Otomatik ölçeklendirmeyi etkinleştirin.

    • All-Purpose - Küme Oluştur sayfasında Autopilot Seçenekleri kutusunda Otomatik ölçeklendirmeyi etkinleştir onay kutusunu seçin:

      Etkileşimli kümeler için otomatik ölçeklendirmeyi etkinleştirme

    • İş kümesi - Kümeyi Yapılandır sayfasında Autopilot Seçenekleri kutusunda Otomatik ölçeklendirmeyi etkinleştir onay kutusunu seçin:

      İş kümeleri için otomatik ölçeklendirmeyi etkinleştirme

  2. En az ve en fazla çalışan yapılandırma.

    En az ve en fazla çalışan yapılandırma

    Küme çalıştırıldıklarında, küme ayrıntı sayfası ayrılan çalışanların sayısını görüntüler. Ayrılan çalışan sayısını çalışan yapılandırmasıyla karşılaştırarak gerektiğinde ayarlamalar da yapacaktır.

Önemli

Örnek havuzu kullanıyorsanız:

  • İstenen küme boyutunun havuz içinde en az boştaki örnek sayısından küçük veya buna eşit olduğundan emin olun. Daha büyükse, küme başlatma süresi havuz kullanmayan bir kümeye eşdeğerdir.
  • En büyük küme boyutunun havuzun maksimum kapasitesinden küçük veya bu kapasiteye eşit olduğundan emin olun. Daha büyükse küme oluşturma işlemi başarısız olur.

Otomatik ölçeklendirme örneği

Statik bir kümeyi otomatik ölçeklendirme kümesi olarak yeniden yapılandırıyorsanız, Azure Databricks minimum ve maksimum sınırlarda kümeyi hemen yeniden boyutlandırarak otomatik ölçeklendirmeyi başlatır. Örnek olarak, aşağıdaki tabloda, bir kümeyi 5 ila 10 düğümleri arasında otomatik ölçeklendirme yapmak üzere yeniden yapılandırırsanız, belirli bir başlangıç boyutuna sahip kümelere ne olacağı gösterilmektedir.

Başlangıç boyutu Yeniden yapılandırma sonrasında boyut
6 6
12 10
3 5

Yerel depolamayı otomatik ölçeklendirme

Genellikle belirli bir işin ne kadar disk alanı olacağını tahmin etmek zor olabilir. Oluşturma sırasında kümenize kaç gigabayt yönetilen disk iliştirilmeyi tahmin etmek için Azure Databricks, tüm Azure Databricks kümelerinde yerel depolamayı Otomatik ölçeklendirmeye olanak sağlar.

Yerel depolama 'yı otomatik ölçeklendirmeyle, Azure Databricks kümenizin Spark çalışanlarında kullanılabilir boş disk alanı miktarını izler. Bir çalışan diskte çok düşük çalışmaya başlarsa, Databricks disk alanı tükenmeye başlamadan önce otomatik olarak çalışana yeni bir yönetilen disk ekler. Diskler, sanal makine başına toplam disk alanı olan 5 TB sınırına (sanal makinenin ilk yerel depolama alanı dahil) eklenir.

Bir sanal makineye bağlı yönetilen diskler yalnızca sanal makine Azure 'a döndürüldüğünde ayrılır. Diğer bir deyişle, yönetilen diskler, çalışan bir kümenin parçası olduğu sürece hiçbir zaman bir sanal makineden ayrılmazlar. Yönetilen disk kullanımını ölçeklendirmek için Azure Databricks, bu özelliğin GPU örnek türleri veya Otomatik sonlandırmasıylayapılandırılmış bir kümede kullanılmasını önerir.

Yerel disk şifrelemesi

Önemli

Bu özellik Genel Önizlemededir.

Kümeleri çalıştırmak için kullandığınız bazı örnek türleri yerel olarak bağlanmış disklere sahip olabilir. Azure Databricks, bu yerel olarak ekli disklerde karışık verileri veya kısa ömürlü verileri saklayabilir. Rest 'deki tüm verilerin, kümenizin yerel disklerinde geçici olarak depolanan verileri karıştırma dahil olmak üzere tüm depolama türlerinde şifrelendiğinden emin olmak için yerel disk şifrelemeyi etkinleştirebilirsiniz.

Önemli

Yerel birimlerden ve yerel birimlere şifreli verileri okuma ve yazma performans etkisi nedeniyle iş yükleriniz daha yavaş çalışabilir.

Yerel disk şifrelemesi etkinleştirildiğinde, Azure Databricks her küme düğümü için benzersiz olan bir şifreleme anahtarı oluşturur ve yerel disklerde depolanan tüm verileri şifrelemek için kullanılır. Anahtarın kapsamı her küme düğümü için yereldir ve küme düğümünün kendisi ile birlikte yok edilir. Bu süre boyunca, anahtar şifreleme ve şifre çözme için bellekte bulunur ve diskte şifreli olarak depolanır.

Yerel disk şifrelemeyi etkinleştirmek için kümeler API'sini kullanmanız gerekir. Küme oluşturma veya düzenleme sırasında şunları ayarlayın:

{
  "enable_local_disk_encryption": true
}

Bu API 'Leri çağırma örnekleri için kümeler API başvurusunda oluşturma ve düzenleme bölümüne bakın.

Yerel disk şifrelemeyi sağlayan bir küme oluşturma çağrısı örneği aşağıda verilmiştir:

{
  "cluster_name": "my-cluster",
  "spark_version": "7.3.x-scala2.12",
  "node_type_id": "Standard_D3_v2",
  "enable_local_disk_encryption": true,
  "spark_conf": {
    "spark.speculation": true
  },
  "num_workers": 25
}

Spark yapılandırması

Spark işlerinin ince ayar yapmak için bir küme yapılandırmasında özel Spark yapılandırma özellikleri sağlayabilirsiniz.

  1. Küme yapılandırması sayfasında, Gelişmiş Seçenekler ' e tıklayın.

  2. Spark sekmesine tıklayın.

    Spark yapılandırması

    Spark config içinde, her satır için bir anahtar-değer çifti olarak yapılandırma özelliklerini girin.

Kümeler API'sini kullanarak bir küme yapılandırdığınızda, spark_conf küme Isteği oluşturma veya küme düzenleme isteğialanında Spark özelliklerini ayarlayın.

Tüm kümelerin Spark özelliklerini ayarlamak için genel bir init betiğioluşturun:

dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] {
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |}
  |EOF
  """.stripMargin, true)

Ortam değişkenleri

Bir kümede çalışan betiklerden erişebileceğiniz ortam değişkenlerini ayarlayabilirsiniz.

  1. Küme yapılandırması sayfasında, Gelişmiş Seçenekler ' e tıklayın.

  2. Spark sekmesine tıklayın.

  3. Ortam değişkenleri alanındaki ortam değişkenlerini ayarlayın.

    Ortam değişkenleri alanı

Ayrıca, spark_env_vars küme isteği oluşturma veya küme isteği kümelerini düzenleme API uç noktalarında alanını kullanarak ortam değişkenlerini ayarlayabilirsiniz.

Not

Bu alanda ayarladığınız ortam değişkenleri, küme düğümü başlatma betiklerineuygun değil. Init Betikleri yalnızca sınırlı bir önceden tanımlanmış Init betiği yürütme sırasıkümesini destekler.

Küme etiketleri

Küme etiketleri, kuruluşunuzdaki çeşitli gruplar tarafından kullanılan bulut kaynaklarının maliyetini kolayca izlemenize olanak sağlar. Bir küme oluştururken etiketleri anahtar-değer çiftleri olarak belirtebilir ve bu etiketleri VM 'Ler ile disk birimleri gibi bulut kaynaklarına ve DBU kullanım raporları' na de uygular Azure Databricks.

Havuzlardan başlatılan kümeler için, özel küme etiketleri yalnızca DBU kullanım raporlarına uygulanır ve bulut kaynaklarına yayılmaz. Havuz ve küme etiketi türlerinin birlikte nasıl çalıştığı hakkında ayrıntılı bilgi için bkz. küme, havuz ve çalışma alanı etiketlerini kullanarak kullanımı izleme.

Kolaylık sağlaması için Azure Databricks her kümeye dört varsayılan etiket uygular: Vendor , Creator , ClusterName ve ClusterId .

Ayrıca, iş kümelerinde Azure Databricks iki varsayılan etiket uygular: RunName ve JobId . databricks SQL tarafından kullanılan kaynaklarda, Azure Databricks varsayılan etiketi de uygular SqlEndpointId .

Bir küme oluştururken özel etiketler ekleyebilirsiniz. Küme etiketlerini yapılandırmak için:

  1. Küme yapılandırması sayfasında, Gelişmiş Seçenekler ' e tıklayın.

  2. Sayfanın alt kısmındaki Etiketler sekmesine tıklayın.

    Etiketler sekmesi

  3. Her özel etiket için bir anahtar-değer çifti ekleyin. En fazla 43 özel etiket ekleyebilirsiniz.

Kümelere SSH erişimi

Güvenlik nedenleriyle Azure Databricks SSH bağlantı noktası varsayılan olarak kapalıdır. Spark kümelerinize SSH erişimini etkinleştirmek istiyorsanız Azure Databricks desteğe başvurun.

Not

SSH, yalnızca çalışma alanınız kendi Azure sanal ağınızdadağıtılmışsa etkinleştirilebilir.

Küme günlüğü teslimi

Bir küme oluşturduğunuzda Spark sürücü düğümü, çalışan düğümleri ve olayları için günlükleri teslim etmek üzere bir konum belirtebilirsiniz. Günlükler seçtiğiniz hedefe beş dakikada bir dağıtılır. Bir küme sonlandırıldığında, küme sonlandırılana kadar üretilen tüm günlüklerin teslim edilmesini sağlar Azure Databricks.

Günlüklerin hedefi, küme KIMLIĞINE göre değişir. Belirtilen hedef ise dbfs:/cluster-log-delivery , için küme günlükleri 0630-191345-leap375 öğesine dağıtılır dbfs:/cluster-log-delivery/0630-191345-leap375 .

Günlük teslim konumunu yapılandırmak için:

  1. Küme yapılandırması sayfasında, Gelişmiş Seçenekler ' e tıklayın.

  2. Günlüğe kaydetme sekmesine tıklayın.

    Küme günlüğü teslimi

  3. Hedef türü seçin.

  4. Küme günlüğü yolunu girin.

Not

Bu özellik REST API de mevcuttur. Bkz. kümeler API 'si ve küme günlüğü teslim örnekleri.

Başlangıç betikleri

Küme düğümü başlatma — veya init — komut dosyası, Spark sürücüsü veya çalışan JVM başlamadan önce her küme düğümü için başlangıç sırasında çalışan bir kabuk betiğidir. Databricks çalışma zamanına dahil olan paketleri ve kitaplıkları yüklemek, JVM sistem sınıfyolunu değiştirmek, JVM tarafından kullanılan sistem özelliklerini ve ortam değişkenlerini ayarlamak ya da Spark yapılandırma parametrelerini değiştirmek için Init betiklerini kullanabilirsiniz.

Gelişmiş Seçenekler bölümünü genişleterek ve init betikleri sekmesine tıklayarak Init betiklerini bir kümeye ekleyebilirsiniz.

Ayrıntılı yönergeler için bkz. küme düğümü başlatma betikleri.