En iyi uygulamalar: küme yapılandırması

Azure Databricks en düşük maliyette en iyi performansı elde etmenize yardımcı olmak üzere kümeler oluşturup yapılandırdığınızda, bir dizi seçenek sağlar. Ancak bu esneklik, iş yükleriniz için en iyi yapılandırmayı belirlemeye çalışırken zorluk çıkarabilir. Yeni kümeler oluştururken veya var olan kümeleri yapılandırırken, kullanıcıların kümeleri nasıl kullandığını dikkatle düşünün. Yapılandırma seçeneklerini belirlerken göz önünde bulundurmanız gerekenler şunlardır:

  • Kümeyi ne tür bir Kullanıcı kullanacak? Veri bilimi, veri mühendislerinden veya veri analistinden farklı gereksinimlere sahip farklı iş türleri çalıştırıyor olabilir.
  • Kullanıcılar kümede hangi iş yükü türleri çalıştırır? Örneğin, toplu ayıklama, dönüştürme ve yükleme (ETL) işleri, analitik iş yüklerinden farklı gereksinimlere sahip olacaktır.
  • Hangi hizmet düzeyi anlaşması (SLA) düzeyini karşılamanız gerekiyor?
  • Hangi bütçe kısıtlamalarına sahipsiniz?

Bu makalede, bu noktalara göre farklı senaryolar için küme yapılandırma önerileri sağlanır. Bu makalede ayrıca Azure Databricks kümelerinin belirli özellikleri ve bu özellikler için göz önünde bulundurmanız gereken noktalar açıklanmaktadır.

Yapılandırma kararlarınız, maliyet ve performans arasında bir zorunluluğunu getirir gerektirir. Bir kümenin birincil maliyeti, küme tarafından tüketilen Databricks birimlerini (DBUs) ve kümeyi çalıştırmak için gereken temel kaynakların maliyetini içerir. Ne kadar belirgin olmayabilir, işletmenizin bir SLA 'yı, azaltılmış çalışan verimliliğini veya kötü bir denetim nedeniyle kaynakların olası bir şekilde harcanmasına yönelik maliyeti gibi ikincil maliyetlerdir.

Küme özellikleri

Daha ayrıntılı küme yapılandırma senaryolarını tartışmadan önce, Azure Databricks kümelerinin bazı özelliklerini ve bu özelliklerin ne kadar en iyi şekilde kullanıldığını anlamak önemlidir.

Tüm amaç kümeleri ve iş kümeleri

Bir küme oluşturduğunuzda bir küme türü seçin: bir tüm amaç kümesi veya iş kümesi. Tüm amaç kümeleri birden çok kullanıcı tarafından paylaşılabilir ve bu, geçici analiz, veri araştırması veya geliştirme işlemleri gerçekleştirmek için idealdir. İşlemenizden uygulamayı tamamladıktan ve kodunuzu çalıştırmaya hazır olduğunuzda, bir iş kümesi üzerinde çalıştırmak için geçiş yapın. İşiniz sona erdiğinde, kaynak kullanımını ve maliyeti azaltarak iş kümeleri sonlandırılır.

Küme modu

Azure Databricks üç küme modunudestekler: Standart, yüksek eşzamanlılık ve tek düğüm. Çoğu normal Kullanıcı standart veya tek düğümlü kümeler kullanır.

  • Standart kümeler Apache Spark büyük miktarlarda veriyi işlemek için idealdir.
  • Tek düğümlü kümeler, tek düğümlü makine öğrenimi kitaplıkları gibi küçük miktarlarda veri veya dağıtılmış olmayan iş yükleri kullanan işlere yöneliktir.
  • Yüksek eşzamanlılık kümeleri, kaynakları paylaşması veya geçici işleri çalıştırması gereken kullanıcı grupları için idealdir. Yöneticiler genellikle yüksek eşzamanlılık kümeleri oluşturur. Databricks, yüksek eşzamanlılık kümeleri için otomatik ölçeklendirmeyi etkinleştirmeyi önerir.

İsteğe bağlı ve spot örnekleri

Azure Databricks maliyet tasarrufu sağlamak için, isteğe bağlı ve spot örneklerinbirleşimini kullanarak küme oluşturmayı destekler. Azure 'da kullanılmayan kapasiteden yararlanmak için spot örnekleri kullanarak uygulamalarınızı çalıştırmanın maliyetini azaltabilir, uygulamanızın işlem kapasitesini artırabilir ve aktarım hızını artırabilirsiniz.

Otomatik ölçeklendirme

Otomatik ölçeklendirme , kümelerin iş yüklerine göre otomatik olarak yeniden boyutlandırılmasını sağlar. Otomatik ölçeklendirme, hem maliyet hem de performans açısından birçok kullanım durumuna ve senaryoya faydalanabilir, ancak otomatik ölçeklendirmeyi ne zaman ve nasıl kullanacağınızı anlamak zor olabilir. Aşağıdakiler, otomatik ölçeklendirmeyi kullanıp kullanmayacağınızı ve en avantajın nasıl alınacağını belirlemek için bazı hususlar aşağıda verilmiştir:

  • Otomatik ölçeklendirme, genellikle sabit boyutlu bir kümeyle karşılaştırıldığında maliyetleri azaltır.
  • Otomatik ölçeklendirme iş yükleri, sağlanan bir sabit boyutlu kümeyle karşılaştırıldığında daha hızlı çalışabilir.
  • Bazı iş yükleri Spark-gönder işleri ve bazı Python paketleri de dahil olmak üzere otomatik ölçeklendirme kümeleriyle uyumlu değildir.
  • Tek kullanıcılı tüm amaçlı kümeler sayesinde, kullanıcılar, en az sayıda çalışan çok düşük ayarlandığında, otomatik ölçeklendirmeyi, geliştirme veya analizlerini yavaşlatıyor. Bunun nedeni, çalıştırdıkları komutların veya sorguların genellikle birkaç dakika içinde, kümenin boşta kaldığı ve maliyetlerden tasarruf etmek için ölçeklenebileceği bir süredir. Sonraki komut yürütüldüğünde, Küme Yöneticisi ölçeği, bulut sağlayıcısından örnekleri alırken birkaç dakika sürer. Bu süre boyunca, işler yetersiz kaynakla çalıştırılabilir, sonuçların alınması için gereken süreyi yavaşlatmayı sağlar. En az çalışan sayısı arttıkça maliyeti de artırır. Bu, maliyet ve performansın dengelenmesi gereken başka bir örnektir.
  • Değişim önbelleği kullanılıyorsa, düğüm üzerinde önbelleğe alınmış verilerin kaybedildiğinden emin olmak önemlidir. Önbelleğe alınmış verileri koruma iş yükünüz için önemliyse, sabit boyutlu bir küme kullanmayı düşünün.
  • ETL iş yükünü çalıştıran bir iş kümeniz varsa, işinizin değişmemiş olduğunu biliyorsanız, ayarlama sırasında kümenizi uygun şekilde değiştirebilirsiniz. Ancak, otomatik ölçeklendirme, veri boyutlarınızın artması durumunda size esneklik sağlar. En iyi duruma getirilmiş otomatik ölçeklendirmenin, kümenin aşırı kullanıldığı veya başka bir işlemden elde edilen sonuçları beklediği uzun süreler varsa uzun süre çalışan işlerle harcamayı azaltabilir de dikkat edin. Yine de, küme uygun şekilde ölçeklendirmeye çalıştığı için işiniz küçük gecikmeler yaşar. Bir iş için sıkı SLA 'Lar varsa, sabit boyutlu bir küme daha iyi bir seçenek olabilir veya küme başlangıç zamanlarını azaltmak için bir Azure Databricks havuzu kullanmayı düşünebilirsiniz.

Azure Databricks Ayrıca yerel depolamayı otomatik ölçeklendirmeyidestekler. Yerel depolama 'yı otomatik ölçeklendirmeyle, Azure Databricks kümenizin Spark çalışanlarında kullanılabilir boş disk alanı miktarını izler. Bir çalışan diskte düşük çalışmaya başlarsa, Azure Databricks disk alanı tükenmeye başlamadan önce otomatik olarak çalışana yeni bir yönetilen birim ekler.

Havuzlar

Havuzlar , kullanılabilir, kullanıma hazır bir örnek kümesini tutarak küme başlangıcını ve ölçek artırma süresini azaltır. Databricks, maliyeti en aza indirerek işleme süresini artırmak için havuzlardan faydalanmasını önerir.

Databricks Runtime sürümleri

Databricks, tüm amaçlı kümeler için en son Databricks Runtime sürümünü kullanmanızı önerir. En güncel sürümü kullanmak, kodunuz ve önceden yüklenmiş paketler arasındaki en son iyileştirmelere ve en güncel uyumlulukla sahip olmanızı sağlar.

İşletimsel iş yüklerini çalıştıran iş kümeleri için, uzun süreli destek (LTS) Databricks Runtime sürümünü kullanmayı deneyin. LTS sürümünün kullanılması, uyumluluk sorunları üzerinde çalıştırılmayın ve yükseltmeden önce iş yükünüzü kapsamlı bir şekilde test edebilir. Makine öğrenimi veya Genomiks etrafında gelişmiş bir kullanım durumu varsa, özelleştirilmiş Databricks Runtime sürümlerini göz önünde bulundurun.

Küme ilkeleri

Azure Databricks küme ilkeleri , yöneticilerin kümelerin oluşturulması ve yapılandırılması üzerinde denetimleri zorunlu kılmaya olanak tanır. Databricks, bu kılavuzda açıklanan önerileri uygulamaya yardımcı olmak üzere küme ilkeleri kullanmanızı önerir. Küme ilkeleri hakkında en iyi yöntemler kılavuzundaküme ilkeleri hakkında daha fazla bilgi edinin.

Otomatik sonlandırma

Birçok kullanıcı, bunları kullanmayı bitirdiğinde kümelerini sonlandırmayı düşünmez. Neyse ki, kümeler varsayılan 120 dakikalık bir süre sonra bir ayarlanan dönemden sonra otomatik olarak sonlandırılır.

Yöneticiler, küme ilkeleri oluştururken bu varsayılan ayarı değiştirebilir. Bu ayarın azaltılması, kümelerin boşta kaldığı süreyi azaltarak maliyetten daha düşük olabilir. Küme sonlandırıldığında tüm değişkenler, geçici tablolar, önbellekler, işlevler, nesneler vb. dahil olmak üzere tüm durum kaybedildiğinden emin olmanız önemlidir. Küme yeniden başlatıldığında, bu durumun tümünün geri yüklenmesi gerekir. Bir geliştirici 30 dakikalık öğle yemeği için bir adım adım geri döndüğünüzde, daha önce olduğu gibi bir not defteri için aynı sürede bir not defteri almak için aynı süre harcanması beklenebilir.

Önemli

Boş kümeler, sonlandırmadan önce etkin olmama süresi boyunca DBU ve bulut örneği ücretlerini birikmeye devam eder.

Çöp toplama

Bu makalede ele alınan diğer önemli noktalara göre daha az açık olsa da, atık toplamaya dikkat etmeniz, kümelerinizde iş performansının iyileştirmesine yardımcı olabilir. Büyük miktarda RAM sağlamak işlerin daha verimli bir şekilde çalışmasına yardımcı olabilir ancak çöp toplama sırasında gecikmelere yol açabilir.

Uzun atık toplama özellikli EPS 'nin etkilerini en aza indirmek için, her bir örnek için yapılandırılmış büyük miktarda RAM ile küme dağıtmaktan kaçının. Daha fazla RAM 'e sahip olmak, daha uzun atık toplama sürelerine yol açabilir. Bunun yerine, daha küçük RAM boyutlarına sahip örnekleri yapılandırın ve işleriniz için daha fazla belleğe ihtiyacınız varsa daha fazla örnek dağıtın. Ancak, daha fazla RAM 'e sahip daha az düğümün kullanılması önerilir, örneğin, küme boyutlandırma konularıbölümünde anlatıldığı gibi, çok sayıda karışık iş yükü gerektirir.

Küme erişim denetimi

İki tür küme iznini yapılandırabilirsiniz:

  • Küme oluşturma Izni Izin ver , kullanıcıların küme oluşturma yeteneğini denetler.
  • Küme düzeyi izinler, belirli bir kümeyi kullanma ve değiştirme özelliğini denetler.

Küme izinlerini yapılandırma hakkında daha fazla bilgi için bkz. küme erişim denetimi.

Küme oluşturma izinleriniz varsa veya bir küme ilkesine erişiminiz varsa, ilke belirtimlerinin içinde herhangi bir küme oluşturmanıza olanak sağlayan bir küme oluşturabilirsiniz. Küme Oluşturucu sahip olur ve izinleri yönetebilir ve bu sayede, bu, kümenin veri erişim izinlerinin kısıtlamaları dahilinde başka bir kullanıcıyla paylaşılmasını sağlar.

Ortak senaryolariçin küme yapılandırmalarına karar verirken küme izinlerini ve küme ilkelerini anlamak önemlidir.

Küme etiketleri

Küme etiketleri , kuruluşunuzdaki farklı gruplar tarafından kullanılan bulut kaynaklarının maliyetini kolayca izlemenize olanak sağlar. Bir küme oluştururken etiketleri anahtar-değer dizeleri olarak belirtebilir ve bu etiketleri örnekler ve EBS birimleri gibi bulut kaynaklarına uygular Azure Databricks. Küme ilkeleri en iyi yöntemler kılavuzunda etiket zorlaması hakkında daha fazla bilgi edinin.

Küme boyutlandırma konuları

Azure Databricks çalışan düğümü başına bir yürütücü çalıştırır. Bu nedenle, hem yürütücü hem de çalışan terimleri Azure Databricks mimarisi bağlamında birbirinin yerine kullanılır. İnsanlar genellikle çalışan sayısı açısından küme boyutunu düşündüler, ancak göz önünde bulundurmanız gereken diğer önemli etmenler vardır:

  • Toplam yürütücü çekirdekleri (işlem): tüm yürüticiler genelinde toplam çekirdek sayısı. Bu, bir kümenin en büyük paralelliğini belirler.
  • Toplam yürütücü belleği: tüm yürüticiler genelinde toplam RAM miktarı. Bu, diske taşmadan önce bellekte ne kadar veri depolanabileceğini belirler.
  • Yürütücü yerel depolama: yerel disk depolama alanı türü ve miktarı. Yerel disk, genellikle karıştırılmış ve önbelleğe alma işlemleri sırasında taşın durumunda kullanılır.

Çalışan örnek türü ve boyutu, yukarıdaki faktörleri de etkileyen ek hususlar vardır. Kümenizi boyutlandırdığınızda şunları göz önünde bulundurun:

  • İş yükünüzün ne kadar veri tüketmesi gerekir?
  • İş yükünüzün hesaplama karmaşıklığı nedir?
  • Nereden veri okuyordunuz?
  • Veriler dış depolamada nasıl bölümlenir?
  • Ne kadar paralellik gerekir?

Bu soruların yanıtlanması, iş yüklerini temel alan en iyi küme yapılandırmasını belirlemenize yardımcı olur. Yalnızca dar dönüşümler kullanan basit ETL stili iş yükleri için (her giriş bölümünün yalnızca bir çıkış bölümüne katkıda bulunduğu dönüşümler), işlem için iyileştirilmiş bir yapılandırmaya odaklanın. Çok sayıda karışık beklemeniz durumunda bellek miktarının önemli olması ve veri taşlarına yönelik depolamanın olması gerekir. Daha az büyük örnek, karışık iş yükleri sırasında makineler arasında veri aktarırken ağ g/ç 'yi azaltabilir.

Çalışan sayısı ve çalışan örneği türlerinin boyutu arasında bir dengeleme işlevi vardır. İki çalışanı olan, her biri 40 çekirdek ve 100 GB RAM içeren bir küme, 10 çekirdek ve 25 GB RAM 'e sahip sekiz çalışan kümesiyle aynı işlem ve belleğe sahiptir.

Aynı verilerin birçok yeniden okuması beklendiğinde, iş yükleriniz önbelleğe alma özelliğinden yararlanabilir. Delta önbelleğinde, depolama için iyileştirilmiş bir yapılandırma düşünün.

Küme boyutlandırma örnekleri

Aşağıdaki örneklerde, belirli iş yükleri türlerine göre küme önerileri gösterilmektedir. Bu örnekler Ayrıca, kaçınmaya yönelik konfigürasyonları ve bu yapılandırmaların neden iş yükü türleri için uygun olduğunu de kapsar.

Veri analizi

Veri analistleri genellikle birden çok bölümden veri gerektiren işleme gerçekleştirir ve çok sayıda karıştırma işlemine önde gelen. Daha az sayıda düğüme sahip bir küme, bu karıştırılmış işlemleri gerçekleştirmek için gereken ağ ve disk g/ç 'yi azaltabilir. Aşağıdaki diyagramda bulunan küme, özellikle tek bir analist destekleyen kümeler için en iyi seçenektir.

Daha az bellek ve depolama alanı olan çok sayıda düğüm, işlemeyi tamamlamaya yönelik verilerin daha fazla karıştırılması gerektiğinden, küme D, büyük olasılıkla en kötü performansı sağlayacaktır.

Veri Analizi küme boyutlandırması

Analitik iş yükleri büyük olasılıkla aynı verilerin okunmasını gerektirir, bu nedenle önerilen çalışan türleri Delta önbelleği etkin olarak en iyi duruma getirilmiştir.

Analitik iş yükleri için önerilen ek özellikler şunlardır:

  • Kümelerin bir süre işlem yapılmadan sonra sonlandırılmasını sağlamak için otomatik sonlandırmasını etkinleştirin.
  • Analistin tipik iş yüküne göre otomatik ölçeklendirmeyi etkinleştirmeyi düşünün.
  • Kümelerin önceden onaylanan örnek türleri ile kısıtlanması ve tutarlı küme yapılandırmalarının sağlanması için havuzlar kullanmayı düşünün.

Büyük olasılıkla faydalı olan Özellikler:

  • Depolama otomatik ölçeklendirme, bu kullanıcı büyük olasılıkla çok fazla veri üretmeyecektir.
  • Bu küme tek bir kullanıcı için olduğundan ve yüksek eşzamanlılık kümeleri paylaşılan kullanım için en uygun şekilde olduğundan, yüksek eşzamanlılık kümeleri.

Temel toplu işlem ETL

Birleşimler veya toplamalar gibi geniş dönüştürmeler gerektirmeyen basit toplu iş ETL işleri genellikle işlem için iyileştirilmiş kümelerden yararlanır. Bu iş yükü türleri için, aşağıdaki diyagramdaki kümelerden herhangi biri muhtemelen kabul edilebilir.

Temel toplu işlem ETL kümesi boyutlandırma

İşlem için iyileştirilmiş çalışan türleri önerilir; Bunlar, beden olacak ve bu iş yükleri büyük olasılıkla önemli miktarda bellek veya depolama gerektirmeyecektir.

Havuzun kullanılması, küme başlatma sürelerini azaltarak ve iş işlem hatlarını çalıştırırken toplam çalışma zamanını azaltarak basit ETL işlerini destekleyen kümeler için bir avantaj sağlayabilir. Ancak, bu iş yükü türleri genellikle kümenin işi tamamlamaya yetecek kadar uzun süre çalıştığı zamanlanmış işler olarak çalıştığı için, bir havuzun kullanılması avantaj sunmayabilir.

Aşağıdaki özellikler muhtemelen yararlı değildir:

  • Verilerin yeniden okunması beklenmediğinden Delta önbelleği.
  • Bunlar büyük olasılıkla zamanlanmış işler olduğundan, bu durum muhtemelen otomatik olarak sonlandırılamıyor.
  • İşlem ve depolamanın kullanım durumu için önceden yapılandırılmış olması gerektiğinden otomatik ölçeklendirme önerilmez.
  • Yüksek eşzamanlılık kümeleri, çok kullanıcılı ve tek bir işi çalıştıran bir kümeye yararlanmayacak şekilde tasarlanmıştır.

Karmaşık Batch ETL

Birden çok tabloda birleşim ve birleştirme gerektiren işleme gibi daha karmaşık ETL işleri, büyük olasılıkla veri miktarını azaltmak için en iyi şekilde çalışır. Bir kümedeki çalışan sayısını azaltmak, karışık pencereleri en aza indirmenize yardımcı olacağından, küme D gibi daha büyük bir küme üzerinde aşağıdaki diyagramda küme A gibi küçük bir küme düşünün

Karmaşık ETL küme boyutlandırması

Karmaşık dönüşümler işlem açısından yoğun hale gelebilir. bu nedenle, en iyi sayıda çekirdeğe ulaşan bazı iş yükleri kümeye ek düğüm eklenmesini gerektirebilir.

Basit ETL işleri gibi, işlem için iyileştirilmiş çalışan türleri önerilir; Bunlar, beden olacak ve bu iş yükleri büyük olasılıkla önemli miktarda bellek veya depolama gerektirmeyecektir. Ayrıca, basit ETL işleri gibi, dikkat edilecek ana küme özelliği, küme başlatma sürelerini azaltmak ve iş işlem hatlarını çalıştırırken toplam çalışma zamanını azaltmak için havuzlarıdır.

Aşağıdaki özellikler muhtemelen yararlı değildir:

  • Verilerin yeniden okunması beklenmediğinden Delta önbelleği.
  • Bunlar büyük olasılıkla zamanlanmış işler olduğundan, bu durum muhtemelen otomatik olarak sonlandırılamıyor.
  • İşlem ve depolamanın kullanım durumu için önceden yapılandırılmış olması gerektiğinden otomatik ölçeklendirme önerilmez.
  • Yüksek eşzamanlılık kümeleri, çok kullanıcılı ve tek bir işi çalıştıran bir kümeye yararlanmayacak şekilde tasarlanmıştır.

Eğitim makine öğrenimi modelleri

Bir makine öğrenimi modelinin ilk yinelemeleri genellikle deneysel olduğundan, küme A gibi küçük bir küme iyi bir seçimdir. Daha küçük bir küme Ayrıca karışık etkileri azaltır.

Kararlılık sorun yaşalıyorsa veya daha gelişmiş aşamalar için, küme B veya C gibi daha büyük bir küme iyi bir seçim olabilir.

Düğümler arasında veri karıştırma yükü nedeniyle küme D gibi büyük bir küme önerilmez.

Machine Learning kümesi boyutlandırma

Önerilen çalışan türleri, aynı verilerin yinelenen okumalarının ve eğitim verilerinin önbelleğe alınmasına izin vermek üzere Delta önbelleğe alma etkinleştirilmiş olarak en iyi duruma getirilmiş depolama ' lardır. Depolama için iyileştirilmiş düğümler tarafından sunulan işlem ve depolama seçenekleri yeterli değilse, GPU iyileştirilmiş düğümleri göz önünde bulundurun. Bunun olası bir dezavantajı, bu düğümlerle Delta önbelleğe alma desteğinin olmamasıdır.

Analitik iş yükleri için önerilen ek özellikler şunlardır:

  • Kümelerin bir süre işlem yapılmadan sonra sonlandırılmasını sağlamak için otomatik sonlandırmasını etkinleştirin.
  • Analistin tipik iş yüküne göre otomatik ölçeklendirmeyi etkinleştirmeyi düşünün.
  • Kümelerin önceden onaylanan örnek türleri ile kısıtlanması ve tutarlı küme yapılandırmalarının sağlanması için havuzlar kullanın.

Büyük olasılıkla faydalı olan Özellikler:

  • Bir küme ölçeği azaltıyor gibi düğümler kaldırıldığında, önbelleğe alınmış veriler kaybolabileceği için otomatik ölçeklendirme. Ayrıca, tipik makine öğrenimi işleri genellikle tüm kullanılabilir düğümleri tüketir, bu durumda otomatik ölçeklendirme hiçbir avantaj sağlamaz.
  • Depolama otomatik ölçeklendirme, bu kullanıcı büyük olasılıkla çok fazla veri üretmeyecektir.
  • Bu küme tek bir kullanıcı için olduğundan ve yüksek eşzamanlılık kümeleri paylaşılan kullanım için en uygun şekilde olduğundan, yüksek eşzamanlılık kümeleri.

Yaygın senaryolar

Aşağıdaki bölümler, yaygın küme kullanımı desenleri için kümeleri yapılandırmaya yönelik ek öneriler sağlar:

  • Veri analizi ve geçici işleme çalıştıran birden çok kullanıcı.
  • Machine Learning gibi özelleştirilmiş kullanım durumları.
  • Zamanlanan toplu işleri destekler.

Çok kullanıcılı kümeler

Senaryo

Veri analizi ve geçici sorgular çalıştırmak için verilere birden çok kullanıcı erişimi sağlamanız gerekir. Küme kullanımı zaman içinde dalgalanma gösterebilir ve çoğu iş çok fazla kaynak kullanımı değildir. Kullanıcılar genellikle verilere salt okuma erişimi gerektirir ve çözümlemeler yapmak veya basit bir kullanıcı arabirimi aracılığıyla panolar oluşturmak ister.

Küme sağlama için önerilen yaklaşım, otomatik ölçeklendirme ile birlikte kümede düğüm sağlamaya yönelik karma bir yaklaşımdır. Karma yaklaşım, küme için isteğe bağlı örneklerin ve spot örneklerin sayısını tanımlamayı ve en düşük ve en fazla örnek sayısı arasında otomatik ölçeklendirmeyi etkinleştirmeyi içerir.

Çok kullanıcılı senaryo

Bu küme her zaman kullanılabilir ve varsayılan olarak bir gruba ait olan kullanıcılar tarafından paylaşılır. Otomatik ölçeklendirmeyi etkinleştirmek, kümenin yük üzerine bağlı olarak ölçeği artırma ve azaltma olanağı sağlar.

Kullanıcıların kümeyi başlatma/durdurma erişimi yok, ancak kullanıcı sorgularına yanıt vermek için ilk isteğe bağlı örnekler hemen kullanılabilir. Kullanıcı sorgusu daha fazla kapasite gerektiriyorsa, otomatik ölçeklendirme iş yükünü karşılamak için otomatik olarak daha fazla düğüm (çoğunlukla Spot örnekler) sağlar.

Azure Databricks kullanım durumlarını daha da geliştirmek için başka özelliklere de sahiptir:

Bu yaklaşım, genel maliyeti şu şekilde düşük tutar:

  • Paylaşılan küme modeli kullanma.
  • isteğe bağlı ve spot örneklerin bir karışımını kullanma.
  • Az kullanılabilir kümeler için ödeme yapmak zorunda olmak için otomatik ölçeklendirmeyi kullanma.

Özelleştirilmiş iş yükleri

Senaryo

Karmaşık veri keşfi ve makine öğrenmesi algoritmaları çalıştıran veri bilimcileri gibi, özel kullanım örnekleri veya ekipleri için kümeler sağlamanız gerekir. Tipik bir desen, kullanıcının analizini çalıştırmak için kısa bir süre için bir kümeye ihtiyacı olmasıdır.

Bu tür bir iş yükü için en iyi yaklaşım, varsayılan, sabit ve ayar aralıkları için önceden tanımlanmış yapılandırmalara sahip küme ilkeleri oluşturmaktır. Bu ayarlar örnek sayısını, örnek türlerini, spot ve isteğe bağlı örnekleri, yüklü olacak rolleri, kitaplıkları vb. içerebilir. Küme ilkelerinin kullanımı, daha gelişmiş gereksinimleri olan kullanıcıların kullanım örneğinde gerektiğinde yapılandıracakları kümeleri hızla oluşturmalarına ve ilkelerle maliyet ve uyumluluğu zorlamalarına olanak sağlar.

Özelleştirilmiş iş yükleri

Bu yaklaşım, kullanıcılara daha fazla denetim sağlarken, küme yapılandırmalarını önceden tanımlayarak maliyeti denetim altında tutma olanağını da korur. Bu, farklı veri kümelerine erişim izinleri olan farklı kullanıcı grupları için kümeleri yapılandırmanıza da olanak sağlar.

Bu yaklaşımın dezavantajlarından biri, kullanıcıların yapılandırma, yüklü kitaplıklar vb. kümelerde yapılan değişiklikler için yöneticilerle birlikte çalışmasıdır.

Batch iş yükleri

Senaryo

Veri hazırlamayı gerçekleştiren üretim ETL işleri gibi zamanlanmış toplu işler için kümeler sağlamanız gerekir. Önerilen en iyi yöntem, her iş çalıştırması için yeni bir küme başlatmaktır. Her işin yeni bir kümede çalıştırılması, paylaşılan kümede çalışan diğer iş yüklerinin neden olduğu hataların ve kaçırılacak SLA'ların önüne geçilmelerini sağlar. İş için kritiklik düzeyine bağlı olarak, SLA'ları karşılamak veya maliyet tasarrufu için spot ve isteğe bağlı örnekler arasındaki dengeyi elde etmek için tüm isteğe bağlı örnekleri kullanabilirsiniz.

Zamanlanmış toplu iş yükleri