İşlem yapılandırması en iyi yöntemleri

Bu makalede isteğe bağlı işlem yapılandırmalarını ayarlama önerileri açıklanmaktadır. Azure Databricks, yapılandırma kararlarını azaltmak için hem sunucusuz işlem hem de işlem ilkelerinden yararlanmanızı önerir.

  • Sunucusuz işlem, işlem ayarlarını yapılandırmayı gerektirmez. Sunucusuz işlem her zaman kullanılabilir ve iş yükünüz doğrultusunda ölçeklendirilir. Bkz. İşlem türleri.

  • İşlem ilkeleri, kişisel işlem, paylaşılan işlem, güçlü kullanıcılar ve işler gibi belirli kullanım örnekleri için tasarlanmış önceden yapılandırılmış işlem oluşturmanıza olanak tanır. İlkelere erişiminiz yoksa çalışma alanı yöneticinize başvurun. Bkz. Varsayılan ilkeler ve ilke aileleri.

Kendi yapılandırmalarınızla işlem oluşturmayı seçerseniz, aşağıdaki bölümlerde tipik kullanım örnekleri için öneriler sağlanır.

Not

Bu makalede, sınırsız küme oluşturma işlemine sahip olduğunuz varsayılır. Çalışma alanı yöneticileri bu ayrıcalığı yalnızca ileri düzey kullanıcılara vermelidir.

İşlem boyutlandırma konusunda dikkat edilmesi gerekenler

Kişiler genellikle işlem boyutunu çalışan sayısı açısından düşünün, ancak dikkate alınması gereken başka önemli faktörler de vardır:

  • Toplam yürütücü çekirdeği (işlem): Tüm yürütücüler genelindeki toplam çekirdek sayısı. Bu, bir işlem için en yüksek paralelliği belirler.
  • Toplam yürütücü belleği: Tüm yürütücüler arasındaki toplam RAM miktarı. Bu, diske dökmeden önce bellekte ne kadar veri depolanabileceğini belirler.
  • Yürütücü yerel depolama alanı: Yerel disk depolama türü ve miktarı. Yerel disk öncelikle karıştırma ve önbelleğe alma sırasında taşma durumunda kullanılır.

Dikkat edilmesi gereken ek noktalar, yukarıdaki faktörleri de etkileyen çalışan örneği türü ve boyutudur. İşleminizi boyutlandırırken şunları göz önünde bulundurun:

  • İş yükünüz ne kadar veri tüketir?
  • İş yükünüzün hesaplama karmaşıklığı nedir?
  • Verileri nereden okuyorsunuz?
  • Veriler dış depolamada nasıl bölümleniyor?
  • Ne kadar paralelliğe ihtiyacınız var?

Bu soruların yanıtlanması, iş yüklerine göre en uygun işlem yapılandırmalarını belirlemenize yardımcı olur.

Çalışan sayısı ile çalışan örneği türlerinin boyutu arasında bir dengeleme eylemi vardır. her biri 40 çekirdek ve 100 GB RAM'e sahip iki çalışanla işlem yapılandırma, 10 çekirdek ve 25 GB RAM ile işlem yapılandırmayla aynı işlem ve belleğe sahiptir.

İşlem boyutlandırma örnekleri

Aşağıdaki örneklerde belirli iş yükü türlerine göre işlem önerileri gösterilmektedir. Bu örnekler ayrıca kaçınılması gereken yapılandırmaları ve bu yapılandırmaların iş yükü türleri için neden uygun olmadığını da içerir.

Veri analizi

Veri analistleri genellikle birden çok bölümden veri gerektiren işlemler gerçekleştirir ve bu da birçok karıştırma işlemine yol açar. Daha az sayıda düğüm içeren işlem, bu karıştırmaları gerçekleştirmek için gereken ağı ve disk G/Ç'sini azaltabilir.

Yalnızca SQL yazıyorsanız, veri analizi için en iyi seçenek sunucusuz bir SQL ambarı olacaktır.

Not

Çalışma alanınız sunucusuz işlem genel önizlemesi için etkinleştirildiyse, Python veya SQL'de analiz çalıştırmak için sunucusuz işlem kullanabilirsiniz. Not defterleri için sunucusuz işlem bölümüne bakın.

Yeni bir işlem yapılandırmanız gerekiyorsa, büyük bir VM türüne sahip tek düğümlü işlem, özellikle de tek bir analist için en iyi seçenektir.

Analitik iş yükleri büyük olasılıkla aynı verilerin tekrar tekrar okunmasını gerektireceğinden, önerilen düğüm türleri disk önbelleği etkinleştirilmiş olarak iyileştirilmiş depolama alanıdır.

Analitik iş yükleri için önerilen ek özellikler şunlardır:

  • İşlemin etkinlik dışı bir süre sonra sonlandırılmasını sağlamak için otomatik sonlandırmayı etkinleştirin.
  • Analistin tipik iş yüküne göre otomatik ölçeklendirmeyi etkinleştirmeyi göz önünde bulundurun.
  • İşlemin önceden onaylanan örnek türleriyle kısıtlanmasını ve tutarlı işlem yapılandırmalarının sağlanmasını sağlayacak havuzları kullanmayı göz önünde bulundurun.

Temel toplu etl

Not

Çalışma alanınız iş akışları için sunucusuz işlem için etkinleştirildiyse (Genel Önizleme), işlerinizi çalıştırmak için sunucusuz işlem kullanabilirsiniz. Not defterleri için sunucusuz işlem bölümüne bakın.

Birleştirmeler veya toplamalar gibi geniş dönüştürmeler gerektirmeyen basit toplu ETL işleri genellikle işlem için iyileştirilmiş çalışan türlerinden yararlanıyor.

İşlem için iyileştirilmiş çalışanlar bellek ve depolama için daha düşük gereksinimlere sahiptir ve diğer çalışan türlerine göre maliyet tasarrufuna neden olabilir.

Karmaşık toplu etl

Not

Çalışma alanınız iş akışları için sunucusuz işlem için etkinleştirildiyse (Genel Önizleme), işlerinizi çalıştırmak için sunucusuz işlem kullanabilirsiniz. Not defterleri için sunucusuz işlem bölümüne bakın.

Birden çok tabloda birleşim ve birleştirme gerektiren bir iş gibi karmaşık bir ETL işi için Databricks, karıştırılmış veri miktarını azaltmak için çalışan sayısını azaltmanızı önerir.

Karmaşık dönüşümler yoğun işlem gücü kullanabilir. Diske veya OOM hatalarına önemli ölçüde taşma gözlemlerseniz, ek düğümler eklemeniz gerekir.

Databricks, işlem için iyileştirilmiş çalışan türleri önerir. İşlem için iyileştirilmiş çalışanlar bellek ve depolama için daha düşük gereksinimlere sahiptir ve diğer çalışan türlerine göre maliyet tasarrufuna neden olabilir. İsteğe bağlı olarak, iş işlem hatlarını çalıştırırken işlem başlatma sürelerini azaltmak ve toplam çalışma zamanını azaltmak için havuzları kullanın.

Makine öğrenmesi modellerini eğitin

Databricks, makine öğrenmesi modellerini eğitme ile ilk deneme için büyük düğüm türüne sahip tek düğümlü işlem önerir. Daha az düğüme sahip olmak karıştırmaların etkisini azaltır.

Daha fazla çalışan eklemek kararlılığınıza yardımcı olabilir, ancak verileri karıştırma ek yükü nedeniyle çok fazla çalışan eklemekten kaçınmalısınız.

Önerilen çalışan türleri, aynı verilerin tekrarlanan okumalarını hesaba eklemek ve eğitim verilerinin önbelleğe alınmasını etkinleştirmek için disk önbelleğe alma özelliği etkin olarak iyileştirilmiş depolama alanıdır. Depolama için iyileştirilmiş düğümler tarafından sağlanan işlem ve depolama seçenekleri yeterli değilse GPU için iyileştirilmiş düğümleri göz önünde bulundurun. Olası bir dezavantaj, bu düğümlerle disk önbelleğe alma desteğinin olmamasıdır.

Makine öğrenmesi iş yükleri için önerilen ek özellikler şunlardır:

  • İşlemin etkinlik dışı bir süre sonra sonlandırılmasını sağlamak için otomatik sonlandırmayı etkinleştirin.
  • İşlemin önceden onaylanan örnek türleriyle kısıtlanmasını ve tutarlı işlem yapılandırmalarının sağlanmasını sağlayacak havuzları kullanın.