Azure'da toplu işlem teknolojisi seçme

Büyük veri çözümleri genellikle verileri filtrelemek, toplamak ve başka bir şekilde analize hazırlamak için uzun süre çalışan toplu işler kullanır. Bu işler genellikle ölçeklenebilir depolamadan (HDFS, Azure Data Lake Store ve Azure Depolama gibi) kaynak dosyaları okumayı, bunları işlemeyi ve çıkışı ölçeklenebilir depolamada yeni dosyalara yazmayı içerir.

Bu tür toplu işlem altyapılarının temel gereksinimi, büyük hacimli verileri işlemek için hesaplamaların ölçeğini dışarı ölçeklendirme özelliğidir. Ancak gerçek zamanlı işlemenin aksine, toplu işlemde dakikalar ile saatler arasında ölçülen gecikme süreleri (veri alımı ile sonuç hesaplama arasındaki süre) olması beklenir.

Toplu işleme için teknoloji seçimleri

Azure Synapse Analytics

Azure Synapse, büyük verilerde analiz gerçekleştirmek için tasarlanmış bir dağıtılmış sistemdir. Yüksek performanslı analiz çalıştırmaya uygun olan çok büyük paralel işlemeyi (MPP) destekler. Büyük Azure Synapse (1 TB'den fazla) ve paralellikten yararlanacak bir analiz iş yükü çalıştırıyorsanız bu verileri göz önünde bulundurabilirsiniz.

Azure Data Lake Analytics

Data Lake Analytics isteğe bağlı bir analiz işi hizmetidir. Azure'da depolanan çok büyük veri kümelerinin dağıtılmış işlemesi için Data Lake Store.

  • Diller: U-SQL (Python, R ve C# uzantıları dahil).
  • Azure Data Lake Store, Azure Depolama blobları, Azure SQL Veritabanı ve Azure Synapse.
  • Fiyatlandırma modeli iş başına bir modeldir.

HDInsight

HDInsight yönetilen bir Hadoop hizmetidir. Azure'da Hadoop kümelerini dağıtma ve yönetmeyi kullanın. Toplu işlem için Spark, Hive,HiveLLAP,MapReduce.

  • Diller: R, Python, Java, Scala, SQL
  • Active Directory, Apache Ranger tabanlı erişim denetimi ile Kerberos kimlik doğrulaması
  • Hadoop kümesi üzerinde tam denetim sağlar

Azure Databricks

Azure Databricks, Apache Spark tabanlı bir analiz platformudur. Bunu "Hizmet olarak Spark" olarak düşünabilirsiniz. Bu, Azure platformunda Spark kullanmanın en kolay yoludur.

  • Diller: R, Python, Java, Scala, Spark SQL
  • Hızlı küme başlangıç süreleri, otomatik ölçeklendirme, otomatik ölçeklendirme.
  • Spark kümesi sizin için yönetir.
  • Azure Blob Depolama, Azure Data Lake Depolama (ADLS), Depolama ve diğer Azure Synapse yerleşik tümleştirme. Bkz. Veri Kaynakları.
  • Kullanıcı kimlik doğrulaması ile Azure Active Directory.
  • İşbirliği ve veri keşfi için web tabanlı not defterleri.
  • GPU özellikli kümeleri destekler

Azure Dağıtılmış Veri Mühendisliği Araç Seti

Dağıtılmış Veri Mühendisliği Araç Seti (AZTK), Azure'da Docker kümeleri üzerinde isteğe bağlı Spark sağlama aracıdır.

AZTK bir Azure hizmeti değildir. Bunun yerine, cli ve Python SDK arabirimine sahip istemci tarafı bir araçtır ve bu araç Azure Batch. Bu seçenek, Spark kümesi dağıtırken altyapı üzerinde en fazla denetimi sağlar.

  • Kendi Docker görüntülerinizi getirin.
  • %80 indirim için düşük öncelikli VM'leri kullanın.
  • Hem düşük öncelikli hem de ayrılmış VM'leri kullanan karma mod kümeleri.
  • Azure Blob Depolama ve Azure Data Lake Depolama için yerleşik destek.

Anahtar seçim ölçütleri

Seçenekleri daraltmak için şu soruları yanıtlayarak başlayabilirsiniz:

  • Kendi sunucularınızı yönetmek yerine yönetilen bir hizmet mi istiyorsunuz?

  • Toplu işleme mantığını bildirimli olarak mı yoksa bire bir mi yazmanız gerekiyor?

  • Toplu işlemeyi seri seri olarak gerçekleştirecek misiniz? Evet ise, kümeyi otomatik olarak sonlandırmanız veya fiyatlandırma modeli toplu iş başına olan seçenekleri göz önünde bulundurabilirsiniz.

  • Başvuru verilerini arama gibi toplu işlemle birlikte ilişkisel veri depolarını sorgulamanız gerekiyor mu? Evet ise, dış ilişkisel depoların sorgusunu etkinleştiren seçenekleri göz önünde bulundurabilirsiniz.

Yetenek matrisi

Aşağıdaki tablolarda, özellikler arasındaki temel farklar özetlenmiştir.

Genel özellikler

Özellik Azure Data Lake Analytics Azure Synapse HDInsight Azure Databricks
Yönetilen hizmet Yes Yes Evet 1 Evet
İlişkisel veri deposu Yes Yes Hayır Hayır
Fiyatlandırma modeli Toplu iş başına Küme saatine göre Küme saatine göre Databricks2. Ünite + küme saati

[1] El ile yapılandırma ile.

[2] Databricks Birimi (DBU), saat başına işleme özelliği birimidir.

Özellikler

Özellik Azure Data Lake Analytics Azure Synapse Spark ile HDInsight Hive ile HDInsight Hive LLAP ile HDInsight Azure Databricks
Otomatik ölçeklendirme Hayır Hayır Yes Yes Yes Yes
Ölçeğin dışarı ölçeklendirilme ayrıntısı İş başına Küme başına Küme başına Küme başına Küme başına Küme başına
Verilerin bellek içinde önbelleğe alınmasını Hayır Yes Yes Hayır Yes Yes
Dış ilişkisel depolardan sorgu Yes Hayır Yes Hayır Hayır Yes
Kimlik Doğrulaması Azure AD SQL / Azure AD No Azure AD1 Azure AD1 Azure AD
Denetim Yes Yes Hayır Evet 1 Evet 1 Evet
Satır düzeyinde güvenlik No Evet2 Hayır Evet 1 Evet 1 No
Güvenlik duvarlarını destekler Yes Yes Yes Evet 3 Evet 3 Hayır
Dinamik veri maskeleme Hayır Yes Hayır Evet 1 Evet 1 No

[1] Etki alanına katılmış HDInsight kümesi kullanmayı gerektirir.

[2] Yalnızca filtre önkasyonları. Bkz. Satır Düzeyi Güvenlik

[3] Bir Azure Sanal Ağı içinde kullanılırken destek alır.

Sonraki adımlar