Azure'da toplu işlem teknolojisi seçme
Büyük veri çözümleri genellikle verileri filtrelemek, toplamak ve başka bir şekilde analize hazırlamak için uzun süre çalışan toplu işler kullanır. Bu işler genellikle ölçeklenebilir depolamadan (HDFS, Azure Data Lake Store ve Azure Depolama gibi) kaynak dosyaları okumayı, bunları işlemeyi ve çıkışı ölçeklenebilir depolamada yeni dosyalara yazmayı içerir.
Bu tür toplu işlem altyapılarının temel gereksinimi, büyük hacimli verileri işlemek için hesaplamaların ölçeğini dışarı ölçeklendirme özelliğidir. Ancak gerçek zamanlı işlemenin aksine, toplu işlemde dakikalar ile saatler arasında ölçülen gecikme süreleri (veri alımı ile sonuç hesaplama arasındaki süre) olması beklenir.
Toplu işleme için teknoloji seçimleri
Azure Synapse Analytics
Azure Synapse, büyük verilerde analiz gerçekleştirmek için tasarlanmış bir dağıtılmış sistemdir. Yüksek performanslı analiz çalıştırmaya uygun olan çok büyük paralel işlemeyi (MPP) destekler. Büyük Azure Synapse (1 TB'den fazla) ve paralellikten yararlanacak bir analiz iş yükü çalıştırıyorsanız bu verileri göz önünde bulundurabilirsiniz.
Azure Data Lake Analytics
Data Lake Analytics isteğe bağlı bir analiz işi hizmetidir. Azure'da depolanan çok büyük veri kümelerinin dağıtılmış işlemesi için Data Lake Store.
- Diller: U-SQL (Python, R ve C# uzantıları dahil).
- Azure Data Lake Store, Azure Depolama blobları, Azure SQL Veritabanı ve Azure Synapse.
- Fiyatlandırma modeli iş başına bir modeldir.
HDInsight
HDInsight yönetilen bir Hadoop hizmetidir. Azure'da Hadoop kümelerini dağıtma ve yönetmeyi kullanın. Toplu işlem için Spark, Hive,HiveLLAP,MapReduce.
- Diller: R, Python, Java, Scala, SQL
- Active Directory, Apache Ranger tabanlı erişim denetimi ile Kerberos kimlik doğrulaması
- Hadoop kümesi üzerinde tam denetim sağlar
Azure Databricks
Azure Databricks, Apache Spark tabanlı bir analiz platformudur. Bunu "Hizmet olarak Spark" olarak düşünabilirsiniz. Bu, Azure platformunda Spark kullanmanın en kolay yoludur.
- Diller: R, Python, Java, Scala, Spark SQL
- Hızlı küme başlangıç süreleri, otomatik ölçeklendirme, otomatik ölçeklendirme.
- Spark kümesi sizin için yönetir.
- Azure Blob Depolama, Azure Data Lake Depolama (ADLS), Depolama ve diğer Azure Synapse yerleşik tümleştirme. Bkz. Veri Kaynakları.
- Kullanıcı kimlik doğrulaması ile Azure Active Directory.
- İşbirliği ve veri keşfi için web tabanlı not defterleri.
- GPU özellikli kümeleri destekler
Azure Dağıtılmış Veri Mühendisliği Araç Seti
Dağıtılmış Veri Mühendisliği Araç Seti (AZTK), Azure'da Docker kümeleri üzerinde isteğe bağlı Spark sağlama aracıdır.
AZTK bir Azure hizmeti değildir. Bunun yerine, cli ve Python SDK arabirimine sahip istemci tarafı bir araçtır ve bu araç Azure Batch. Bu seçenek, Spark kümesi dağıtırken altyapı üzerinde en fazla denetimi sağlar.
- Kendi Docker görüntülerinizi getirin.
- %80 indirim için düşük öncelikli VM'leri kullanın.
- Hem düşük öncelikli hem de ayrılmış VM'leri kullanan karma mod kümeleri.
- Azure Blob Depolama ve Azure Data Lake Depolama için yerleşik destek.
Anahtar seçim ölçütleri
Seçenekleri daraltmak için şu soruları yanıtlayarak başlayabilirsiniz:
Kendi sunucularınızı yönetmek yerine yönetilen bir hizmet mi istiyorsunuz?
Toplu işleme mantığını bildirimli olarak mı yoksa bire bir mi yazmanız gerekiyor?
Toplu işlemeyi seri seri olarak gerçekleştirecek misiniz? Evet ise, kümeyi otomatik olarak sonlandırmanız veya fiyatlandırma modeli toplu iş başına olan seçenekleri göz önünde bulundurabilirsiniz.
Başvuru verilerini arama gibi toplu işlemle birlikte ilişkisel veri depolarını sorgulamanız gerekiyor mu? Evet ise, dış ilişkisel depoların sorgusunu etkinleştiren seçenekleri göz önünde bulundurabilirsiniz.
Yetenek matrisi
Aşağıdaki tablolarda, özellikler arasındaki temel farklar özetlenmiştir.
Genel özellikler
| Özellik | Azure Data Lake Analytics | Azure Synapse | HDInsight | Azure Databricks |
|---|---|---|---|---|
| Yönetilen hizmet | Yes | Yes | Evet 1 | Evet |
| İlişkisel veri deposu | Yes | Yes | Hayır | Hayır |
| Fiyatlandırma modeli | Toplu iş başına | Küme saatine göre | Küme saatine göre | Databricks2. Ünite + küme saati |
[1] El ile yapılandırma ile.
[2] Databricks Birimi (DBU), saat başına işleme özelliği birimidir.
Özellikler
| Özellik | Azure Data Lake Analytics | Azure Synapse | Spark ile HDInsight | Hive ile HDInsight | Hive LLAP ile HDInsight | Azure Databricks |
|---|---|---|---|---|---|---|
| Otomatik ölçeklendirme | Hayır | Hayır | Yes | Yes | Yes | Yes |
| Ölçeğin dışarı ölçeklendirilme ayrıntısı | İş başına | Küme başına | Küme başına | Küme başına | Küme başına | Küme başına |
| Verilerin bellek içinde önbelleğe alınmasını | Hayır | Yes | Yes | Hayır | Yes | Yes |
| Dış ilişkisel depolardan sorgu | Yes | Hayır | Yes | Hayır | Hayır | Yes |
| Kimlik Doğrulaması | Azure AD | SQL / Azure AD | No | Azure AD1 | Azure AD1 | Azure AD |
| Denetim | Yes | Yes | Hayır | Evet 1 | Evet 1 | Evet |
| Satır düzeyinde güvenlik | No | Evet2 | Hayır | Evet 1 | Evet 1 | No |
| Güvenlik duvarlarını destekler | Yes | Yes | Yes | Evet 3 | Evet 3 | Hayır |
| Dinamik veri maskeleme | Hayır | Yes | Hayır | Evet 1 | Evet 1 | No |
[1] Etki alanına katılmış HDInsight kümesi kullanmayı gerektirir.
[2] Yalnızca filtre önkasyonları. Bkz. Satır Düzeyi Güvenlik
[3] Bir Azure Sanal Ağı içinde kullanılırken destek alır.