Azure 'da büyük veri depolama teknolojisini seçme

Bu konu, büyük veri çözümleri için veri depolama seçeneklerini, analiz veri mağazalarından veya gerçek zamanlı akışalımı yerine toplu veri alımı ve toplu işleme için veri depolamayı karşılaştırır.

Azure 'da veri depolama seçerken seçenekleriniz nelerdir?

Gereksinimlerinize bağlı olarak Azure 'a veri almak için çeşitli seçenekler vardır.

Dosya depolama alanı:

NoSQL veritabanları:

Analitik veritabanları:

Azure Veri Gezgini

Azure Depolama blob 'ları

Azure Depolama, yüksek oranda kullanılabilir, güvenli, dayanıklı, ölçeklenebilir ve yedekli bir yönetilen depolama hizmetidir. Microsoft bakımı üstlenir ve kritik sorunları sizin yerinize çözer. azure Depolama, azure tarafından sağlanan hizmet ve araç sayısı nedeniyle azure 'un sağladığı en iyi depolama çözümüdür.

verileri depolamak için kullanabileceğiniz çeşitli Azure Depolama hizmetleri vardır. Blobların bir dizi veri kaynağından depolanması için en esnek seçenek BLOB depolarıdır. Blob 'lar temel olarak dosyalardır. Resimler, belgeler, HTML dosyaları, sanal sabit diskler (VHD), Günlükler gibi büyük veriler, veritabanı yedeklemeleri, oldukça fazla şey depolar. Bloblar klasörlere benzer kapsayıcılarda depolanır. Kapsayıcı bir blob kümesi gruplandırması sağlar. Depolama hesabında sınırsız sayıda kapsayıcı olabilir ve her kapsayıcı sınırsız sayıda blob depolayabilir.

Azure Depolama esneklik, yüksek kullanılabilirlik ve düşük maliyetli bir şekilde büyük veri ve analiz çözümleri için iyi bir seçimdir. Farklı kullanım durumları için sık erişimli, seyrek erişimli ve arşiv depolama katmanları sağlar. daha fazla bilgi için bkz. Azure Blob Depolama: sık erişimli, seyrek erişimli ve arşiv depolama katmanları.

Azure Blob depolamaya Hadoop 'tan erişilebilir (HDInsight üzerinden kullanılabilir). HDInsight, Azure Depolama’daki bir blob kapsayıcıyı kümenin varsayılan dosya sistemi olarak kullanabilir. IDB sürücüsü tarafından sağlanmış bir Hadoop Dağıtılmış dosya sistemi (ISE) arabirimi aracılığıyla, HDInsight 'taki tüm bileşen kümesi, blob olarak depolanan yapılandırılmış veya yapılandırılmamış veriler üzerinde doğrudan çalışabilir. Azure Blob depolama alanı, PolyBase özelliğini kullanarak Azure SYNAPSE Analytics aracılığıyla da erişilebilir.

Azure Depolama iyi bir seçim yapan diğer özellikler şunlardır:

Azure Data Lake Store

Azure Data Lake Store , büyük veri analizi iş yükleri için kurumsal çapta bir hiper ölçek deposudur. Data Lake, işletimsel ve araştırmacı analizler için tek bir güvenli konumda herhangi bir boyut, tür ve Alım hızında veri yakalamanızı sağlar.

Data Lake Store, Hesap boyutları, dosya boyutları veya bir veri Gölü içinde depolanabilecek veri miktarı için herhangi bir sınır uygulamaz. Veriler birden çok kopya yapılarak durarak depolanır ve verilerin Data Lake saklanabileceği süre boyunca hiçbir sınır yoktur. Veri Gölü, beklenmeyen hatalara karşı korumak için birden çok dosya kopyası yapmanın yanı sıra bir dosyanın parçalarını bir dizi ayrı depolama sunucusu üzerinden yayar. Bu, veri analizinin gerçekleştirilmesi için dosyanın paralel olarak okunması sırasında okuma verimini artırır.

Data Lake Store, Webileuyumlu REST API 'Leri kullanılarak Hadoop 'tan (HDInsight üzerinden kullanılabilir) erişilebilir. bireysel veya birleşik dosya boyutlarınız azure Depolama tarafından desteklenen bir değer aştığında bunu azure Depolama alternatifi olarak kullanmayı düşünebilirsiniz. ancak, Spark, Hive, MapReduceve fırtınasıiçin özel yönergeler ile bir hdınsight kümesi için birincil depolama alanı olarak Data Lake Store kullanırken izlemeniz gereken performans ayarlama yönergeleri vardır. ayrıca, Azure Depolama kadar çok sayıda bölgede kullanılamadığından ve hdınsight kümeniz ile aynı bölgede bulunması gerektiğinden Data Lake Store bölgesel kullanılabilirliğinidenetlediğinizden emin olun.

Azure Data Lake Analytics ile birlikte Data Lake Store, depolanan verilerde analizler sağlamak için özel olarak tasarlanmıştır ve veri analizi senaryolarında performans için ayarlanır. Data Lake Store, PolyBase özelliğini kullanarak Azure SYNAPSE üzerinden de erişilebilir.

Azure Cosmos DB

Azure Cosmos DB , Microsoft 'un genel olarak dağıtılmış çok modelli veritabanıdır. Cosmos DB dünyanın her yerindeki 99. yüzdede tek basamaklı milisaniyelik gecikme sürelerini garanti eder, performansa ince ayar yapmak için birden çok iyi tanımlanmış tutarlılık modeli sunar ve çok parçalı yetenekler sayesinde yüksek kullanılabilirlik sağlar.

Azure Cosmos DB şema belirsiz. Şema ve dizin yönetimiyle ilgilenmenize gerek kalmadan tüm verileri otomatik olarak dizine ekler. Ayrıca, belge, anahtar-değer, grafik ve sütun ailesi veri modellerini yerel olarak destekleyen çok modelli bir modeldir.

Azure Cosmos DB özellikleri:

HDInsight'ta HBase

Apache HBase , Hadoop üzerinde oluşturulmuş ve Google BigTable 'dan sonra Modellenen açık kaynaklı, NoSQL veritabanıdır. HBase, sütun ailelerine göre düzenlenmiş, büyük miktarlarda yapılandırılmamış ve yarı yapılandırılmış veriler için rastgele erişim ve güçlü tutarlılık sağlar.

Veriler bir tablonun satırlarında depolanır ve satır içindeki veriler sütun ailesi tarafından gruplandırılır. HBase, sütun ve içerdikleri verilerin türü kullanılmadan önce tanımlanmaları gereken anlamda şemaya daha küçüktür. Açık kaynak kodu, binlerce düğümdeki petabaytlarca verileri işlemek için doğrusal olarak ölçeklendirir. Veri yedekleme, toplu işleme ve Hadoop ekosistemindeki dağıtılmış uygulamalar tarafından sağlanan diğer özelliklere dayanabilir.

HDInsight uygulama , tabloların otomatik olarak parçalara ilmesi, okuma ve yazma işlemleri için güçlü tutarlılık ve otomatik yük devretme sağlamak Için HBase 'in genişleme mimarisinden yararlanır. Performans, okumalar için bellek içi önbelleğe alma ve yazmalar için yüksek verimlilikli akış tarafından geliştirilmiştir. Çoğu durumda, diğer HDInsight kümelerinin ve uygulamalarının tablolara doğrudan erişebilmesi için bir sanal ağ Içinde HBase kümesi oluşturmak isteyeceksiniz.

Azure Veri Gezgini

Azure Veri Gezgini , günlük ve telemetri verileri için hızlı ve yüksek oranda ölçeklenebilir bir veri araştırma hizmetidir. Verileri toplayabilmeniz, depolayabilmeniz ve çözümleyebilmeniz için modern yazılım tarafından yayılan çok sayıda veri akışını işlemenize yardımcı olur. Azure Veri Gezgini web siteleri, uygulamalar, IoT cihazları ve benzeri veri kaynaklarından gelen yüksek miktarlardaki çeşitli verileri analiz etmek için idealdir. Bu veriler tanılama, izleme, raporlama, makine öğrenmesi ve ek analiz özellikleri için kullanılır. Azure Veri Gezgini, bu verileri almak için basit hale getirir ve veriler üzerinde karmaşık geçici sorgular gerçekleştirmenizi sağlar.

Azure Veri Gezgini, artan Alım ve sorgu işleme verimlilik için doğrusal bir şekilde ölçeklendirilebilir . Bir Azure Veri Gezgini kümesi, özel ağları etkinleştirmek için bir sanal ağa dağıtılabilir .

Anahtar seçim ölçütleri

Seçimleri daraltmak için, bu soruları yanıtlayarak başlayın:

  • Herhangi bir metin veya ikili veri türü için yönetilen, yüksek hızlı, bulut tabanlı depolamaya ihtiyacınız var mı? Yanıt Evet ise, dosya depolama veya analiz seçeneklerinden birini belirleyin.

  • Paralel analiz iş yükleri ve yüksek aktarım hızı/ıOPS için iyileştirilmiş dosya depolamaya ihtiyacınız var mı? Yanıt Evet ise, analiz iş yükü performansına göre ayarlanmış bir seçenek belirleyin.

  • Yapılandırılmamış veya yarı yapılandırılmış verileri şemaya daha az bir veritabanında depolamanız gerekiyor mu? Bu durumda, ilişkisel olmayan veya analiz seçeneklerinden birini seçin. Dizin oluşturma ve veritabanı modelleriyle ilgili seçenekleri karşılaştırın. Depolamanız gereken verilerin türüne bağlı olarak, birincil veritabanı modelleri en büyük faktör olabilir.

  • Hizmeti bölgenizde kullanabilir misiniz? Her bir Azure hizmeti için bölgesel kullanılabilirliği denetleyin. Bölgeye göre kullanılabilen ürünlerigörüntüleyin.

Yetenek matrisi

Aşağıdaki tablolar, özelliklerde önemli farklılıkları özetler.

Dosya depolama özellikleri

Özellik Azure Data Lake Store Azure Blob Depolama kapsayıcıları
Amaç Büyük veri analizi iş yükleri için iyileştirilmiş depolama Çok çeşitli depolama senaryoları için genel amaçlı nesne deposu
Uygulama alanları Batch, akış analizi ve günlük dosyaları, IoT verileri, tıklama akışları, büyük veri kümeleri gibi makine öğrenmesi verileri Uygulama arka uç, yedekleme verileri, akış için medya depolama ve genel amaçlı veriler gibi herhangi bir metin veya ikili veri türü
Yapı Hiyerarşik dosya sistemi Düz ad alanı ile nesne deposu
Kimlik Doğrulaması Azure Active Directory Kimliklerine Göre Paylaşılan gizli dizilere göre Hesap Erişim Anahtarları ve Paylaşılan Erişim İmzası Anahtarlarıve Azure rol tabanlı erişim denetimi (Azure RBAC)
Kimlik doğrulama protokolü OAuth 2.0. Çağrılar tarafından verilen geçerli bir JWT (JSON web belirteci) Azure Active Directory Karma tabanlı ileti kimlik doğrulama kodu (HMAC). Çağrılar, HTTP isteğinin bir parçası üzerinde Base64 ile kodlanmış SHA-256 karması içermesi gerekir.
Yetkilendirme POSIX erişim denetim listeleri (ACL). Kimlikleri temel Azure Active Directory ACL'ler dosya ve klasör düzeyi olarak belirlenebilirsiniz. Hesap düzeyinde yetkilendirme için Hesap Erişim Anahtarları kullanın. Hesap, kapsayıcı veya blob yetkilendirmesi için Paylaşılan Erişim İmzası Anahtarları kullanın.
Denetim Kullanılabilir. Kullanılabilir
Bekleme sırasında şifreleme Saydam, sunucu tarafı Saydam, sunucu tarafı; İstemci tarafı şifreleme
Geliştirici SDK'ları .NET, Java, Python, Node.js .NET, Java, Python, Node.js, C++, Ruby
Analiz iş yükü performansı Paralel analiz iş yükleri, Yüksek Aktarım Hızı ve IOPS için iyileştirilmiş performans Analiz iş yükleri için en iyi duruma getirilmiş değil
Boyut sınırları Hesap boyutları, dosya boyutları veya dosya sayısı için sınır yoktur Burada belgelenmiş olan belirli sınırlar
Coğrafi yedeklilik Yerel olarak yedekli (LRS), genel olarak yedekli (GRS), okuma erişimli genel olarak yedekli (RA-GRS), bölgesel olarak yedekli (ZRS). Yerel olarak yedekli (LRS), genel olarak yedekli (GRS), okuma erişimli genel olarak yedekli (RA-GRS), bölgesel olarak yedekli (ZRS). Burada daha fazla bilgi bulabilirsiniz

NoSQL veritabanı özellikleri

Özellik Azure Cosmos DB HDInsight'ta HBase
Birincil veritabanı modeli Belge deposu, graf, anahtar-değer deposu, geniş sütun deposu Geniş sütun deposu
İkincil dizinler Yes Hayır
SQL dil desteği Yes Evet (Phoenix JDBC sürücüsünü kullanarak)
Tutarlılık Güçlü, sınırlayıcı eskima, oturum, tutarlı ön ek, nihai Güçlü
Yerel Azure İşlevleri tümleştirmesi Evet Hayır
Otomatik genel dağıtım Evet Son tutarlılıkla bölgeler arasında HBase küme çoğaltması yapılandırılemez
Fiyatlandırma modeli Gerektiğinde saniye başına ücretlendirilebilen esnek ölçeklenebilir istek birimleri (RU), esnek bir şekilde ölçeklenebilir depolama HDInsight kümesi için dakika başına fiyatlandırma (düğümlerin yatay ölçeklendirmesi), depolama

Analitik veritabanı özellikleri

Özellik Azure Veri Gezgini
Birincil veritabanı modeli İlişkisel (sütun deposu), telemetri ve zaman serisi deposu
SQL dil desteği Yes
Fiyatlandırma modeli Esnek olarak ölçeklenebilir küme örnekleri
Kimlik Doğrulaması Kimlikleri Azure Active Directory temel
Bekleme sırasında şifreleme Desteklenen, müşteri tarafından yönetilen anahtarlar
Analiz iş yükü performansı Paralel analiz iş yükleri için iyileştirilmiş performans
Boyut sınırları Doğrusal olarak ölçeklenebilir