Azure 'da büyük veri depolama teknolojisini seçme
Bu konu, büyük veri çözümleri için veri depolama seçeneklerini, analiz veri mağazalarından veya gerçek zamanlı akışalımı yerine toplu veri alımı ve toplu işleme için veri depolamayı karşılaştırır.
Azure 'da veri depolama seçerken seçenekleriniz nelerdir?
Gereksinimlerinize bağlı olarak Azure 'a veri almak için çeşitli seçenekler vardır.
Dosya depolama alanı:
NoSQL veritabanları:
Analitik veritabanları:
Azure Depolama blob 'ları
Azure Depolama, yüksek oranda kullanılabilir, güvenli, dayanıklı, ölçeklenebilir ve yedekli bir yönetilen depolama hizmetidir. Microsoft bakımı üstlenir ve kritik sorunları sizin yerinize çözer. azure Depolama, azure tarafından sağlanan hizmet ve araç sayısı nedeniyle azure 'un sağladığı en iyi depolama çözümüdür.
verileri depolamak için kullanabileceğiniz çeşitli Azure Depolama hizmetleri vardır. Blobların bir dizi veri kaynağından depolanması için en esnek seçenek BLOB depolarıdır. Blob 'lar temel olarak dosyalardır. Resimler, belgeler, HTML dosyaları, sanal sabit diskler (VHD), Günlükler gibi büyük veriler, veritabanı yedeklemeleri, oldukça fazla şey depolar. Bloblar klasörlere benzer kapsayıcılarda depolanır. Kapsayıcı bir blob kümesi gruplandırması sağlar. Depolama hesabında sınırsız sayıda kapsayıcı olabilir ve her kapsayıcı sınırsız sayıda blob depolayabilir.
Azure Depolama esneklik, yüksek kullanılabilirlik ve düşük maliyetli bir şekilde büyük veri ve analiz çözümleri için iyi bir seçimdir. Farklı kullanım durumları için sık erişimli, seyrek erişimli ve arşiv depolama katmanları sağlar. daha fazla bilgi için bkz. Azure Blob Depolama: sık erişimli, seyrek erişimli ve arşiv depolama katmanları.
Azure Blob depolamaya Hadoop 'tan erişilebilir (HDInsight üzerinden kullanılabilir). HDInsight, Azure Depolama’daki bir blob kapsayıcıyı kümenin varsayılan dosya sistemi olarak kullanabilir. IDB sürücüsü tarafından sağlanmış bir Hadoop Dağıtılmış dosya sistemi (ISE) arabirimi aracılığıyla, HDInsight 'taki tüm bileşen kümesi, blob olarak depolanan yapılandırılmış veya yapılandırılmamış veriler üzerinde doğrudan çalışabilir. Azure Blob depolama alanı, PolyBase özelliğini kullanarak Azure SYNAPSE Analytics aracılığıyla da erişilebilir.
Azure Depolama iyi bir seçim yapan diğer özellikler şunlardır:
- Çoklu eşzamanlılık stratejileri.
- Olağanüstü durum kurtarma ve yüksek kullanılabilirlik seçenekleri.
- Bekleyen şifreleme.
- Azure Active Directory kullanıcıları ve grupları kullanarak erişimi denetlemek için azure rol tabanlı erişim denetimi (azure RBAC) .
Azure Data Lake Store
Azure Data Lake Store , büyük veri analizi iş yükleri için kurumsal çapta bir hiper ölçek deposudur. Data Lake, işletimsel ve araştırmacı analizler için tek bir güvenli konumda herhangi bir boyut, tür ve Alım hızında veri yakalamanızı sağlar.
Data Lake Store, Hesap boyutları, dosya boyutları veya bir veri Gölü içinde depolanabilecek veri miktarı için herhangi bir sınır uygulamaz. Veriler birden çok kopya yapılarak durarak depolanır ve verilerin Data Lake saklanabileceği süre boyunca hiçbir sınır yoktur. Veri Gölü, beklenmeyen hatalara karşı korumak için birden çok dosya kopyası yapmanın yanı sıra bir dosyanın parçalarını bir dizi ayrı depolama sunucusu üzerinden yayar. Bu, veri analizinin gerçekleştirilmesi için dosyanın paralel olarak okunması sırasında okuma verimini artırır.
Data Lake Store, Webileuyumlu REST API 'Leri kullanılarak Hadoop 'tan (HDInsight üzerinden kullanılabilir) erişilebilir. bireysel veya birleşik dosya boyutlarınız azure Depolama tarafından desteklenen bir değer aştığında bunu azure Depolama alternatifi olarak kullanmayı düşünebilirsiniz. ancak, Spark, Hive, MapReduceve fırtınasıiçin özel yönergeler ile bir hdınsight kümesi için birincil depolama alanı olarak Data Lake Store kullanırken izlemeniz gereken performans ayarlama yönergeleri vardır. ayrıca, Azure Depolama kadar çok sayıda bölgede kullanılamadığından ve hdınsight kümeniz ile aynı bölgede bulunması gerektiğinden Data Lake Store bölgesel kullanılabilirliğinidenetlediğinizden emin olun.
Azure Data Lake Analytics ile birlikte Data Lake Store, depolanan verilerde analizler sağlamak için özel olarak tasarlanmıştır ve veri analizi senaryolarında performans için ayarlanır. Data Lake Store, PolyBase özelliğini kullanarak Azure SYNAPSE üzerinden de erişilebilir.
Azure Cosmos DB
Azure Cosmos DB , Microsoft 'un genel olarak dağıtılmış çok modelli veritabanıdır. Cosmos DB dünyanın her yerindeki 99. yüzdede tek basamaklı milisaniyelik gecikme sürelerini garanti eder, performansa ince ayar yapmak için birden çok iyi tanımlanmış tutarlılık modeli sunar ve çok parçalı yetenekler sayesinde yüksek kullanılabilirlik sağlar.
Azure Cosmos DB şema belirsiz. Şema ve dizin yönetimiyle ilgilenmenize gerek kalmadan tüm verileri otomatik olarak dizine ekler. Ayrıca, belge, anahtar-değer, grafik ve sütun ailesi veri modellerini yerel olarak destekleyen çok modelli bir modeldir.
Azure Cosmos DB özellikleri:
- Coğrafi çoğaltma
- Tüm dünyada aktarım hızını ve depolamayı esnek bir şekilde ölçeklendirme
- Beş iyi tanımlanmış tutarlılık düzeyi
HDInsight'ta HBase
Apache HBase , Hadoop üzerinde oluşturulmuş ve Google BigTable 'dan sonra Modellenen açık kaynaklı, NoSQL veritabanıdır. HBase, sütun ailelerine göre düzenlenmiş, büyük miktarlarda yapılandırılmamış ve yarı yapılandırılmış veriler için rastgele erişim ve güçlü tutarlılık sağlar.
Veriler bir tablonun satırlarında depolanır ve satır içindeki veriler sütun ailesi tarafından gruplandırılır. HBase, sütun ve içerdikleri verilerin türü kullanılmadan önce tanımlanmaları gereken anlamda şemaya daha küçüktür. Açık kaynak kodu, binlerce düğümdeki petabaytlarca verileri işlemek için doğrusal olarak ölçeklendirir. Veri yedekleme, toplu işleme ve Hadoop ekosistemindeki dağıtılmış uygulamalar tarafından sağlanan diğer özelliklere dayanabilir.
HDInsight uygulama , tabloların otomatik olarak parçalara ilmesi, okuma ve yazma işlemleri için güçlü tutarlılık ve otomatik yük devretme sağlamak Için HBase 'in genişleme mimarisinden yararlanır. Performans, okumalar için bellek içi önbelleğe alma ve yazmalar için yüksek verimlilikli akış tarafından geliştirilmiştir. Çoğu durumda, diğer HDInsight kümelerinin ve uygulamalarının tablolara doğrudan erişebilmesi için bir sanal ağ Içinde HBase kümesi oluşturmak isteyeceksiniz.
Azure Veri Gezgini
Azure Veri Gezgini , günlük ve telemetri verileri için hızlı ve yüksek oranda ölçeklenebilir bir veri araştırma hizmetidir. Verileri toplayabilmeniz, depolayabilmeniz ve çözümleyebilmeniz için modern yazılım tarafından yayılan çok sayıda veri akışını işlemenize yardımcı olur. Azure Veri Gezgini web siteleri, uygulamalar, IoT cihazları ve benzeri veri kaynaklarından gelen yüksek miktarlardaki çeşitli verileri analiz etmek için idealdir. Bu veriler tanılama, izleme, raporlama, makine öğrenmesi ve ek analiz özellikleri için kullanılır. Azure Veri Gezgini, bu verileri almak için basit hale getirir ve veriler üzerinde karmaşık geçici sorgular gerçekleştirmenizi sağlar.
Azure Veri Gezgini, artan Alım ve sorgu işleme verimlilik için doğrusal bir şekilde ölçeklendirilebilir . Bir Azure Veri Gezgini kümesi, özel ağları etkinleştirmek için bir sanal ağa dağıtılabilir .
Anahtar seçim ölçütleri
Seçimleri daraltmak için, bu soruları yanıtlayarak başlayın:
Herhangi bir metin veya ikili veri türü için yönetilen, yüksek hızlı, bulut tabanlı depolamaya ihtiyacınız var mı? Yanıt Evet ise, dosya depolama veya analiz seçeneklerinden birini belirleyin.
Paralel analiz iş yükleri ve yüksek aktarım hızı/ıOPS için iyileştirilmiş dosya depolamaya ihtiyacınız var mı? Yanıt Evet ise, analiz iş yükü performansına göre ayarlanmış bir seçenek belirleyin.
Yapılandırılmamış veya yarı yapılandırılmış verileri şemaya daha az bir veritabanında depolamanız gerekiyor mu? Bu durumda, ilişkisel olmayan veya analiz seçeneklerinden birini seçin. Dizin oluşturma ve veritabanı modelleriyle ilgili seçenekleri karşılaştırın. Depolamanız gereken verilerin türüne bağlı olarak, birincil veritabanı modelleri en büyük faktör olabilir.
Hizmeti bölgenizde kullanabilir misiniz? Her bir Azure hizmeti için bölgesel kullanılabilirliği denetleyin. Bölgeye göre kullanılabilen ürünlerigörüntüleyin.
Yetenek matrisi
Aşağıdaki tablolar, özelliklerde önemli farklılıkları özetler.
Dosya depolama özellikleri
| Özellik | Azure Data Lake Store | Azure Blob Depolama kapsayıcıları |
|---|---|---|
| Amaç | Büyük veri analizi iş yükleri için iyileştirilmiş depolama | Çok çeşitli depolama senaryoları için genel amaçlı nesne deposu |
| Uygulama alanları | Batch, akış analizi ve günlük dosyaları, IoT verileri, tıklama akışları, büyük veri kümeleri gibi makine öğrenmesi verileri | Uygulama arka uç, yedekleme verileri, akış için medya depolama ve genel amaçlı veriler gibi herhangi bir metin veya ikili veri türü |
| Yapı | Hiyerarşik dosya sistemi | Düz ad alanı ile nesne deposu |
| Kimlik Doğrulaması | Azure Active Directory Kimliklerine Göre | Paylaşılan gizli dizilere göre Hesap Erişim Anahtarları ve Paylaşılan Erişim İmzası Anahtarlarıve Azure rol tabanlı erişim denetimi (Azure RBAC) |
| Kimlik doğrulama protokolü | OAuth 2.0. Çağrılar tarafından verilen geçerli bir JWT (JSON web belirteci) Azure Active Directory | Karma tabanlı ileti kimlik doğrulama kodu (HMAC). Çağrılar, HTTP isteğinin bir parçası üzerinde Base64 ile kodlanmış SHA-256 karması içermesi gerekir. |
| Yetkilendirme | POSIX erişim denetim listeleri (ACL). Kimlikleri temel Azure Active Directory ACL'ler dosya ve klasör düzeyi olarak belirlenebilirsiniz. | Hesap düzeyinde yetkilendirme için Hesap Erişim Anahtarları kullanın. Hesap, kapsayıcı veya blob yetkilendirmesi için Paylaşılan Erişim İmzası Anahtarları kullanın. |
| Denetim | Kullanılabilir. | Kullanılabilir |
| Bekleme sırasında şifreleme | Saydam, sunucu tarafı | Saydam, sunucu tarafı; İstemci tarafı şifreleme |
| Geliştirici SDK'ları | .NET, Java, Python, Node.js | .NET, Java, Python, Node.js, C++, Ruby |
| Analiz iş yükü performansı | Paralel analiz iş yükleri, Yüksek Aktarım Hızı ve IOPS için iyileştirilmiş performans | Analiz iş yükleri için en iyi duruma getirilmiş değil |
| Boyut sınırları | Hesap boyutları, dosya boyutları veya dosya sayısı için sınır yoktur | Burada belgelenmiş olan belirli sınırlar |
| Coğrafi yedeklilik | Yerel olarak yedekli (LRS), genel olarak yedekli (GRS), okuma erişimli genel olarak yedekli (RA-GRS), bölgesel olarak yedekli (ZRS). | Yerel olarak yedekli (LRS), genel olarak yedekli (GRS), okuma erişimli genel olarak yedekli (RA-GRS), bölgesel olarak yedekli (ZRS). Burada daha fazla bilgi bulabilirsiniz |
NoSQL veritabanı özellikleri
| Özellik | Azure Cosmos DB | HDInsight'ta HBase |
|---|---|---|
| Birincil veritabanı modeli | Belge deposu, graf, anahtar-değer deposu, geniş sütun deposu | Geniş sütun deposu |
| İkincil dizinler | Yes | Hayır |
| SQL dil desteği | Yes | Evet (Phoenix JDBC sürücüsünü kullanarak) |
| Tutarlılık | Güçlü, sınırlayıcı eskima, oturum, tutarlı ön ek, nihai | Güçlü |
| Yerel Azure İşlevleri tümleştirmesi | Evet | Hayır |
| Otomatik genel dağıtım | Evet | Son tutarlılıkla bölgeler arasında HBase küme çoğaltması yapılandırılemez |
| Fiyatlandırma modeli | Gerektiğinde saniye başına ücretlendirilebilen esnek ölçeklenebilir istek birimleri (RU), esnek bir şekilde ölçeklenebilir depolama | HDInsight kümesi için dakika başına fiyatlandırma (düğümlerin yatay ölçeklendirmesi), depolama |
Analitik veritabanı özellikleri
| Özellik | Azure Veri Gezgini | |
|---|---|---|
| Birincil veritabanı modeli | İlişkisel (sütun deposu), telemetri ve zaman serisi deposu | |
| SQL dil desteği | Yes | |
| Fiyatlandırma modeli | Esnek olarak ölçeklenebilir küme örnekleri | |
| Kimlik Doğrulaması | Kimlikleri Azure Active Directory temel | |
| Bekleme sırasında şifreleme | Desteklenen, müşteri tarafından yönetilen anahtarlar | |
| Analiz iş yükü performansı | Paralel analiz iş yükleri için iyileştirilmiş performans | |
| Boyut sınırları | Doğrusal olarak ölçeklenebilir |