Azure'da analitik veri deposu seçme
Büyük veri mimarisinde, işlenen verileri analiz araçları kullanılarak sorgulanabilen yapılandırılmış bir biçimde sunan analitik veri deposuna ihtiyaç duyulabilir. Hem sık erişimli hem de soğuk yol verilerini sorgulamayı destekleyen analitik veri depoları topluca sunum katmanı veya depolamaya hizmet veren veri olarak adlandırılır.
Sunum katmanı hem sık erişimli yoldan hem de soğuk yoldan işlenen verilerle ilgilenir. Lambda mimarisinde, sunum katmanı, artımlı olarak işlenen verileri depolayan bir hız sunma katmanına ve toplu olarak işlenen çıkışı içeren bir toplu hizmet katmanına ayrılır. Sunum katmanı, düşük gecikme süresine sahip rastgele okumalar için güçlü destek gerektirir. Verinin bu depoya toplu olarak yüklenmesi istenmeyen gecikmelere neden olacağından, hız katmanı için veri depolama rastgele yazma işlemlerini de desteklemelidir. Öte yandan, toplu iş katmanı için veri depolamanın rastgele yazmaları desteklemesi gerekmez, bunun yerine toplu yazma işlemleri desteklenir.
Tüm veri depolama görevleri için tek bir en iyi veri yönetimi seçeneği yoktur. Farklı veri yönetimi çözümleri farklı görevler için iyileştirilmiştir. Çoğu gerçek dünya bulut uygulaması ve büyük veri işlemi çeşitli veri depolama gereksinimlerine sahiptir ve genellikle veri depolama çözümlerinin bir birleşimini kullanır.
Analitik veri deposu seçerken seçenekleriniz nelerdir?
Gereksinimlerinize bağlı olarak Azure'da depolama sunan veriler için çeşitli seçenekler vardır:
- Azure Synapse Analytics
- Azure Synapse Spark havuzları
- Azure Databricks
- Azure Veri Gezgini
- Azure SQL Veritabanı
- Azure VM'de SQL Server
- HDInsight üzerinde HBase/Phoenix
- HDInsight üzerinde Hive LLAP
- Azure Analysis Services
- Azure Cosmos DB
Bu seçenekler, farklı görev türleri için iyileştirilmiş çeşitli veritabanı modelleri sağlar:
- Anahtar/değer veritabanları, her anahtar değeri için tek bir serileştirilmiş nesne tutar. Bunlar, belirli bir anahtar değeri için bir öğe almak istediğiniz ve öğenin diğer özelliklerine göre sorgulamanız gerekmeyen büyük hacimli verileri depolamak için iyidir.
- Belge veritabanları, değerlerin belge olduğu anahtar/değer veritabanlarıdır. Bu bağlamdaki "belge", adlandırılmış alanlar ve değerler koleksiyonudur. Veritabanı genellikle verileri XML, YAML, JSON veya BSON gibi bir biçimde depolar, ancak düz metin kullanabilir. Belge veritabanları anahtar olmayan alanları sorgulayabilir ve sorguyu daha verimli hale getirmek için ikincil dizinler tanımlayabilir. Bu, belge veritabanını ölçütlere göre veri alması gereken uygulamalar için belge anahtarının değerinden daha karmaşık hale getirir. Örneğin, ürün kimliği, müşteri kimliği veya müşteri adı gibi alanları sorgulayabilirsiniz.
- Sütun deposu veritabanları, her sütunu diskte ayrı olarak depolayan anahtar/değer veri depolarıdır. Geniş sütun deposu veritabanı, yalnızca tek sütunları değil sütun ailelerini depolayan bir sütun deposu veritabanı türüdür. Örneğin, bir nüfus sayımı veritabanında bir kişinin adı için bir sütun ailesi (ilk, orta, son), kişinin adresi için bir aile ve kişinin profil bilgileri için bir aile (doğum tarihi, cinsiyet) olabilir. Veritabanı her sütun ailesini ayrı bir bölümde depolayabilir ve aynı anahtarla ilgili bir kişinin tüm verilerini tutabilir. Bir uygulama, bir varlığın tüm verilerini okumadan tek sütunlu bir aileyi okuyabilir.
- Graph veritabanları, bilgileri bir nesne ve ilişki koleksiyonu olarak depolar. Graf veritabanı, nesnelerin ağından ve aralarındaki ilişkilerden geçen sorguları verimli bir şekilde gerçekleştirebilir. Örneğin, nesneler bir insan kaynakları veritabanında çalışanlar olabilir ve "Doğrudan veya dolaylı olarak Scott için çalışan tüm çalışanları bulma" gibi sorguları kolaylaştırmak isteyebilirsiniz.
- Telemetri ve zaman serisi veritabanları, yalnızca ekli bir nesne koleksiyonutur. Telemetri veritabanları, çeşitli sütun depolarındaki ve bellek içi yapılardaki verileri verimli bir şekilde dizinleyerek çok miktarda telemetri ve zaman serisi verilerini depolamak ve analiz etmek için en uygun seçenektir.
Anahtar seçim ölçütleri
Seçenekleri daraltmak için şu soruları yanıtlayarak başlayın:
Verileriniz için sık erişimli bir yol olarak hizmet verebilen bir depolama alanı sunmanız gerekiyor mu? Evet ise, seçeneklerinizi hız sunum katmanı için en iyi duruma getirilmiş seçeneklerle daraltma.
Sorguların çeşitli işlemler veya düğümler arasında otomatik olarak dağıtıldığı yüksek düzeyde paralel işleme (MPP) desteğine mi ihtiyacınız var? Evet ise, sorgu ölçeği genişletmeyi destekleyen bir seçenek belirleyin.
İlişkisel veri deposu kullanmayı tercih ediyor musunuz? Bu durumda, seçeneklerinizi ilişkisel veritabanı modeline sahip seçeneklere daraltabilirsiniz. Ancak bazı ilişkisel olmayan depoların sorgulama için SQL söz dizimlerini desteklediğini ve PolyBase gibi araçların ilişkisel olmayan veri depolarını sorgulamak için kullanılabileceğini unutmayın.
Zaman serisi verilerini topluyor musunuz? Yalnızca ekleme verilerini kullanıyor musunuz?
Yetenek matrisi
Aşağıdaki tablolarda, özelliklerdeki temel farklar özetlemektedir.
Genel özellikler
Yetenek | SQL Veritabanı | Azure Synapse SQL havuzu | Azure Synapse Spark havuzu | Azure Veri Gezgini | HDInsight üzerinde HBase/Phoenix | HDInsight üzerinde Hive LLAP | Azure Analysis Services | Azure Cosmos DB |
---|---|---|---|---|---|---|---|---|
Yönetilen hizmettir | Evet | Evet | Evet | Evet | Evet 1 | Evet 1 | Evet | Evet |
Birincil veritabanı modeli | İlişkisel (columnstore dizinleri kullanılırken sütun deposu biçimi) | Sütun depolaması olan ilişkisel tablolar | Geniş sütun deposu | İlişkisel (sütun deposu), telemetri ve zaman serisi deposu | Geniş sütun deposu | Hive/Bellek İçi | Tablosal anlam modelleri | Belge deposu, grafik, anahtar-değer deposu, geniş sütun deposu |
SQL dil desteği | Evet | Evet | Evet | Evet | Evet (Phoenix JDBC sürücüsünü kullanarak) | Evet | Hayır | Evet |
Hız sunma katmanı için iyileştirilmiş | Evet 2 | Evet 3 | Evet | Evet | Evet | Evet | Hayır | Evet |
[1] El ile yapılandırma ve ölçeklendirme ile.
[2] Bellek için iyileştirilmiş tabloları ve karma veya kümelenmemiş dizinleri kullanma.
[3] Azure Stream Analytics çıkışı olarak desteklenir.
Ölçeklenebilirlik özellikleri
Yetenek | SQL Veritabanı | Azure Synapse SQL havuzu | Azure Synapse Spark havuzu | Azure Veri Gezgini | HDInsight üzerinde HBase/Phoenix | HDInsight üzerinde Hive LLAP | Azure Analysis Services | Azure Cosmos DB |
---|---|---|---|---|---|---|---|---|
Yüksek kullanılabilirlik için yedekli bölgesel sunucular | Evet | Hayı | Hayı | Evet | Evet | Hayır | Evet | Evet |
Sorgu ölçeği genişletmeyi destekler | No. | Evet | Evet | Evet | Evet | Evet | Evet | Evet |
Dinamik ölçeklenebilirlik (ölçeği artırma) | Evet | Evet | Evet | Evet | Hayı | Hayı | Evet | Evet |
Verilerin bellek içi önbelleğe alınmasını destekler | Evet | Evet | Evet | Evet | Hayır | Evet | Evet | Hayır |
Güvenlik özellikleri
Yetenek | SQL Veritabanı | Azure Synapse | Azure Veri Gezgini | HDInsight üzerinde HBase/Phoenix | HDInsight üzerinde Hive LLAP | Azure Analysis Services | Azure Cosmos DB |
---|---|---|---|---|---|---|---|
Kimlik Doğrulaması | SQL / Microsoft Entra ID | SQL / Microsoft Entra ID | Microsoft Entra ID | local / Microsoft Entra Id 1 | local / Microsoft Entra Id 1 | Microsoft Entra ID | veritabanı kullanıcıları / Erişim denetimi (IAM) aracılığıyla Microsoft Entra Id |
Bekleme sırasında veri şifrelemesi | Evet 2 | Evet 2 | Evet | Evet 1 | Evet 1 | Evet | Evet |
Satır düzeyi güvenlik | Evet | Evet 3 | Evet | Evet 1 | Evet 1 | Evet | Hayır |
Güvenlik duvarlarını destekler | Evet | Evet | Evet | Evet 4 | Evet 4 | Evet | Evet |
Dinamik veri maskeleme | Evet | Evet | Evet | Evet 1 | Evet | Hayı | Hayır |
[1] Etki alanına katılmış bir HDInsight kümesi kullanılmasını gerektirir.
[2] Bekleyen verilerinizi şifrelemek ve şifresini çözmek için saydam veri şifrelemesi (TDE) kullanılmasını gerektirir.
[3] Yalnızca filtre koşulu. Bkz. Satır Düzeyi Güvenlik
[4] Azure Sanal Ağ içinde kullanıldığında. Bkz. Azure Sanal Ağ kullanarak Azure HDInsight'ı genişletme.
Katkıda Bulunanlar
Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.
Asıl yazar:
- Zoiner Tejada | CEO ve Mimar
Sonraki adımlar
- İlişkisel veri ambarında verileri analiz etme
- Tek veritabanı oluşturma - Azure SQL Veritabanı
- Azure Databricks çalışma alanı oluşturma
- Azure portalını kullanarak Azure HDInsight'ta Apache Spark kümesi oluşturma
- Synapse çalışma alanı oluşturma
- Modern analiz için Azure veri hizmetlerini keşfetme
- Azure veritabanı ve analiz hizmetlerini keşfetme
- NoSQL için API'yi kullanarak Azure Cosmos DB'yi sorgulama
İlgili kaynaklar
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin