Share via


Bulut ölçeğinde analiz için Azure Data Lake Depolama genel bakış

Azure Data Lake, yüksek performanslı analiz iş yükleri için yüksek düzeyde ölçeklenebilir ve güvenli bir veri depolama alanıdır. Bulut ölçeğinde analiz için tek bir kaynak grubu içinde depolama hesapları oluşturabilirsiniz. Bulut ölçeğinde analiz mimarisi veri giriş bölgesine genel bakış makalesinde açıklanan kaynak grubuna storage-rg benzer şekilde tek bir kaynak grubu içinde üç Azure Data Lake Storage 2. Nesil hesabı sağlamanızı öneririz.

Veri giriş bölgenizdeki her depolama hesabı verileri üç aşamadan birinde depolar:

  • Ham veri
  • Zenginleştirilmiş ve seçilmiş veriler
  • Geliştirme veri gölleri

Bir veri uygulaması , otomatik veri agnostic alma hizmeti alınan bir depolama hesabından zenginleştirilmiş ve seçilmiş verileri kullanabilir. Veri agnostics altyapısı uygulamazsanız veya işletimsel kaynaklardan veri almak için karmaşık bağlantıları kolaylaştırmıyorsanız, kaynakla hizalanmış bir veri uygulaması oluşturabilirsiniz. Bu veri uygulaması, dış veri kaynaklarından veri alırken veri agnostics altyapısıyla aynı akışı izler.

Data Lake Storage 2. Nesil, dosya ve klasör düzeylerindeki verileri koruyan ayrıntılı erişim denetim listelerini (ACL) destekler. Erişim denetim listeleri, kuruluşunuzun veri ürünleri için kimlik doğrulaması ve yetkilendirme için sıkı güvenlik önlemleri uygulamasına yardımcı olabilir:

  • Bekleyen şifreleme aracılığıyla verileri güvenli bir şekilde depolayın.
  • Microsoft Entra tümleştirmesi aracılığıyla Microsoft Entra kullanıcıları ve güvenlik grupları için erişim denetimleri.

Data lake planlama

Bir veri gölü planlarken, her zaman yapı, idare ve güvenlik için uygun konuları göz önünde bulundurun. Her veri gölü yapısını ve kuruluşunu birden çok faktör etkiler:

  • Depolanan veri türü
  • Verileri nasıl dönüştürülür?
  • Verilerine kim erişir?
  • Tipik erişim desenleri nelerdir?

Tüketicileri ve üreticileri veri erişim gereksinimlerine göre gruplandırma. Veri gölünüz genelinde uygulama ve erişim denetimi idaresini planlamak iyi bir fikirdir.

Veri gölünüzde ayıklama, dönüştürme, yükleme (ETL) boşaltma gibi birkaç veri varlığı ve otomatik işlemler varsa, planlamanız oldukça kolay olabilir. Veri gölünüz yüzlerce veri varlığı içeriyorsa ve otomatik ve el ile etkileşim içeriyorsa, veri sahiplerinden çok daha fazla işbirliğine ihtiyacınız olduğundan planlama için daha uzun zaman harcamayı bekleyebilirsiniz.

Veri bataklığı benzetmesi

Veri bataklığı, kullanıcılar için neredeyse erişilemeyen, yönetilmeyen bir veri gölüdür. Veri kalitesi ve veri idaresi ölçülerini uygulamadığınızda veri bataklıkları oluşur. Bazen mevcut karma modellerle bir veri ambarında veri bataklığı görebilirsiniz.

Uygun idare ve organizasyon, veri bataklığını önler. Veri gölünüz için sağlam bir temel oluşturduğunuzda bu, veri gölü başarısını ve iş değerini sürdürme şansınızı artırır.

Veri gölünüzün boyutu, karmaşıklığı, veri varlıklarının sayısı ve kullanıcı veya bölüm sayısı arttıkça, sağlam bir veri kataloğu sistemine sahip olmak sizin için giderek daha kritik önem taşır. Veri kataloğu sisteminiz, kullanıcılarınızın veri gölünüzü işlerken, kullanırken ve yönetirken verileri bulabilmesini, etiketlemesini ve sınıflandırmasını sağlar.

Daha fazla bilgi için bkz . veri yönetimine genel bakış.

Mantıksal veri gölünde hesapları Depolama

Kuruluşunuzun bir veya birden çok depolama hesabına ihtiyacı olup olmadığını ve mantıksal veri gölünüzü oluşturmak için hangi dosya sistemlerine ihtiyacınız olduğunu göz önünde bulundurun. Tek depolama teknolojisi birden çok veri erişim yöntemi sağlar ve kuruluşunuz genelinde standartlaştırmanıza yardımcı olur.

Data Lake Storage 2. Nesil, tam olarak yönetilen bir hizmet olarak platformdur (PaaS). Verilere erişilene veya depolanana kadar birden çok depolama hesabı veya dosya sistemi parasal maliyet doğuramaz. Her Azure kaynağının yedeklemeler ve olağanüstü durum kurtarma da dahil olmak üzere sağlama, güvenlik ve idare sırasında yönetim ve işlem yüküyle ilişkili olduğunu unutmayın.

Dekont

Her veri giriş bölgesinde üç veri gölü gösterilir. Ancak gereksinimlerinize bağlı olarak ham, zenginleştirilmiş ve seçilmiş katmanları tek bir depolama hesabında birleştirebilirsiniz. Veri tüketicilerinin diğer yararlı veri ürünlerini getirebileceği 'geliştirme' adlı başka bir depolama hesabı oluşturabilirsiniz.

Birleştirilmiş veya üç depolama hesabı yaklaşımı arasında karar verirken aşağıdaki faktörleri göz önünde bulundurun:

  • Veri ortamlarının yalıtımı ve öngörülebilirlik
    • Ham ve geliştirme bölgelerinde çalışan etkinlikleri yalıtarak, kritik karar alma için gereken büyük iş değerine sahip verileri barındıran, seçilmiş bölge üzerinde olası etkiyi önleyebilirsiniz
  • Depolama hesabı düzeyindeki özellikler ve işlevler
    • Yaşam döngüsü yönetimi seçeneklerinin veya güvenlik duvarı kurallarının veri giriş bölgesi veya veri gölü düzeyinde uygulanması gerekip gerekmediğini seçebilirsiniz.
    • Birden çok depolama hesabı oluşturun, ancak istenmeyen silolar oluşturun.
    • Kuruluşunuz genelinde görünürlük veya bilgi paylaşımı eksikliğinden yinelenen veri projelerinden kaçının.
    • İyi bir veri idaresi, proje izleme araçları ve bir veri kataloğuna sahip olduğunuzdan emin olun.
  • Veri işleme araçlarının ve teknolojilerinin yapılandırılmış izinlere göre birden çok göldeki verilerle etkileşimi
  • Bölgesel ve küresel göller
    • Küresel olarak dağıtılan tüketiciler veya göldeki süreçler coğrafi uzaklıkların neden olduğu gecikme süresine karşı hassastır.
    • Verileri yerel olarak depolamak iyi bir uygulamadır.
    • Mevzuat kısıtlamaları ve veri hakimiyeti, verilerin belirli bir bölgede kalmasını gerektirebilir.
    • Daha fazla bilgi için bkz . Çok bölgeli dağıtımlar.

Çok bölgeli dağıtımlar

Veri yerleşimi kuralları veya verileri bir kullanıcı tabanına yakın tutma gereksinimi tarafından dikte edildiğinde, birden çok Azure bölgesinde Azure Data Lake hesapları oluşturmanız gerekebilir. Bunu yapmak için bir bölgede bir veri giriş bölgesi oluşturun, ardından AzCopy, Azure Data Factory veya üçüncü taraf ürünleri kullanarak genel verileri çoğaltın. Yerel veriler bölgede bulunurken, genel veriler birden çok bölgede çoğaltılır.

Sonraki adımlar

Data lake bölgeleri ve kapsayıcılar