Madalyon göl evi mimarisi nedir?

Madalyon mimarisi, lakehouse'da depolanan verilerin kalitesini belirten bir dizi veri katmanını açıklar. Databricks, kurumsal veri ürünleri için tek bir gerçek kaynağı oluşturmak için çok katmanlı bir yaklaşım benimser. Bu mimari, veriler verimli analiz için iyileştirilmiş bir düzende depolanmadan önce birden çok doğrulama ve dönüştürme katmanından geçtiğinden, bölünmezlik, tutarlılık, yalıtım ve dayanıklılığı garanti eder. Bronz (ham), gümüş (doğrulanmış) ve altın (zenginleştirilmiş) terimleri, bu katmanların her birinde verilerin kalitesini açıklar.

Bu madalyon mimarisinin diğer boyutlu modelleme tekniklerinin yerini almadığını unutmayın. Her katmandaki şemalar ve tablolar, veri güncelleştirmelerinin sıklığına ve doğasına ve verilerin aşağı akış kullanım örneklerine bağlı olarak çeşitli formlar ve normalleştirme dereceleri alabilir.

Kuruluşlar Databricks lakehouse'undan yararlanarak şirket genelinde erişilebilen doğrulanmış veri kümeleri oluşturabilir ve bakımını yapabilir. Ürün olarak verileri seçmeye odaklanan bir kurumsal düşünce yapısı benimsemek, data lakehouse'un başarıyla oluşturulmasında önemli bir adımdır.

Ham verileri bronz katmana alma

Bronz katman, karşılanmamış veriler içerir. Genellikle bronz katmanda alınan veriler:

  • Veri kaynağının ham durumunu korur.
  • Artımlı olarak eklenir ve zaman içinde büyür.
  • Akış ve toplu işlemlerin herhangi bir bileşimi olabilir.

Her veri kümesinin tam, işlenmemiş geçmişini verimli bir depolama biçiminde tutmak, belirli bir veri sisteminin herhangi bir durumunu yeniden oluşturma olanağı sağlar.

Gelişmiş bulunabilirlik, kaynak veri kümesinin durumunun açıklaması ve aşağı akış uygulamalarında iyileştirilmiş performans için alınan verilere ek meta veriler (kaynak dosya adları veya verilerin işlenme zamanını kaydetme gibi) eklenebilir.

Gümüş katmandaki verileri doğrulama ve yinelenenleri kaldırma

Bronz katman neredeyse ham durumda veri geçmişinin tamamını içerirken, gümüş katmanının verilerimizin aşağı akış analizi için güvenilebilen doğrulanmış, zenginleştirilmiş bir sürümünü temsil ettiğini hatırlayın.

Databricks bronz, gümüş ve altın tablolar tarafından yönetilen göl evi vizyonuna güçlü bir şekilde inansa da, sadece bir gümüş katmanı verimli bir şekilde uygulamak, göl evi için olası avantajların birçoğunun hemen ortaya çıkar.

Tüm veri işlem hatları için gümüş katmanı birden fazla tablo içerebilir.

Altın katmanı ile power analytics

Bu altın veriler genellikle analiz, makine öğrenmesi ve üretim uygulamalarını destekleyen veriler içeren yüksek oranda iyileştirilmiş ve toplanmıştır. Göl evindeki tüm tabloların önemli bir amaca hizmet etmesi gerekirken, altın renkli tablolar yalnızca bilgi yerine bilgiye dönüştürülmüş verileri temsil eder.

Analistler temel sorumlulukları için büyük ölçüde altın tablolara güvenir ve bir müşteriyle paylaşılan veriler nadiren bu düzeyin dışında depolanır.

Bu tablolara Güncelleştirmeler, düzenli olarak zamanlanmış üretim iş yüklerinin bir parçası olarak tamamlanır ve bu da maliyetleri denetlemeye yardımcı olur ve veri tazeliği için hizmet düzeyi sözleşmelerine (SLA) izin verir.

Göl evi, kurumsal veri ambarında karşılaşabileceğiniz kilitlenme sorunlarıyla aynı olmasa da, veri isteklerinde bulut sınırlarını önlemeye yardımcı olmak için altın tablolar genellikle ayrı bir depolama kapsayıcısında depolanır.

Genel olarak, veriler altın katmana yazılmadan önce toplamalar, birleştirmeler ve filtrelemeler işlendiğinden, kullanıcıların altın tablolardaki verilerde düşük gecikme süresi sorgu performansı görmesi gerekir.