メダリオン レイクハウス アーキテクチャとは

このメダリオン アーキテクチャでは、レイクハウスの格納データの品質を示す一連のデータ レイヤーについて説明します。 Databricks では、エンタープライズ データ製品の信頼できる単一のソースを確立するために、多層アプローチを採用することをお勧めします。 このアーキテクチャでは、データが複数の検証と変換のレイヤーを経て効率的な分析に最適なレイアウトで格納されるため、原子性、一貫性、分離性、持続性が保証されます。 ブロンズ (未加工)、シルバー (検証済み)、ゴールド (エンリッチ済み) という用語は、これらの各レイヤーのデータ品質を表しています。

このメダリオン アーキテクチャは、他のディメンショナル モデリング手法に代わるものではないことに留意することが重要です。 各レイヤーのスキーマとテーブルは、データの更新頻度や性質、データのダウンストリーム ユース ケースに応じて、さまざまな形式や正規化の度合いを取ることができます。

組織は、Databricks レイクハウスを活用することで、全社的にアクセス可能な検証済みデータセットを作成および管理することができます。 データ レイクハウスを正しく構築するためには、データを製品としてキュレーションすることに焦点を当てた組織的な考え方を採用することが重要なステップとなります。

ブロンズ レイヤーに生データを取り込む

ブロンズ レイヤーには、未検証のデータが含まれています。 ブロンズ レイヤーに取り込まれるデータは、一般的に以下のようになります。

  • データ ソースの生の状態が維持されます。
  • 増分的に追加され、時間の経過とともに増加します。
  • ストリーミングとバッチ トランザクションの任意の組み合わせが可能です。

各データセットの完全な未処理の履歴を効率的なストレージ形式で保持することで、所定のデータ システムの状態を再作成することができます。

取り込み時のデータにその他のメタデータ (ソース ファイル名やデータ処理時間の記録など) を追加することで、検出可能性の向上、ソース データセットの状態の説明、ダウンストリーム アプリケーションのパフォーマンス最適化が可能になります。

シルバー レイヤーのデータを検証して重複を除去する

ブロンズ レイヤーには、ほぼ未加工の状態の全データ履歴が含まれているのに対し、シルバー レイヤーは、ダウンストリーム分析で信頼できる検証済みかつエンリッチ済みバージョンのデータであることを思い出してください。

Databricks ではブロンズ、シルバー、ゴールドの各テーブルによるレイクハウスのビジョンが固く信じられていますが、シルバー レイヤーを効率的に実装するだけで、レイクハウスの潜在的なメリットの多くをすぐに活用することができます。

任意のデータ パイプラインの場合、シルバー レイヤーには複数のテーブルが含まれる場合があります。

ゴールド レイヤーによる分析強化

このゴールド データは、多くの場合、高度に洗練され、集約されており、分析、機械学習、運用アプリケーションを強化するデータを含んでいます。 レイクハウスのすべてのテーブルは重要な目的を果たす必要がありますが、ゴールド テーブルは、単なる情報ではなく、ナレッジに変換されたデータを表します。

アナリストは中核となる業務でゴールド テーブルに大きく依存しており、顧客と共有されるデータがこのレベル外に格納されることはほとんどありません。

これらのテーブルの更新は、定期的にスケジュールされた運用ワークロードの一部として行われるため、コストを抑制し、データの最新性に関するサービス レベル アグリーメント (SLA) を確立することができます。

レイクハウスには、エンタープライズ データ ウェアハウスで発生する可能性のあるデッドロックの問題はありませんが、データ要求に対するクラウドの制限を回避するために、ゴールド テーブルは多くの場合別のストレージ コンテナーに格納されます。

一般に、集計、結合、フィルター処理はデータがゴールド レイヤーに書き込まれる前に処理されるため、ユーザーはゴールド テーブルのデータに対して待機時間の短いクエリ パフォーマンスを確認できるはずです。