Medallion 레이크하우스 아키텍처란?

Medallion 아키텍처는 레이크하우스에 저장된 데이터 품질을 나타내는 일련의 데이터 레이어를 설명합니다. Databricks에서는 다중 레이어 접근 방식에 따라 엔터프라이즈 데이터 제품의 단일 신뢰 원본을 빌드하는 것이 좋습니다. 이 아키텍처는 효율적인 분석을 위해 최적화된 레이아웃에 저장하기 전 데이터가 여러 유효성 검사 및 변환 레이어를 통과할 때 원자성, 일관성, 격리성 및 내구성을 보장합니다. 브론즈(원시), 실버(유효성 검사됨) 및 골드(보강됨) 용어는 이러한 각 레이어에 있는 데이터 품질을 기술합니다.

이 Medallion 아키텍처는 다른 차원 모델 기법을 대체하지 않는다는 점에 유의해야 합니다. 각 레이어 내에서 스키마 및 테이블은 빈도 및 데이터 업데이트 특성 그리고 데이터에 대한 다운스트림 사용 사례에 따라 다양한 형태와 정규화 정도를 사용할 수 있습니다.

조직은 Databricks lakehouse를 활용하여 회사 전체에서 액세스할 수 있는 유효성이 검사된 데이터 세트를 만들고 기본 수 있습니다. Data-as-Products 큐레이팅에 집중된 조직 사고 방식을 채택하는 것은 데이터 레이크하우스를 성공적으로 빌드하기 위한 중요한 단계입니다.

원시 데이터를 브론즈 레이어로 수집

브론즈 레이어에는 유효성이 검사되지 않은 데이터가 포함됩니다. 일반적으로 브론즈 레이어에 수집된 데이터는 다음과 같습니다.

  • 데이터 원본의 원시 상태를 유지합니다.
  • 증분식으로 추가되고 시간이 지남에 따라 증가합니다.
  • 스트리밍 및 일괄 처리 트랜잭션의 모든 조합일 수 있습니다.

각 데이터 세트의 처리되지 않은 전체 기록을 효율적인 스토리지 형식으로 유지하면 지정된 데이터 시스템의 상태를 다시 만들 수 있습니다.

향상된 검색 가능성, 원본 데이터 세트의 상태 설명, 다운스트림 애플리케이션의 최적화된 성능을 위해 추가 메타데이터(원본 파일 이름 또는 데이터 처리 시간 기록 등)를 수집 데이터에 추가할 수 있습니다.

실버 레이어의 데이터 유효성 검사 및 중복 제거

브론즈 레이어에 전체 데이터 기록이 거의 원본 상태로 포함된 경우 실버 레이어는 다운스트림 분석으로 신뢰할 수 있는 유효성 검사되고 강화된 데이터 버전을 나타냅니다.

Databricks는 브론즈, 실버 및 골드 테이블로 구성되는 레이크하우스 비전을 강하게 믿고 있지만, 단순히 실버 레이어를 구현하는 것으로도 레이크하우스의 많은 잠재적인 이점을 즉시 실현할 수 있습니다.

어떤 데이터 파이프라인의 경우에도 실버 레이어에는 테이블이 둘 이상 포함될 수 있습니다.

골드 레이어로 분석 강화

이 골드 데이터는 분석, 기계 학습 및 프로덕션 애플리케이션을 강화하는 데이터를 포함하여 세분화되고 집계되는 경우가 많습니다. 레이크하우스의 모든 테이블이 주요한 역할을 담당하지만 골드 테이블은 단순한 정보가 아닌 지식으로 변환된 데이터를 나타냅니다.

분석가는 주로 자신의 핵심 책임 업무에 골드 테이블을 사용하며, 고객과 공유되는 데이터가 이 수준 외부에 거의 저장되지 않습니다.

이러한 테이블의 업데이트는 정기적으로 예약된 프로덕션 워크로드의 일부로 완료되며, 비용을 제어하는 데 도움이 되고, 데이터 새로 고침에 대한 SLA(서비스 수준 계약)를 설정하도록 허용합니다.

Lakehouse에는 엔터프라이즈 데이터 웨어하우스에서 발생할 수 있는 것과 동일한 교착 상태 문제가 없지만 골드 테이블은 데이터 요청에 대한 클라우드 제한을 방지하기 위해 별도의 스토리지 컨테이너에 저장되는 경우가 많습니다.

일반적으로 데이터가 골드 레이어에 기록되기 전에 집계, 조인 및 필터링이 처리되기 때문에 사용자에게 골드 테이블의 데이터에 대해 낮은 대기 시간 쿼리 성능이 표시됩니다.