데이터 레이크하우스 아키텍처: Databricks 잘 설계된 프레임워크

이 데이터 레이크하우스 아키텍처 문서 집합은 Azure Databricks를 사용하여 레이크하우스의 구현 및 운영에 대한 원칙과 모범 사례를 제공합니다.

레이크하우스를 위한 Databricks 잘 설계된 프레임워크

Well-architected framework: data lakehouse diagram.

잘 설계 된 레이크 하우스클라우드에서 데이터 레이크 하우스의 구현에 대한 다양한 관심 영역을 설명하는 7 개의 기둥으로 구성됩니다.

  • 데이터 거버넌스

    데이터가 가치를 제공하고 비즈니스 전략을 지원하는지 확인하기 위한 감독입니다.

  • 상호 운용성 및 유용성

    레이크하우스가 사용자 및 기타 시스템과 상호 작용하는 기능.

  • 운영 우수성

    레이크하우스를 프로덕션 환경에서 계속 실행하는 모든 운영 프로세스입니다.

  • 보안, 개인 정보 보호, 규정 준수

    위협으로부터 Azure Databricks 애플리케이션, 고객 워크로드 및 고객 데이터를 보호합니다.

  • 신뢰성

    오류를 복구하여 계속 작동하는 시스템 기능입니다.

  • 성능 효율성

    부하의 변화에 맞게 조정되는 시스템 기능입니다.

  • 비용 최적화

    비용을 관리하여 제공되는 가치를 극대화합니다.

잘 설계된 레이크하우스는 Microsoft Azure 잘 설계된 프레임워크를 Databricks Data Intelligence 플랫폼으로 확장하고 "운영 우수성", "보안"("보안, 개인 정보 보호, 규정 준수"), "안정성", "성능 효율성" 및 "비용 최적화"의 핵심 요소를 공유합니다.

이러한 다섯 가지 핵심 요소의 경우 클라우드 프레임워크의 원칙과 모범 사례가 여전히 Lakehouse에 적용됩니다. 잘 설계된 레이크하우스레이크하우스와 관련이 있고 효과적이고 효율적인 레이크하우스를 건설하는 데 중요한 원칙과 모범 사례로 이를 확장합니다.

레이크하우스 아키텍처의 데이터 거버넌스 및 상호 운용성 및 유용성

"데이터 거버넌스" 및 "상호 운용성 및 유용성"의 핵심은 레이크하우스와 관련된 문제를 다룹니다.

데이터 거버넌스는 조직 내에서 데이터 자산을 안전하게 관리하기 위해 구현된 정책 및 사례를 요약합니다. 레이크하우스의 기본 측면 중 하나는 중앙 집중식 데이터 거버넌스입니다. 레이크하우스는 데이터 웨어하우징을 통합하고 AI는 단일 플랫폼에서 사례를 사용합니다. 이렇게 하면 일반적으로 데이터 엔지니어링, 분석, BI, 데이터 과학 및 기계 학습을 분리하고 복잡하게 만드는 데이터 사일로를 제거하여 최신 데이터 스택을 간소화합니다. 데이터 거버넌스를 간소화하기 위해 Lakehouse는 데이터, 분석 및 AI를 위한 통합 거버넌스 솔루션을 제공합니다. 데이터 복사본을 최소화하고 모든 데이터 거버넌스 컨트롤을 함께 실행할 수 있는 단일 데이터 처리 계층으로 이동하면 규정 준수 상태를 유지하고 데이터 위반을 감지할 가능성을 높일 수 있습니다.

레이크 하우스의 또 다른 중요한 신조는 그것으로 작동하는 모든 페르소나에 대한 훌륭한 사용자 경험을 제공하고 외부 시스템의 넓은 에코시스템과 상호 작용할 수 있다는 것입니다. Azure에는 데이터 기반 엔터프라이즈에 필요한 대부분의 작업을 수행하는 다양한 데이터 도구가 이미 있습니다. 그러나 각 서비스에서 다른 사용자 환경을 제공하는 모든 기능을 제공하려면 이러한 도구를 올바르게 조립해야 합니다. 이 접근 방식은 높은 구현 비용으로 이어질 수 있으며 일반적으로 네이티브 레이크하우스 플랫폼과 동일한 사용자 환경을 제공하지 않습니다. 사용자는 도구 간의 불일치와 협업 기능 부족으로 제한되며, 시스템에 액세스하기 위해 복잡한 프로세스를 거쳐 데이터에 액세스해야 하는 경우가 많습니다.

다른 쪽의 통합 레이크하우스는 모든 워크로드에서 일관된 사용자 환경을 제공하므로 유용성이 향상됩니다. 이렇게 하면 학습 및 온보딩 비용이 감소하고 함수 간의 협업이 향상됩니다. 또한 내부 리소스와 예산을 투자할 필요 없이 사용자 환경을 더욱 개선하기 위해 시간이 지남에 따라 새로운 기능이 자동으로 추가됩니다.

다중 클라우드 접근 방식은 회사의 의도적인 전략 또는 인수 합병 또는 다른 클라우드 공급자를 선택하는 독립 사업부의 결과일 수 있습니다. 이 경우 다중 클라우드 레이크하우스를 사용하면 모든 클라우드에서 통합된 사용자 환경이 생성됩니다. 이렇게 하면 기업 전체의 시스템 확산이 줄어들어 데이터 기반 작업에 관련된 직원의 기술 및 교육 요구 사항이 줄어듭니다.

마지막으로, 회사 간 비즈니스 프로세스가 있는 네트워크 환경에서 시스템은 가능한 한 원활하게 협력해야 합니다. 상호 운용성의 정도는 여기에서 중요한 기준이며, 모든 비즈니스의 핵심 자산인 가장 최근의 데이터는 내부 및 외부 파트너의 시스템 간에 안전하게 흐를 수 있어야 합니다.

원칙 및 모범 사례