데이터 웨어하우스를 Databricks 레이크하우스로 마이그레이션

아티클
03/01/2024

이 문서에서는 엔터프라이즈 데이터 웨어하우스를 Databricks Lakehouse로 바꿀 때 고려해야 할 몇 가지 고려 사항 및 주의 사항에 대해 설명합니다. 관리자가 초기 데이터 마이그레이션 및 거버넌스 구성을 완료한 후 엔터프라이즈 데이터 웨어하우스에 정의된 대부분의 워크로드, 쿼리 및 대시보드는 최소한의 코드 리팩터링으로 실행할 수 있습니다. 데이터 웨어하우징 워크로드를 Azure Databricks로 마이그레이션하는 것은 데이터 웨어하우징을 제거하는 것이 아니라 데이터 에코시스템을 통합하는 것입니다. Databricks의 데이터 웨어하우징에 대한 자세한 내용은 Azure Databricks의 데이터 웨어하우징이란?을 참조하세요.

대다수의 Apache Spark 워크로드는 원본 시스템에서 데이터 웨어하우스로 데이터를 ETL(추출, 변환 및 로드)하여 다운스트림 분석을 지원합니다. 엔터프라이즈 데이터 웨어하우스를 레이크하우스로 대체하면 분석가, 데이터 과학자 및 데이터 엔지니어가 동일한 플랫폼의 동일한 테이블에 대해 작업하여 전반적인 복잡성, 기본 테넌트 요구 사항 및 총 소유 비용을 줄일 수 있습니다. 데이터 레이크하우스란?을 참조하세요. Databricks의 데이터 웨어하우징에 대한 자세한 내용은 Azure Databricks의 데이터 웨어하우징이란?을 참조하세요.

레이크하우스에 데이터 로드

Azure Databricks는 데이터를 레이크하우스로 쉽게 마이그레이션하고 다양한 데이터 원본에서 데이터를 로드하도록 ETL 작업을 구성할 수 있게 해주는 다양한 도구와 기능을 제공합니다. 다음 문서에서는 이러한 도구와 옵션을 소개합니다.

Databricks Data Intelligence 플랫폼은 엔터프라이즈 데이터 웨어하우스와 어떻게 다른가요?

Databricks Data Intelligence 플랫폼은 Apache Spark, Unity 카탈로그 및 Delta Lake를 기반으로 구축되어 분석, ML 및 데이터 엔지니어링을 위한 빅 데이터 워크로드에 대한 기본 지원을 제공합니다. 모든 엔터프라이즈 데이터 시스템에는 약간 다른 트랜잭션 보장, 인덱싱 및 최적화 패턴, SQL 구문이 있습니다. 체감할 수 있는 가장 큰 차이점 몇 가지는 다음과 같습니다.

모든 트랜잭션이 테이블 수준입니다. 데이터베이스 수준 트랜잭션, 잠금 또는 보장이 없습니다.
BEGIN 및 END 구문이 없습니다. 즉, 각 문 또는 쿼리가 별도의 트랜잭션으로 실행됩니다.
세 개의 계층 네임스페이스가 catalog.schema.table 패턴을 사용합니다. database 및 schema라는 용어는 레거시 Apache Spark 구문으로 인한 동의어입니다.
기본 키 및 외래 키 제약 조건은 정보 제공용입니다. 제약 조건은 테이블 수준에서만 적용할 수 있습니다. Azure Databricks의 제약 조건을 참조하세요.
Azure Databricks 및 Delta Lake에서 지원되는 네이티브 데이터 형식은 원본 시스템과 약간 다를 수 있습니다. 숫자 형식에 필요한 정밀도는 대상 형식을 선택하기 전에 명확하게 표시해야 합니다.

다음 문서에서는 중요한 고려 사항에 대한 추가 컨텍스트를 제공합니다.

다음을 통해 공유

데이터 웨어하우스를 Databricks 레이크하우스로 마이그레이션

레이크하우스에 데이터 로드

Databricks Data Intelligence 플랫폼은 엔터프라이즈 데이터 웨어하우스와 어떻게 다른가요?

추가 리소스