소개

델타 Lake데이터 레이크위에 lakehouse 아키텍처 를 구축할 수 있도록 하는 오픈 소스 프로젝트 입니다. 델타 Lake는 ACID 트랜잭션과 확장 가능한 메타 데이터 처리를 제공 하 고 기존 데이터 레이크 기반으로 스트리밍 및 일괄 처리 데이터 처리를 통합 합니다.

특히 델타 Lake는 다음을 제공 합니다.

  • Spark의 ACID 트랜잭션: 직렬화 가능 격리 수준은 독자가 일관 되지 않은 데이터를 표시 하지 않도록 합니다.
  • 확장 가능한 메타 데이터 처리: Spark 분산 처리 기능을 활용 하 여 수십억 개의 파일이 있는 페타바이트 규모 테이블의 모든 메타 데이터를 편리 하 게 처리할 수 있습니다.
  • 스트리밍 및 일괄 처리 통합: 델타 Lake의 테이블은 스트리밍 원본 및 싱크 뿐만 아니라 일괄 처리 테이블입니다. 스트리밍 데이터 수집, 일괄 처리 기록 백필, 대화형 쿼리 모두 바로 작동 합니다.
  • 스키마 적용: 수집 중 잘못 된 레코드가 삽입 되지 않도록 자동으로 스키마 변형을 처리 합니다.
  • 시간 이동: 데이터 버전 관리를 통해 롤백, 전체 기록 감사 내역 및 재현 가능한 기계 학습 실험을 수행할 수 있습니다.
  • Upsert 및 delete: 병합, 업데이트 및 삭제 작업을 지원 하 여 변경 데이터 캡처, SCD (느린 변경 차원) 작업, 스트리밍 upsert 등의 복잡 한 사용 사례를 사용할 수 있습니다.

델타 엔진 최적화는 대규모 ETL 처리에서 임시 대화형 쿼리에 이르는 다양 한 워크 로드를 지원 하 여 델타 Lake 작업을 매우 효율적으로 만듭니다. 델타 엔진에 대 한 자세한 내용은 델타 엔진을 참조 하세요.

빠른 시작

델타 Lake 퀵 스타트는 델타 Lake를 사용 하는 기본 사항에 대 한 개요를 제공 합니다. 빠른 시작에서는 JSON 데이터를 델타 테이블로 읽고, 테이블을 수정 하 고, 테이블을 읽고, 테이블 기록을 표시 하 고, 테이블을 최적화 하는 파이프라인을 빌드하는 방법을 보여 줍니다.

이러한 기능을 보여 주는 Azure Databricks 노트북은 소개 전자 필기장을 참조 하세요.

델타 Lake를 사용해 보려면 Azure Databricks에 등록을 참조 하세요.

리소스