데이터 레이크란?

데이터 레이크는 대량의 데이터를 네이티브, 원시 형식으로 보관하는 스토리지 리포지토리입니다. 데이터 레이크 저장소는 테라바이트 및 페타바이트 규모의 데이터에 맞게 크기를 조정할 수 있도록 최적화되었습니다. 데이터는 일반적으로 여러 소스에서 오며 구조화, 반 조화 또는 구조화되지 않을 수 있습니다. 모든 것을 변형되지 않은 원래 상태로 저장하는 것이 데이터 레이크의 개념입니다. 이 접근 방식은 데이터를 수집할 때 데이터를 변환하고 처리하는 기존의 데이터 웨어하우스와는 다릅니다.

A diagram that shows the different data lake use cases.

다음은 주요 데이터 레이크 사용 사례입니다.

  • 클라우드 및 IoT 데이터 이동
  • 빅 데이터 처리
  • 분석
  • 보고
  • 온-프레미스 데이터 이동

데이터 레이크의 장점은 다음과 같습니다.

  • 데이터가 원시 형식으로 저장되므로 절대 throw되지 않습니다. 이러한 특징은 데이터에서 어떤 통찰력을 얻을 수 있을지 미리 알 수 없는 빅 데이터 환경에서 특히 유용합니다.
  • 사용자는 데이터를 탐색하고 직접 쿼리를 만들 수 있습니다.
  • 기존의 ETL 도구보다 빠를 수 있습니다.
  • 구조화되지 않은 데이터 및 반구조화된 데이터를 저장할 수 있으므로 데이터 웨어하우스보다 유연합니다.

완전한 데이터 레이크 솔루션은 스토리지과 처리로 구성됩니다. Data Lake Storage는 내결함성, 무한 확장성, 다양한 모양과 크기의 데이터를 수집하는 높은 처리량이라는 목표를 중심으로 설계되었습니다. 데이터 레이크 처리는 이러한 목표로 구축된 하나 이상의 처리 엔진을 사용하며, 데이터 레이크에 저장된 대규모 데이터에 작동될 수 있습니다.

데이터 레이크를 사용하는 경우

데이터 레이크는 일반적으로 데이터 탐색, 데이터 분석 및 기계 학습에 사용됩니다.

데이터 레이크를 데이터 웨어하우스의 데이터 원본으로 사용할 수도 있습니다. 이 방법에서는 원시 데이터가 데이터 레이크로 수집된 후 구조화된 쿼리 가능 형식으로 변환합니다. 일반적으로 이 변환에서는 ELT(추출-부하-변형) 파이프라인을 사용하며, 여기서 데이터가 수집되고 변환됩니다. 이미 관계가 있는 원본 데이터는 ETL 프로세스를 사용하여 데이터 레이크를 건너뛰고 곧바로 데이터 웨어하우스로 이동할 수 있습니다.

데이터 레이크 저장소는 변환 또는 스키마 정의 없이도 많은 양의 관계형 및 비관계형 데이터를 유지할 수 있으므로 이벤트 스트리밍 또는 IoT 시나리오에서 자주 사용됩니다. 이 저장소는 짧은 대기 시간으로 많은 양의 작은 쓰기를 처리하도록 고안되었으며 대규모 처리량에 최적화되어 있습니다.

다음 표에서는 데이터 레이크와 데이터 웨어하우스를 비교합니다.

A table that compares data lake features with data warehouse features.

과제

  • 스키마 또는 설명 메타데이터가 없으면 데이터를 사용 또는 쿼리하기가 어려울 수 있습니다.
  • 데이터의 의미 체계가 일관적이지 않은 경우 데이터 분석에 숙련된 사용자가 아니면 데이터를 분석하기 어려울 수 있습니다.
  • 데이터 레이크로 이동하는 데이터의 품질을 보장하기 어려울 수 있습니다.
  • 적절한 거버넌스가 없으면 액세스 제어 및 개인 정보 관련 문제가 발생할 수 있습니다. 데이터 레이크로 이동하는 정보의 종류, 데이터에 액세스할 수 있는 사람, 데이터의 용도는 어떻게 될까요?
  • 데이터 레이크는 이미 관계가 있는 데이터를 통합하기에 가장 좋은 방법이 아닐 수도 있습니다.
  • 데이터 레이크 그 자체로는 조직 전체에서 사용되는 통합 보기 또는 전체 보기를 제공하지 않습니다.
  • 데이터 레이크는 실제로 분석 또는 마이닝할 일이 전혀 없는 데이터를 내다 버리는 폐기물 처리장이 될 수도 있습니다.

기술 선택

Azure에서 제공하는 다음 서비스를 사용하여 데이터 레이크 솔루션을 빌드합니다.

A diagram that shows the key data lake services.

  • Azure HD Insight는 엔터프라이즈용 클라우드의 관리형 전체 스펙트럼 오픈 소스 분석 서비스입니다.
  • Azure Data Lake Store는 하이퍼스케일 Hadoop 호환 리포지토리입니다.
  • Azure Data Lake Analytics는 빅 데이터 분석을 간소화하는 주문형 분석 작업 서비스입니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

보안 주체 작성자:

다음 단계