솔루션 아이디어
이 문서는 솔루션 아이디어입니다. 잠재적인 사용 사례, 대체 서비스, 구현 고려 사항 또는 가격 책정 지침과 같은 추가 정보로 콘텐츠를 확장하려면 GitHub 피드백을 제공하여 알려주세요.
이 문서에서는 다음과 같은 Azure의 엔터프라이즈 데이터 웨어하우스에 대한 솔루션을 제공합니다.
- 스케일링 또는 형식에 관계없이 모든 데이터를 함께 가져옵니다.
- 모든 사용자가 분석 대시보드, 운영 보고서 및 고급 분석을 통해 데이터에서 인사이트를 얻을 수 있는 방법을 제공합니다.
Apache® 및 Apache Spark는 미국 및/또는 기타 국가에서 Apache Software Foundation의 등록 상표 또는 상표입니다. 이러한 표시의 사용은 Apache Software Foundation에 의한 보증을 암시하지 않습니다.
아키텍처
이 아키텍처의 Visio 파일을 다운로드합니다.
데이터 흐름
- Azure Synapse Analytics 파이프라인은 로그, 파일 및 미디어와 같은 구조화된, 구조화되지 않은 및 반구조화된 데이터를 결합합니다. 이 파이프라인은 데이터를 Azure Data Lake Storage에 저장합니다.
- Azure Synapse Analytics의 Apache Spark 풀은 Data Lake Storage 데이터를 정리하고 변환합니다.
- Azure Synapse Analytics는 처리된 데이터를 기존의 구조화된 데이터와 결합하여 하나의 통합 데이터 허브를 만듭니다.
- 전용 SQL 풀을 사용하면 인사이트를 파생하는 운영 보고서 및 분석 대시보드에 데이터를 사용할 수 있습니다. Azure Analysis Services는 수천 명의 최종 사용자에게 보고서 및 대시보드를 제공합니다.
구성 요소
- Azure Synapse Analytics는 데이터 웨어하우스 및 빅 데이터 시스템을 위한 분석 서비스입니다. 이 도구는 대규모 병렬 처리 아키텍처를 사용하며 Azure 서비스와 긴밀하게 통합됩니다.
- Azure Synapse Analytics 파이프라인은 ELT(추출, 로드, 변환) 및 ETL(추출, 변환, 로드) 워크플로와 같은 워크플로를 만들고, 예약하고, 오케스트레이션할 수 있는 방법을 제공합니다.
- Azure Blob Storage는 이미지, 비디오, 오디오, 문서 등을 비롯한 모든 비정형 데이터 형식에 대한 확장성이 뛰어나고 비용 효율적인 개체 스토리지입니다.
- Data Lake Storage는 대량의 데이터를 네이티브, 원시 형식으로 보관하는 스토리지 리포지토리입니다. Data Lake Storage는 Blob Storage를 기반으로 빌드됩니다. 결과적으로 Data Lake Storage는 Blob Storage의 확장성, 계층화된 스토리지, 고가용성 및 재해 복구 기능을 제공합니다.
- Azure Synapse Analytics Spark 풀은 메모리 내 처리를 지원하여 빅 데이터 분석 애플리케이션의 성능을 향상하는 병렬 처리 프레임워크입니다.
- Analysis Services는 사용자가 임시 데이터 분석을 쉽게 수행할 수 있는 방법을 제공하는 엔터프라이즈급 분석 엔진입니다. Analysis Services를 사용하여 비즈니스 솔루션을 대규모로 제어, 테스트 및 제공할 수 있습니다.
- Power BI는 조직 전체에 인사이트를 전달하는 비즈니스 분석 도구 모음입니다. Power BI를 사용하여 수백 개의 데이터 원본에 연결하고, 데이터 준비를 간소화하고, 임시 분석을 수행할 수 있습니다. 세련된 보고서를 생성하고 조직이 사용할 수 있도록 웹과 모바일 디바이스에 게시할 수 있습니다.
시나리오 정보
엔터프라이즈 데이터 웨어하우스는 원본, 형식 또는 규모에 관계없이 모든 데이터를 함께 제공합니다. 또한 데이터 웨어하우스는 데이터에서 고성능 분석을 실행할 수 있는 방법을 제공하므로 분석 대시보드, 운영 보고서 및 고급 분석을 통해 인사이트를 얻을 수 있습니다.
이 솔루션은 다음과 같은 데이터 웨어하우스를 설정합니다.
- 데이터에 대한 신뢰할 수 있는 단일 원본입니다.
- 관계형 데이터 원본을 다른 비정형 데이터 세트와 통합합니다.
- 의미 체계 모델링 및 강력한 시각화 도구를 사용하여 간단하게 데이터를 분석합니다.
통합 플랫폼에 데이터를 통합하기 위해 이 솔루션은 Azure Synapse Analytics 파이프라인을 사용합니다. 이러한 파이프라인은 ELT 및 ETL 기능을 제공합니다. 특히 파이프라인을 사용하여 데이터 기반 워크플로에서 데이터를 이동할 수 있습니다. 파이프라인은 다양한 데이터 형식 및 구조로 작동합니다.
파이프라인은 Blob Storage에 빌드된 Data Lake Storage에 데이터를 저장합니다. 이 스토리지 서비스는 대량의 비정형 데이터를 처리할 수 있습니다.
Azure Synapse Analytics Spark 풀은 솔루션의 핵심 부분을 형성합니다. 이러한 풀은 Azure에 저장된 데이터를 정리하고 변환합니다. 병렬 처리 프레임워크는 속도와 효율성을 위해 메모리 내 처리를 지원합니다. 또한 풀은 자동 스케일링을 지원하므로 필요에 따라 노드를 추가하거나 제거할 수 있습니다.
전용 SQL 풀을 사용하면 처리된 데이터를 고성능 분석에 사용할 수 있습니다. 이 풀은 데이터 스토리지 비용을 크게 줄이는 형식인 열 형식 스토리지를 사용하여 관계형 테이블에 데이터를 저장합니다. 또한 쿼리 성능이 향상되므로 대규모로 분석을 실행할 수 있습니다.
잠재적인 사용 사례
대량의 데이터를 포함하는 다음과 같은 시나리오에서 이 솔루션을 사용할 수 있습니다.
- IoT 디바이스 통합
- 고객 데이터 플랫폼
- 자연어 처리
- 기계 학습 알고리즘
가격 책정
이 솔루션의 예상 비용을 보려면 가격 계산기의 가격 책정 샘플을 참조하세요.
다음 단계
- Azure Synapse Analytics 설명서
- Azure Synapse Analytics 파이프라인 설명서
- Azure에서 개체 스토리지 소개
- Azure Synapse Analytics Spark 풀
- Analysis Services 설명서
- Power BI 설명서