중소기업을 위한 최신 데이터 웨어하우스

Azure 데이터 레이크
Azure SQL Database
Azure Synapse Analytics
Dynamics 365
Microsoft Power Platform

이 예제 워크로드에서는 SMB가 현재 예산 및 기술 세트를 과도하게 확장하지 않고 레거시 데이터 저장소를 현대화하며 빅 데이터 도구와 기능을 탐색할 수 있는 여러 가지 방법을 보여 줍니다. 이러한 엔드투엔드 Azure 데이터 웨어하우징 솔루션은 Azure Machine Learning, Microsoft Power Platform, Microsoft Dynamics와 같은 도구 및 기타 Microsoft 기술과 쉽게 통합됩니다.

아키텍처

Diagram that shows how SMBs can modernize legacy data stores.

이 아키텍처의 Visio 파일을 다운로드합니다.

레거시 SMB 데이터 웨어하우스에는 다음과 같은 여러 유형의 데이터가 포함될 수 있습니다.

  • 문서와 그래픽처럼 구조화되지 않은 데이터
  • 로그, CSV, JSON, XML 파일처럼 반구조화된 데이터
  • ETL/ELT(extract-transform-load/extract-load-transform) 작업에 저장된 프로시저를 사용하는 데이터베이스 등의 구조화된 관계형 데이터

데이터 흐름

다음의 데이터 흐름은 선택한 데이터 형식의 수집 과정을 보여 줍니다.

  1. Azure Synapse Analytics 파이프라인은 레거시 데이터 웨어하우스를 Azure에 수집합니다.

    • 파이프라인은 마이그레이션되거나 부분적으로 리팩터링된 레거시 데이터베이스와 SSIS 패키지의 흐름을 Azure SQL Database에 오케스트레이션합니다. 이 리프트 앤 시프트 접근 방식은 구현 속도가 가장 빠르고, 온-프레미스 SQL 솔루션에서 최종 Azure PaaS(Platform-as-a-Service)로 원활하게 전환해 줍니다. 리프트 앤 시프트 후에 데이터베이스를 증분 방식으로 현대화할 수 있습니다.

    • 파이프라인은 다른 원본과 함께 중앙 집중식 스토리지 및 분석용 비정형 데이터, 반구조화/구조화된 데이터를 Azure Data Lake Storage에 전달할 수 있습니다. 데이터를 융합하면 단순히 데이터를 재배치하는 것보다 더 많은 비즈니스 이점을 얻을 수 있는 경우 이 접근 방식을 사용합니다.

  2. Microsoft Dynamics 데이터 원본은 Synapse 서버리스 분석 도구를 통해 보강된 데이터 세트에 중앙 집중식 BI 대시보드를 빌드하는 데 사용될 수 있습니다. 추가 분석하기 위해 융합 처리된 데이터를 Dynamics와 Power BI로 다시 가져올 수 있습니다.

  3. 스트리밍 원본의 실시간 데이터는 Azure Event Hubs를 통해 시스템에 입력할 수도 있습니다. 실시간 대시보드 요구 사항이 있는 고객의 경우 Azure Stream Analytics에서 이 데이터를 즉시 분석할 수 있습니다.

  4. 또한 데이터는 추가 분석, 스토리지 및 보고용으로 중앙 집중식 Data Lake에 입력할 수 있습니다.

  5. 서버리스 분석 도구는 Azure Synapse Analytics 작업 영역에서 사용할 수 있습니다. 이러한 도구는 서버리스 SQL 풀 또는 Apache Spark 컴퓨팅 기능을 사용하여 Data Lake Storage Gen2에서 데이터를 처리합니다. 서버리스 풀은 요청 시 사용할 수 있으며, 프로비전된 리소스가 필요하지 않습니다.

    서버리스 풀은 다음에 적합합니다.

    • T-SQL 형식의 임시 데이터 과학 탐색
    • 데이터 웨어하우스 엔터티에 대한 초기 프로토타입 생성
    • 성능 지연을 허용할 수 있는 시나리오에서 소비자가 사용할 수 있는 보기 정의(예: Power BI)

Azure Synapse는 Azure Machine Learning처럼 융합된 데이터 세트의 잠재적 소비자와 긴밀하게 통합됩니다. 다른 소비자에는 Power Apps, Azure Logic Apps, Azure Functions 앱 및 Azure App Service 웹앱이 포함될 수 있습니다.

구성 요소

  • Azure Synapse Analytics는 데이터 통합, 엔터프라이즈 데이터 웨어하우징 및 빅 데이터 분석을 결합하는 분석 서비스입니다. 이 솔루션의 내용은 다음과 같습니다.

  • Azure SQL Database는 클라우드용으로 빌드된 지능적이고 확장 가능한 관계형 데이터베이스 서비스입니다. 이 솔루션에서 SQL Database는 엔터프라이즈 데이터 웨어하우스를 보유하고 저장된 프로시저를 사용하는 ETL/ELT 작업을 수행합니다.

  • Azure Event Hubs는 실시간 데이터 스트리밍 플랫폼 및 이벤트 수집 서비스입니다. Event Hubs는 어디에서나 데이터를 수집할 수 있으며, Azure 데이터 서비스와 원활하게 통합됩니다.

  • Azure Stream Analytics는 스트리밍 데이터용 실시간 서버리스 분석 서비스입니다. Stream Analytics는 빠르고 탄력적인 확장성, 엔터프라이즈급 안정성과 복구 성능, 기본 제공 기계 학습 기능을 제공합니다.

  • Azure Machine Learning은 데이터 과학 모델 개발 및 수명 주기 관리용 도구 집합입니다. Machine Learning은 Data Lake Storage Gen2에서 융합 처리된 데이터를 사용할 수 있는 Azure/Microsoft 서비스의 일례입니다.

대안

  • Azure IoT Hub는 Event Hubs를 대체하거나 보완할 수 있습니다. 선택하는 솔루션은 스트리밍 데이터의 원본, 그리고 복제 기능 및 보고 디바이스와의 양방향 통신이 필요한지 여부에 따라 달라집니다.

  • Azure Synapse 파이프라인 대신 데이터를 통합하기 위해 Azure Data Factory를 사용할 수 있습니다. 선택은 다음의 몇 가지 요소에 따라 달라집니다.

    • Azure Synapse 파이프라인은 솔루션 디자인을 더 단순하게 유지하고, 단일 Azure Synapse 작업 영역 내에서 협업을 허용합니다.
    • Azure Synapse 파이프라인은 Azure Data Factory에서 사용할 수 있는 SSIS 패키지 재호스팅을 지원하지 않습니다.
    • Synapse Monitor Hub는 Azure Synapse 파이프라인을 모니터링하는 반면, Azure Monitor는 Data Factory를 모니터링할 수 있습니다.

    자세한 내용 및 Azure Synapse 파이프라인과 Data Factory 간의 기능 비교는 Azure Synapse Analytics와 Azure Data Factory의 데이터 통합을 참조하세요.

  • SQL Database 사용하는 대신 엔터프라이즈 데이터를 저장하기 위해 Synapse Analytics 전용 SQL 풀을 사용할 수 있습니다. 이 문서의 사용 사례와 고려 사항 및 관련 리소스를 검토하여 결정을 내리세요.

시나리오 정보

중소기업(SMB)은 클라우드용 온-프레미스 데이터 웨어하우스를 현대화할 때 선택에 직면하게 됩니다. 향후 확장성을 위해 빅 데이터 도구를 채택할 수도 있고, 비용 효율성과 유지 관리 용이성, 원활한 전환을 위해 기존의 SQL 기반 솔루션을 유지할 수도 있습니다.

그러나 하이브리드 접근 방식은 기존 데이터 자산을 간편하게 마이그레이션하는 기능과 일부 사용 사례에 적합한 빅 데이터 도구 및 프로세스를 추가할 수 있는 기회를 결합합니다. SQL 기반 데이터 원본은 클라우드에서 계속 실행되고 적절하게 현대화할 수 있습니다.

이 예제 워크로드에서는 SMB가 현재 예산 및 기술 세트를 과도하게 확장하지 않고 레거시 데이터 저장소를 현대화하며 빅 데이터 도구와 기능을 탐색할 수 있는 여러 가지 방법을 보여 줍니다. 이러한 엔드투엔드 Azure 데이터 웨어하우징 솔루션은 Azure Machine Learning, Microsoft Power Platform, Microsoft Dynamics 같은 Azure/Microsoft 서비스 및 도구와 쉽게 통합됩니다.

잠재적인 사용 사례

이 워크로드의 이점을 누릴 수 있는 몇 가지 시나리오는 다음과 같습니다.

  • 1TB 미만의 SSIS(SQL Server Integration Services) 패키지를 광범위하게 사용하여 저장된 프로시저를 오케스트레이션하는 기존의 온-프레미스 관계형 데이터 웨어하우스를 마이그레이션하는 경우

  • 일괄 처리된 실시간 Azure Data Lake 원본을 사용하여 기존 Dynamics 또는 Power Platform Dataverse 데이터를 메시하는 경우

  • 중앙 집중식 Data Lake Storage Gen2 데이터와 상호 작용하는 데 혁신적인 기술을 사용하는 경우 기술에는 서버리스 분석, 지식 마이닝, 도메인 간의 데이터 퓨전 및 최종 사용자 데이터 탐색이 포함됩니다.

  • 운영 최적화를 위해 데이터 웨어하우스를 채택하도록 전자 상거래 회사를 설정합니다.

이 솔루션은 다음 용도로는 권장되지 않습니다.

  • 1년 이내에 > 1TB가 될 것으로 추정되는 데이터 웨어하우스의 Greenfield 배포

  • > 1TB 또는 1년 이내에 이 규모로 증가할 것이라 예상되는 온-프레미스 데이터 웨어하우스 마이그레이션

고려 사항

이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일단의 지침 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.

이 시나리오에는 다음과 같은 고려 사항이 적용됩니다.

가용성

SQL Database는 HA(고가용성) 및 DR(재해 복구) 요구 사항을 충족할 수 있는 PaaS 서비스입니다. 요구 사항을 충족하는 SKU를 선택해야 합니다. 지침은 Azure SQL Database 고가용성을 참조하세요.

작업

SQL Database는 SQL Server Management Studio(SSMS)를 사용하여 저장된 프로시저와 같은 레거시 아티팩트를 개발 및 유지 관리합니다.

비용 최적화

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 방법을 찾는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.

Azure 가격 계산기에서 SMB 데이터 웨어하우징 시나리오를 위한 가격 책정 샘플을 참조하세요. 값을 조정하면 요구 사항이 비용에 미치는 영향을 확인할 수 있습니다.

  • SQL Database는 선택한 컴퓨팅과 서비스 계층, vCore 및 DTU(데이터베이스 트랜잭션 단위)의 수를 기준으로 비용을 계산합니다. 이 예제는 SQL Database에서 저장된 프로시저를 실행해야 한다는 가정하에 프로비전된 컴퓨팅과 vCore가 8개 있는 단일 데이터베이스를 보여 줍니다.

  • Data Lake Storage Gen2 가격은 저장하는 데이터의 양과 데이터 사용 빈도에 따라 달라집니다. 샘플 가격에는 추가 트랜잭션 가정과 함께 저장된 1TB의 데이터가 포함됩니다. 1TB는 원래 레거시 데이터베이스 크기가 아닌 데이터 레이크의 크기를 나타냅니다.

  • Azure Synapse 파이프라인은 데이터 파이프라인 작업 수, 통합 런타임 시간, 데이터 흐름 클러스터 크기, 실행 및 작업 요금을 기준으로 비용을 계산합니다. 파이프라인 비용은 추가 데이터 원본과 처리된 데이터의 양에 따라 증가합니다. 이 예제에서는 Azure 호스팅 통합 런타임에서 15분 동안 매시간 하나의 데이터 원본을 일괄 처리한다고 가정합니다.

  • Azure Synapse Spark 풀은 노드 크기, 인스턴스 수, 작동 시간을 기반으로 가격을 책정합니다. 이 예제에서는 사용률이 주 5시간에서 월 40시간인 작은 컴퓨팅 노드가 하나인 것으로 가정합니다.

  • Azure Synapse 서버리스 SQL 풀은 처리된 데이터 TB를 기준으로 가격을 책정합니다. 샘플에서는 월 50TB를 처리한 것으로 가정합니다. 이 그림은 원래 레거시 데이터베이스의 크기가 아닌 데이터 레이크의 크기를 나타냅니다.

  • Event Hubs는 계층, 프로비전된 처리량 단위 및 받은 수신 트래픽을 기준으로 요금을 청구합니다. 이 예제에서는 한 달간 이벤트가 100만 개 이상인 표준 계층의 처리량 단위가 하나인 것으로 가정합니다.

  • Stream Analytics는 프로비전된 스트리밍 단위 수를 기준으로 비용을 계산합니다. 샘플에서는 한 달간 사용된 스트리밍 단위가 하나인 것으로 가정합니다.

참가자

이 문서는 Microsoft에서 업데이트 및 유지 관리 중입니다. 원래 다음 기여자가 작성했습니다.

보안 주체 작성자:

  • Galina Polyakova | 선임 클라우드 솔루션 설계자

다음 단계