Share via


Azure의 클라우드 규모 분석 데이터 제품

데이터 제품은 제품으로 제공되는 데이터이며, 특정 사용 사례에 필요할 수 있는 다국어 지속성 서비스에서 계산, 저장 및 제공됩니다. 데이터 제품을 만들고 제공하는 프로세스에는 데이터 랜딩 존 핵심 서비스에 포함되지 않은 서비스와 기술이 필요할 수 있습니다. 이러한 예는 규정 준수 및 세금 보고와 같은 틈새 요구 사항을 보고하는 것입니다.

디자인 고려 사항

데이터 랜딩 존은 동일한 데이터 랜딩 존 내에서 또는 여러 데이터 랜딩 존에서 데이터를 수집하여 만들어진 여러 데이터 제품을 제공할 수 있습니다. 이는 다음 다이어그램에 나와 있습니다.

데이터 간 랜딩 존 사용 다이어그램.

위의 예는 다음을 보여 줍니다.

  • 인트라존 데이터 사용량:
    • 데이터 제품 B는 데이터 제품 A의 데이터와 자체 랜딩 존 내의 데이터 레이크에 존재하는 데이터 제품 A 및 기타 데이터 또는 데이터 제품을 사용합니다.
    • 데이터 제품 C와 D는 각각의 데이터 랜딩 존 내에서만 데이터를 사용합니다.
  • 영역 간 데이터 사용량:
    • 또한 데이터 제품 B는 데이터 제품 C의 데이터와 랜딩 존 3의 데이터 레이크에 있는 데이터를 사용합니다.

Important

영역 간 데이터 소비의 경우 데이터 제품 B는 데이터 랜딩 영역 3에서 읽어서 생성되기 때문에 이 읽기 권한은 데이터 방문 영역 3의 데이터 랜딩 존 작업통합 작업 팀의 승인이 필요합니다.

Important

데이터 제품 B는 데이터 제품 A 및 C의 데이터를 사용합니다. 이러한 일이 발생하기 전에 데이터 제품 B는 데이터 공유 계약을 통해 데이터 제품의 소비를 등록해야 합니다. 이 데이터 공유 계약은 계보를 데이터 제품 A에서 데이터 제품 B로, 데이터 제품 C에서 데이터 제품 B로 업데이트해야 합니다.

데이터 제품의 리소스 그룹에는 데이터 제품을 만들고 유지 관리하는 데 필요한 모든 서비스가 포함됩니다. 이 리소스 그룹을 데이터 애플리케이션이라고 할 수 있습니다. 데이터 애플리케이션의 일부가 될 수 있는 서비스의 예로는 Azure Functions, Azure App Service, Logic Apps, Azure Analysis Services, Azure Cognitive Services, Azure Machine Learning, Azure SQL Database, Azure Database for MySQL 및 Azure Cosmos DB가 있습니다. 자세한 내용은 데이터 애플리케이션 샘플을 참조하세요.

데이터 제품에는 일부 데이터 변환이 적용된 READ 데이터 원본의 데이터가 있습니다. 새로 선별된 데이터 세트 또는 BI 보고서를 예로 들 수 있습니다.

디자인 권장 사항

데이터 거버넌스에 따라 확장할 수 있는 설계 원칙을 준수하여 데이터 랜딩 존 내에서 데이터 제품을 빌드합니다. 다음 섹션에서는 데이터 애플리케이션 에코시스템을 계획할 때 도움이 되는 디자인 권장 사항을 제공합니다.

여러 리소스 그룹 배포

각 데이터 애플리케이션은 리소스 그룹입니다. 데이터 애플리케이션은 컴퓨팅 서비스, 다중저장소 지속성 서비스 또는 둘 다이기 때문에 특정 사용 사례에 따라서만 필요할 수 있습니다. 따라서 선택적 데이터 랜딩 존 구성 요소로 간주됩니다. 데이터 애플리케이션이 필요한 경우 다음 다이어그램과 같이 데이터 애플리케이션별로 여러 리소스 그룹을 만듭니다.

데이터 애플리케이션 리소스 그룹의 다이어그램.

가드레일 설정

Azure Policy는 데이터 랜딩 존 내에서 서비스의 기본 구성을 구동합니다. 운영 분석을 데이터 제품 팀이 표준 서비스 카탈로그에서 요청할 수 있는 여러 리소스 그룹으로 간주합니다. Azure Policy를 사용하여 보안 경계 및 필수 기능 집합을 구성할 수 있습니다.

Important

일관성을 유지하려면 각 데이터 애플리케이션에 대해 하나의 Azure Policy를 구성합니다.

여러 위치에서 데이터 사용

데이터 애플리케이션은 여러 데이터 자산의 데이터를 관리, 구성 및 이해하고 얻은 인사이트를 제공합니다. 데이터 제품은 데이터 랜딩 존 내에서 하나 이상의 데이터 애플리케이션의 데이터 결과입니다. 필요한 경우 데이터 애플리케이션이 여러 원본 및 다양한 원본의 데이터에 액세스할 수 있도록 합니다.

필요에 따라 스케일링

데이터 애플리케이션을 구성하는 서비스는 데이터 랜딩 존에 대한 증분 배포입니다. 필요에 따라 데이터 애플리케이션의 크기를 조정합니다.

데이터 검색 사용

Azure Purview와 같은 데이터 카탈로그에 데이터 제품을 자동으로 등록하여 데이터 검색을 허용합니다.

데이터 제품 식별

데이터 랜딩 존을 계획하는 동안 데이터 제품 애플리케이션 아키텍처를 구동하는 데 도움이 되도록 필요한 만큼의 데이터 제품(및 이를 출력하고 유지 관리하는 데이터 애플리케이션)을 식별합니다. 구현된 플랫폼 거버넌스에 대한 적합성은 의사 결정에서 가장 큰 역할을 해야 합니다.

데이터 애플리케이션이 다른 사용자를 위한 데이터 생산자 및 소비자 역할을 하는 방식에 초점을 맞춥니다. 예를 들어 데이터가 생성되고 사용되는 데이터 제품(A, B, C 및 D)을 식별했다고 가정합니다. 데이터 제품 B에 대한 데이터 애플리케이션 B의 데이터 원본으로 데이터 제품 A와 D가 필요합니다. 데이터 애플리케이션 B는 데이터 제품 A 및 D에서 사용하는 데이터에서 만들어집니다. 데이터 애플리케이션 B는 데이터 생산자 자체의 역할을 하며 데이터 제품 C에 대한 데이터도 생성합니다.

데이터 생산자 및 소비자의 다이어그램.

코드 제공 인프라를 사용하여 데이터 애플리케이션 환경 제어

거버넌스 및 코드 제공 인프라는 이전 다이어그램에 표시된 것처럼 데이터 제품 에코시스템 전반에 걸쳐 데이터 애플리케이션 환경을 제어해야 합니다.

데이터 모델 게시

데이터 제품 팀은 모델링 리포지토리에 데이터 모델을 게시해야 합니다.

데이터 제품 사용자에 대한 기대치 설정

데이터 제품의 잠재적 사용자에게 정확한 기대치를 전달할 수 있도록 데이터 제품에 대한 서비스 수준 계약 및 인증을 사용하여 데이터 공유 계약을 업데이트합니다.

계보 캡처

데이터 제품 A 및 D에서 들어오는 데이터에서 데이터 제품 B를 만든 경우 계보를 A와 D에서 B로 캡처해야 합니다. 데이터 제품 B의 데이터를 사용하여 생성되므로 데이터 제품 C에 대한 추가 계보도 캡처해야 합니다. 업데이트된 계보는 데이터 제품의 모든 릴리스 전에 데이터 계보 애플리케이션에서 캡처해야 합니다.

참고 항목

Azure Pipelines를 사용하면 승인 게이트를 빌드하고 메타데이터, 계보 및 SLA가 올바른 거버넌스 서비스에 등록되었는지 확인하는 기능을 호출할 수 있습니다.

데이터 애플리케이션 아키텍처 정의

다른 데이터 제품과의 관계, 종속성 및 액세스 요구 사항을 완전히 정의하는 각 데이터 제품에 대한 자세한 아키텍처를 만들어야 합니다.

예제 디자인 시나리오

아키텍처 정의 프로세스를 이해하려면 금융 기관 및 해당 신용 모니터링 데이터 제품의 예를 살펴보겠습니다.

데이터 정의 제품 아키텍처의 세부 다이어그램.

이 다이어그램에 표시된 신용 모니터링 데이터 제품은 통합 운영 팀에서 수집한 읽기 데이터 저장소의 데이터를 사용합니다. 다른 두 데이터 제품에서도 사용하는 데이터 제품을 생성합니다.

참고 항목

읽기 데이터 원본 또는 저장소는 골든 레코드 원본이라고도 합니다. 이러한 데이터 원본은 정리되었지만 변환이 적용되지 않았습니다.

신용 모니터링 데이터 제품 팀은 데이터 제품 생성에 필요한 읽기 데이터 저장소에 대한 읽기 권한을 요청합니다. 이러한 요청은 승인을 위해 데이터 소유자에게 라우팅됩니다. 승인을 받으면 제품 팀에서 데이터 애플리케이션 빌드를 시작할 수 있습니다.

읽은 데이터 원본의 데이터는 신용 모니터링 데이터 제품으로 변환됩니다. 모든 새 데이터 제품은 데이터 레이크의 큐레이팅된 계층에 저장됩니다. 이러한 새 데이터 제품과 새 데이터 계보는 DevOps 배포 프로세스의 일부로 등록되어야 합니다. 함수는 데이터 자산의 실제 구조로 등록된 메타데이터를 확인할 수 있습니다. 읽기 데이터 원본 데이터 자산 및 데이터 제품에 대한 종속성을 등록해야 합니다.

대출 승인 데이터 제품 팀은 일부 신용 모니터링 데이터 제품에 의존합니다. 대출 승인 팀은 데이터 제품에 필요한 신용 모니터링 데이터 제품에 대한 읽기 권한을 요청할 수 있습니다. 대출 승인 데이터 제품과 해당 데이터 애플리케이션을 릴리스하면 모든 데이터 제품 자산, 계보 및 모델이 관련 거버넌스 서비스에 등록되어야 합니다.

샘플 데이터 애플리케이션

다음 섹션에는 데이터 애플리케이션 시나리오를 자세히 설명하기 위한 샘플 데이터 애플리케이션이 포함되어 있습니다.

데이터 분석 및 데이터 과학 데이터 애플리케이션

데이터 분석 및 데이터 과학용 애플리케이션에는 샘플 데이터 애플리케이션 product-analytics-rg에 표시된 서비스가 포함될 수 있습니다.

Analytics Data Application Deployment에 대해 선택할 수 있는 가능한 서비스를 보여 주는 다이어그램.

참고 항목

이전 데이터 애플리케이션을 템플릿으로 사용할 수 있습니다. 이 템플릿은 데이터 분석 및 데이터 과학에 사용할 수 있는 서비스 집합을 배포합니다. 이 데이터 제품 애플리케이션 템플릿을 사용하여 기능 간 팀을 위한 환경을 신속하게 만들 수 있습니다. 필요하지 않은 서비스를 명시적으로 사용하지 않도록 설정해야 합니다.

데이터 제품 분석 템플릿에는 클라우드 규모 분석 시나리오 데이터 랜딩 존 내에 분석 및 데이터 과학용 데이터 제품을 배포하기 위한 모든 템플릿이 포함되어 있습니다.

배포 및 코드 아티팩트에는 다음 서비스가 포함됩니다.

일괄 처리 데이터 애플리케이션

일괄 처리 데이터 애플리케이션 템플릿에는 클라우드 규모 분석 시나리오 데이터 랜딩 존 내에서 일괄 처리 데이터 처리를 위한 데이터 제품을 배포하기 위한 모든 템플릿이 포함되어 있습니다.

배포 및 코드 아티팩트에는 다음 서비스가 포함됩니다.

Batch Data Application Deployment에 대해 선택할 수 있는 가능한 서비스를 보여 주는 다이어그램.

스트리밍 데이터 애플리케이션

스트리밍 데이터 애플리케이션 템플릿에는 클라우드 규모 분석 시나리오 데이터 랜딩 존 내에서 실시간 데이터 처리를 위한 데이터 제품을 배포하기 위한 모든 템플릿이 포함되어 있습니다.

배포 및 코드 아티팩트에는 다음 서비스가 포함됩니다.

Streaming Data Application Deployment에 대해 선택할 수 있는 가능한 서비스를 보여 주는 다이어그램.

앞에서 언급한 배포 템플릿이 포함된 리포지토리를 찾으려면 클라우드 규모 분석을 위한 배포 템플릿을 참조하세요.

다음 단계

데이터 애플리케이션(원본 정렬)