SAP CDC 기능의 개요 및 아키텍처

적용 대상: Azure Data Factory Azure Synapse Analytics

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

Azure Data Factory의 SAP CDC(변경 데이터 캡처) 기능에 대해 알아보고 아키텍처를 이해합니다.

Azure Data Factory는 ETL 및 ELT 데이터 통합 PaaS(서비스 제공 플랫폼)입니다. SAP 데이터 통합을 위해 Data Factory는 현재 6가지 일반 공급 커넥터를 제공합니다.

Screenshot of the six general availability connectors for SAP systems in Data Factory.

데이터 추출 요구 사항

Data Factory의 SAP 커넥터는 SAP 원본 데이터를 일괄 처리적으로만 추출합니다. 각 일괄 처리는 기존 데이터와 새 데이터를 동일하게 처리합니다. 일괄 처리 모드의 데이터 추출에서는 기존 데이터 세트와 새 데이터 세트 간의 변경 내용이 식별되지 않습니다. 이러한 형식의 추출 모드는 자주 변경되는 수백만 또는 수십억 개의 레코드가 있는 테이블과 같은 대규모 데이터 세트가 있는 경우 최적이 아닙니다.

전체 데이터 세트를 자주 추출하여 SAP 데이터 복사본을 최신 상태로 유지할 수 있지만 이 방법은 비용이 많이 들고 비효율적입니다. 또한 수동으로 제한된 해결 방법을 사용하여 대부분의 새 레코드 또는 업데이트된 레코드를 추출할 수 있습니다. 워터마크라는 프로세스에서 추출하려면 타임스탬프 열을 사용하고 값을 단조롭게 늘리고 마지막 추출 이후 가장 높은 값을 지속적으로 추적해야 합니다. 그러나 일부 테이블에는 워터마킹에 사용할 수 있는 열이 없습니다. 또한 이 프로세스는 삭제된 레코드를 데이터 세트의 변경 내용으로 식별하지 않습니다.

SAP CDC 기능

Microsoft 고객은 두 데이터 집합 간의 델타만 추출할 수 있는 커넥터가 필요하다고 합니다. 데이터에서 델타는 데이터 세트의 업데이트, 삽입 또는 삭제의 결과인 데이터 세트의 모든 변경 내용입니다. 델타 추출 커넥터는 대부분의 SAP 시스템에 있는 SAP CDC(변경 데이터 캡처) 기능을 사용하여 데이터 세트의 델타를 결정합니다. Data Factory의 SAP CDC 기능은 SAP ODP(작동 데이터 프로비저닝) 프레임워크를 사용하여 SAP 원본 데이터 세트의 델타를 복제합니다.

이 문서에서는 Azure Data Factory에서 SAP CDC 기능의 상위 수준 아키텍처를 제공합니다. SAP CDC 기능에 대한 자세한 정보:

SAP CDC 기능 사용 방법

SAP CDC 커넥터는 SAP CDC 기능의 핵심입니다. SAP ECC, SAP S/4HANA, SAP BW 및 SAP BW/4HANA를 포함하여 ODP를 지원하는 모든 SAP 시스템에 연결할 수 있습니다. 이 솔루션은 애플리케이션 계층에서 직접 작동하거나 프록시로 SLT(SAP Landscape Transformation 복제 서버)를 통해 간접적으로 작동합니다. 이 솔루션은 SAP 데이터를 완전히 또는 점진적으로 추출하기 위해 워터마킹에 의존하지 않습니다. SAP CDC 커넥터가 추출하는 데이터에는 실제 테이블뿐만 아니라 테이블을 사용하여 만들어지는 논리적 개체도 포함됩니다. 테이블 기반 개체의 예로는 SAP ABAP(Advanced Business Application Programming) CDS(Core Data Services) 보기가 있습니다.

자체 관리 파이프라인에서 대기 시간이 짧은 SAP CDC 복제 솔루션을 위해 매핑 데이터 흐름 작업 및 연속 창 트리거와 같은 Data Factory 기능과 함께 SAP CDC 커넥터를 사용합니다.

SAP CDC 아키텍처

Azure Data Factory의 SAP CDC 솔루션은 SAP와 Azure 간의 커넥터입니다. SAP 측에는 표준 RFC(원격 함수 호출) 모듈을 통해 ODP API를 호출하여 전체 및 델타 원시 SAP 데이터를 추출하는 SAP ODP 커넥터가 포함됩니다.

Azure 측에는 매핑 데이터 흐름이 지원하는 모든 데이터 싱크로 SAP 데이터를 변환하고 로드할 수 있는 매핑 데이터 흐름이 포함되어 있습니다. 이러한 옵션 중 일부는 Azure Data Lake Storage Gen2와 같은 스토리지 대상이나 Azure SQL Database 또는 Azure Synapse Analytics와 같은 데이터베이스입니다. 매핑 데이터 흐름 작업은 Data Lake Storage Gen2에 결과를 델타 형식으로 로드할 수도 있습니다. Delta Lake 시간 이동 기능을 사용하여 특정 기간에 대한 SAP 데이터의 스냅샷을 생성할 수 있습니다. Data Factory 연속 창 트리거를 통해 파이프라인 및 매핑 데이터 흐름을 자주 실행하여 워터마킹을 사용하지 않고 짧은 대기 시간으로 Azure에서 SAP 데이터를 복제할 수 있습니다.

Diagram of the architecture of the SAP CDC solution.

시작하려면 SAP CDC 연결된 서비스, SAP CDC 원본 데이터 세트 및 SAP CDC 원본 데이터 세트를 사용하는 매핑 데이터 흐름 작업의 파이프라인을 만듭니다. SAP에서 데이터를 추출하려면 SAP 원본 시스템이나 SLT 서버를 볼 수 있는 온-프레미스 컴퓨터나 VM(가상 머신)에 설치하는 자체 호스팅 통합 런타임이 필요합니다. 매핑 데이터 흐름 작업은 서버리스 Azure Databricks 또는 Apache Spark 클러스터 또는 Azure Integration Runtime에서 실행됩니다. 자체 호스팅 통합 런타임이 매핑 데이터 흐름 통합 런타임과 원활하게 작동하도록 하려면 매핑 데이터 흐름 작업에 준비 스토리지를 구성해야 합니다.

SAP CDC 커넥터는 SAP ODP 프레임워크를 사용하여 다음을 포함한 다양한 데이터 원본 형식을 추출합니다.

  • 원래 SAP ECC에서 데이터를 추출하여 SAP BW에 로드하도록 빌드된 SAP 추출기
  • ABAP CDS 보기(SAP S/4HANA에 대한 새로운 데이터 추출 표준)
  • SAP BW 및 SAP BW/4HANA의 InfoProvider 및 InfoObjects 데이터 세트
  • SAP LT 복제 서버(SLT)를 프록시로 사용하는 경우 SAP 애플리케이션 테이블

이 프로세스에서 SAP 데이터 원본은 공급자입니다. 공급자는 SAP 시스템에서 실행되어 ODQ(Operational Delta Queue)에서 전체 또는 증분 데이터를 생성합니다. 매핑 데이터 흐름 원본은 ODQ의 구독자입니다.

Diagram of the architecture of the SAP ODP framework through a self-hosted integration runtime.

ODP는 공급자와 구독자를 완전히 분리하므로 공급자 구성을 제공하는 모든 SAP 설명서는 Data Factory에 구독자로 적용할 수 있습니다. ODP에 대한 자세한 내용은 작동 데이터 프로비저닝 소개를 참조하세요.

SAP CDC 솔루션의 필수 조건 및 설정