Visão geral e arquitetura dos recursos do SAP CDC

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Saiba mais sobre os recursos de captura de dados de alteração (CDC) do SAP no Azure Data Factory e entenda a arquitetura.

O Azure Data Factory é uma plataforma de integração de dados ETL e ELT como serviço (PaaS). Para integração de dados SAP, o Data Factory oferece atualmente seis conectores de disponibilidade geral:

Screenshot of the six general availability connectors for SAP systems in Data Factory.

Necessidades de extração de dados

Os conectores SAP no Data Factory extraem dados de origem SAP somente em lotes. Cada lote processa os dados existentes e novos da mesma forma. Na extração de dados em modo de lote, as alterações entre conjuntos de dados existentes e novos não são identificadas. Esse tipo de modo de extração não é ideal quando você tem grandes conjuntos de dados, como tabelas, que têm milhões ou bilhões de registros que mudam com frequência.

Você pode manter sua cópia dos dados SAP atualizada e atualizada extraindo frequentemente o conjunto de dados completo, mas essa abordagem é cara e ineficiente. Você também pode usar uma solução alternativa manual e limitada para extrair principalmente registros novos ou atualizados. Em um processo chamado marca d'água, a extração requer o uso de uma coluna de carimbo de data/hora, aumentando monotonicamente os valores e rastreando continuamente o valor mais alto desde a última extração. Mas algumas tabelas não têm uma coluna que você possa usar para marca d'água. Esse processo também não identifica um registro excluído como uma alteração no conjunto de dados.

Recursos do SAP CDC

Os clientes da Microsoft indicam que precisam de um conector que possa extrair apenas o delta entre dois conjuntos de dados. Em dados, um delta é qualquer alteração em um conjunto de dados que é o resultado de uma atualização, inserção ou exclusão no conjunto de dados. Um conector de extração delta usa o recurso de captura de dados de alteração (CDC) do SAP que existe na maioria dos sistemas SAP para determinar o delta em um conjunto de dados. Os recursos do SAP CDC no Data Factory usam a estrutura ODP (SAP Operational Data Provisioning) para replicar o delta em um conjunto de dados de origem SAP.

Este artigo fornece uma arquitetura de alto nível dos recursos do SAP CDC no Azure Data Factory. Obtenha mais informações sobre os recursos do SAP CDC:

Como usar os recursos do SAP CDC

O conector SAP CDC é o núcleo dos recursos do SAP CDC. Ele pode se conectar a todos os sistemas SAP que suportam ODP, o que inclui SAP ECC, SAP S/4HANA, SAP BW e SAP BW/4HANA. A solução funciona diretamente na camada de aplicativos ou indiretamente por meio de um SAP Landscape Transformation Replication Server (SLT) como proxy. Ele não depende da marca d'água para extrair dados SAP de forma completa ou incremental. Os dados extraídos pelo conector SAP CDC incluem não apenas tabelas físicas, mas também objetos lógicos criados usando as tabelas. Um exemplo de um objeto baseado em tabela é uma exibição do SAP Advanced Business Application Programming (ABAP) Core Data Services (CDS).

Use o conector SAP CDC com recursos do Data Factory, como mapeamento de atividades de fluxo de dados e gatilhos de janela de tombamento para uma solução de replicação SAP CDC de baixa latência em um pipeline autogerenciado.

A arquitetura SAP CDC

A solução SAP CDC no Azure Data Factory é um conector entre o SAP e o Azure. O lado SAP inclui o conector ODP SAP que invoca a API ODP sobre módulos RFC (Remote Function Call) padrão para extrair dados SAP brutos completos e delta.

O lado do Azure inclui o fluxo de dados de mapeamento que pode transformar e carregar os dados SAP em qualquer coletor de dados suportado pelo mapeamento de fluxos de dados. Algumas dessas opções são destinos de armazenamento como o Azure Data Lake Storage Gen2 ou bancos de dados como o Banco de Dados SQL do Azure ou o Azure Synapse Analytics. A atividade de fluxo de dados de mapeamento também pode carregar os resultados no Data Lake Storage Gen2 no formato delta. Você pode usar o recurso Delta Lake Time Travel para produzir snapshots de dados SAP para um período específico. Você pode executar seu pipeline e mapear fluxos de dados com freqüência usando um gatilho de janela de tombamento do Data Factory para replicar dados SAP no Azure com baixa latência e sem usar marca d'água.

Diagram of the architecture of the SAP CDC solution.

Para começar, crie um serviço vinculado SAP CDC, um conjunto de dados de origem SAP CDC e um pipeline com uma atividade de fluxo de dados de mapeamento na qual você usa o conjunto de dados de origem do SAP CDC. Para extrair os dados do SAP, é necessário um tempo de execução de integração auto-hospedado que você instale em um computador local ou em uma máquina virtual (VM) que tenha uma linha de visão para seus sistemas de origem SAP ou seu servidor SLT. A atividade de fluxo de dados de mapeamento é executada em um cluster do Azure Databricks ou Apache Spark sem servidor ou em um tempo de execução de integração do Azure. É necessário configurar um armazenamento de preparo na atividade de fluxo de dados de mapeamento para fazer com que seu tempo de execução de integração auto-hospedado funcione perfeitamente com o tempo de execução de integração de fluxo de dados de mapeamento.

O conector SAP CDC usa a estrutura SAP ODP para extrair vários tipos de fonte de dados, incluindo:

  • Extratores SAP, originalmente criados para extrair dados do SAP ECC e carregá-los no SAP BW
  • ABAP CDS views, o novo padrão de extração de dados para SAP S/4HANA
  • Conjuntos de dados InfoProviders e InfoObjects no SAP BW e SAP BW/4HANA
  • Tabelas de aplicativos SAP, quando você usa um servidor de replicação SAP LT (SLT) como proxy

Nesse processo, as fontes de dados SAP são provedoras. Os provedores são executados em sistemas SAP para produzir dados completos ou incrementais em uma fila delta operacional (ODQ). A fonte de fluxo de dados de mapeamento é um assinante do ODQ.

Diagram of the architecture of the SAP ODP framework through a self-hosted integration runtime.

Como o ODP separa completamente os provedores dos assinantes, qualquer documentação SAP que ofereça configurações de provedor é aplicável ao Data Factory como assinante. Para obter mais informações sobre ODP, consulte Introdução ao provisionamento de dados operacionais.

Pré-requisitos e configuração para a solução SAP CDC