Vue d’ensemble et architecture des fonctionnalités CDC SAP

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Découvrez les fonctionnalités de capture des changements de données (CDC) SAP dans Azure Data Factory et comprenez son architecture.

Azure Data Factory est une plateforme d’intégration de données ETL et ELT en tant que service (PaaS). Pour l’intégration des données SAP, Data Factory propose actuellement six connecteurs de disponibilité généraux :

Screenshot of the six general availability connectors for SAP systems in Data Factory.

Besoin en extraction des données

Les connecteurs SAP dans Data Factory extraient uniquement les données sources SAP par lots. Chaque lot traite les données existantes et nouvelles de la même façon. Dans l’extraction de données en mode batch, les modifications entre les jeux de données existants et les nouveaux jeux de données ne sont pas identifiées. Ce type de mode d’extraction n’est pas optimal lorsque vous avez des jeux de données volumineux comme des tables qui ont des millions ou des milliards d’enregistrements qui changent souvent.

Vous pouvez conserver votre copie des données SAP actualisées et à jour en extrayant fréquemment le jeu de données complet, mais cette approche est coûteuse et inefficace. Vous pouvez également utiliser une solution de contournement manuelle et limitée pour extraire principalement des enregistrements nouveaux ou mis à jour. Dans un processus appelé filigrane, l’extraction nécessite l’utilisation d’une colonne d’horodatage, augmentant de façon monotone les valeurs et de suivi continu de la valeur la plus élevée depuis la dernière extraction. Mais certaines tables n’ont pas de colonne que vous pouvez utiliser pour le filigrane. Ce processus n’identifie pas également un enregistrement supprimé en tant que modification dans le jeu de données.

Fonctionnalités CDC SAP

Les clients Microsoft indiquent qu’ils ont besoin d’un connecteur qui peut extraire uniquement le delta entre deux ensembles de données. Dans les données, un delta est toute modification dans un jeu de données résultant d’une mise à jour, d’une insertion ou d’une suppression dans le jeu de données. Un connecteur d’extraction delta utilise la fonctionnalité de capture de données de modification SAP (CDC) qui existe dans la plupart des systèmes SAP pour déterminer le delta dans un jeu de données. Les fonctionnalités CDC SAP dans Data Factory utilisent l’infrastructure ODP (Operational Data Provisioning) SAP pour répliquer le delta dans un jeu de données source SAP.

Cet article fournit une architecture de haut niveau des fonctionnalités CDC SAP dans Azure Data Factory. Obtenez plus d’informations sur les fonctionnalités CDC SAP :

Comment utiliser les fonctionnalités CDC SAP

Le connecteur CDC SAP est au cœur des fonctionnalités de la CDC SAP. Il peut se connecter à tous les systèmes SAP qui prennent en charge ODP, notamment SAP ECC, SAP S/4HANA, SAP BW et SAP BW/4HANA. La solution fonctionne directement au niveau de la couche application ou indirectement via un serveur de réplication de transformation de paysage SAP (SLT) en tant que proxy. Elle ne s’appuie pas sur le filigrane pour extraire des données SAP entièrement ou incrémentiellement. Les données extraites du connecteur CDC SAP incluent non seulement des tables physiques, mais également des objets logiques créés à l’aide des tables. Un exemple d’objet basé sur une table est une vue SAP Advanced Business Application Programming (ABAP) Core Data Services (CDS).

Utilisez le connecteur CDC SAP avec des fonctionnalités Data Factory telles que les activités de flux de données de mappage et les déclencheurs de fenêtre bascule pour une solution de réplication CDC SAP à faible latence dans un pipeline auto-géré.

Architecture CDC SAP

La solution CDC SAP dans Azure Data Factory est un connecteur entre SAP et Azure. LHS inclut le connecteur SAP ODP qui appelle l’API ODP sur les modules RFC (Remote Function Call) standard pour extraire les données SAP brutes (full + deltas).

Le côté Azure inclut le flux de données de mappage qui peut transformer et charger les données SAP dans n’importe quel récepteur de données pris en charge par des flux de données de mappage. Certaines de ces options incluent des destinations de stockage telles qu’Azure Data Lake Storage Gen2 ou des bases de données telles qu’Azure SQL Database ou Azure Synapse Analytics. L’activité de flux de données de mappage peut également charger les résultats dans Data Lake Storage Gen2 au format Delta. Vous pouvez utiliser la fonctionnalité Delta Lake Time Travel pour produire des instantanés de données SAP pendant une période spécifique. Vous pouvez exécuter votre pipeline et vos flux de données de mappage fréquemment à l’aide d’un déclencheur de fenêtre bascule Data Factory pour répliquer les données SAP dans Azure avec une faible latence et sans utiliser de filigrane.

Diagram of the architecture of the SAP CDC solution.

Pour démarrer, créez un service lié à CDC SAP, un jeu de données source CDC SAP et un pipeline avec une activité de flux de données de mappage dans laquelle vous utilisez le jeu de données source CDC SAP. Pour extraire les données de SAP, un runtime d’intégration auto-hébergé est nécessaire que vous installez sur un ordinateur local ou sur une machine virtuelle qui a une visibilité directe sur vos systèmes sources SAP ou votre serveur SLT. L’activité de flux de données de mappage s’exécute sur un cluster Azure Databricks ou Apache Spark serverless ou sur un runtime d’intégration Azure. Un stockage mis en lots doit être configuré dans l’activité de flux de données de mappage pour que votre runtime d’intégration auto-hébergé fonctionne en toute transparence avec le runtime d’intégration de flux de données de mappage.

Le connecteur CDC SAP utilise l’infrastructure SAP ODP pour extraire divers types de sources de données, à savoir :

  • Extracteurs SAP, créés à l’origine pour extraire des données de SAP ECC et les charger dans SAP BW
  • Affichages CDS ABAP, nouvelle norme d’extraction de données pour SAP S/4HANA
  • Jeux de données InfoProviders et InfoObjects dans SAP BW et SAP BW/4HANA
  • Tables d’applications SAP lors de l’utilisation du serveur de réplication SAP LT (SLT) en tant que proxy

Dans ce processus, les sources de données SAP sont des fournisseurs. Les fournisseurs s’exécutent sur des systèmes SAP pour produire des données complètes ou incrémentielles dans une file d’attente delta opérationnelle (ODQ). La source de flux de données de mappage est un abonné de l’ODQ.

Diagram of the architecture of the SAP ODP framework through a self-hosted integration runtime.

Étant donné que ODP dissocie complètement les fournisseurs des abonnés, toute documentation SAP qui propose des configurations de fournisseur s’applique à ADF en tant qu’abonné. Pour plus d’informations sur ODP, consultez Présentation de l’approvisionnement des données opérationnelles.

Prérequis et configuration de la solution SAP CDC