Replikowanie wielu obiektów z systemu SAP za pośrednictwem usługi SAP CDC

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule opisano szablon rozwiązania, którego można użyć do replikowania wielu obiektów ODP z oprogramowania SAP za pośrednictwem łącznika SAP CDC do usługi Azure Data Lake Gen2 w formacie delta z partycją klucza.

Informacje o tym szablonie rozwiązania

Ten szablon odczytuje plik kontroli zewnętrznej w formacie json w magazynie magazynu, który zawiera konteksty SAP ODP, obiekty SAP ODP i kolumny kluczy z systemu źródłowego SAP, a także kontenery, foldery i partycje z magazynu docelowego usługi Azure Data Lake Gen2. Następnie kopiuje każdy obiekt SAP ODP z systemu SAP do usługi Azure Data Lake Gen2 w formacie delta.

Szablon zawiera trzy działania:

  • Wyszukiwanie pobiera listę obiektów SAP ODP, które mają zostać załadowane, oraz ścieżkę magazynu docelowego z zewnętrznego pliku kontroli w magazynie usługi Azure Data Lake Gen2.
  • Program ForEach pobiera listę obiektów SAP ODP z działania Lookup i iteruje każdy obiekt do działania mapowania przepływu danych.
  • Mapowanie przepływu danych replikuje każdy obiekt SAP ODP z systemu SAP do usługi Azure Data Lake Gen2 w formacie delta. Spowoduje to początkowe pełne ładowanie w pierwszym uruchomieniu, a następnie automatyczne wykonywanie przyrostowego obciążenia w kolejnych uruchomieniach. Scali zmiany w usłudze Azure Data Lake Gen2 w formacie delta.

Plik kontroli zewnętrznej w formacie JSON jest wymagany w tym szablonie. Schemat pliku sterującego jest następujący.

  • checkPointKey to klucz niestandardowy do zarządzania punktem kontrolnym zmienionego przechwytywania danych w usłudze ADF. Więcej szczegółów można znaleźć tutaj.
  • sapContext to kontekst SAP ODP ze źródłowego systemu SAP. Więcej szczegółów można znaleźć tutaj.
  • sapObjectName to nazwa obiektu SAP ODP, która ma zostać załadowana z systemu SAP. Więcej szczegółów można znaleźć tutaj.
  • sapRunMode to określenie sposobu ładowania obiektu SAP. Może to być fullLoad, incrementalLoad lub fullAndIncrementalLoad.
  • sapKeyColumns to nazwy kolumn kluczy z obiektów SAP ODP używanych do deduplikacji w przepływie danych mapowania.
  • sapPartitions to lista warunków partycji prowadzących do oddzielnych procesów wyodrębniania w połączonym systemie SAP.
  • deltaContainer to twoja nazwa kontenera w usłudze Azure Data Lake Gen2 jako magazyn docelowy.
  • deltaFolder to nazwa folderu w usłudze Azure Data Lake Gen2 jako magazyn docelowy.
  • deltaKeyColumns to kolumny używane do określania, czy wiersz ze źródła pasuje do wiersza z ujścia, gdy chcesz zaktualizować lub usunąć wiersz.
  • deltaPartition to kolumna używana do tworzenia partycji dla każdej unikatowej wartości w takiej kolumnie w celu zapisania danych w formacie delta w usłudze Azure Data Lake Gen2 za pośrednictwem klastra Spark używanego przez przepływ danych mapowania. Więcej szczegółów można znaleźć tutaj

Przykładowy plik kontrolny jest następujący:

[
  {
    "checkPointKey":"CheckPointFor_ZPERFCDPOS$F",
    "sapContext": "ABAP_CDS",
    "sapObjectName": "ZPERFCDPOS$F",
    "sapRunMode": "fullAndIncrementalLoad",
    "sapKeyColumns": [
      "TABKEY"
    ],
    "sapPartitions": [
	[{
        "fieldName": "TEXTCASE",
        "sign": "I",
        "option": "EQ",
        "low": "1"
       },
       {
        "fieldName": "TEXTCASE",
        "sign": "I",
        "option": "EQ",
        "low": "X"
      }]
    ],
    "deltaContainer":"delta",
    "deltaFolder":"ZPERFCDPOS",
    "deltaKeyColumns":["TABKEY"],
    "deltaPartition":"TEXTCASE",
    "stagingStorageFolder":"stagingcontainer/stagingfolder"
  },
  {
    "checkPointKey":"CheckPointFor_Z0131",
    "sapContext": "SAPI",
    "sapObjectName": "Z0131",
    "sapRunMode": "incrementalLoad",
    "sapKeyColumns": [
      "ID"
    ],
    "sapPartitions": [],
    "deltaContainer":"delta",
    "deltaFolder":"Z0131",
    "deltaKeyColumns":["ID"],
    "deltaPartition":"COMPANY",
    "stagingStorageFolder":"stagingcontainer/stagingfolder"
  }
]

Jak używać tego szablonu rozwiązania

  1. Utwórz i przekaż plik kontrolny do formatu json do usługi Azure Data Lake Gen2 jako magazynu docelowego. Domyślnym kontenerem do przechowywania pliku kontrolki jest demo, a domyślna nazwa pliku kontrolki to SapToDeltaParameters.json.

  2. Przejdź do szablonu Replikuj wiele tabel z programu SAP ODP do usługi Azure Data Lake Storage Gen2 w formacie delta i kliknij go.

    Screenshot of SAP CDC search template.

  3. Kliknij przycisk Kontynuuj i wprowadź połączoną usługę połączoną z systemem SAP jako źródło, a połączoną usługę połączoną z usługą Azure Data Lake Gen2 jako lokalizacją docelową. Więcej szczegółowych informacji na temat połączonej usługi SAP CDC można znaleźć tutaj. Należy pamiętać, że plik kontroli zewnętrznej powinien zostać przekazany do tego samego konta usługi Azure Data Lake Gen2.

    Screenshot of SAP CDC use template.

  4. Kliknij pozycję Użyj tego szablonu i zobaczysz, że potok jest gotowy do użycia.

    Screenshot of SAP CDC pipeline.