Przekształcanie danych ze źródła SAP ODP przy użyciu łącznika SAP CDC w usłudze Azure Data Factory lub Azure Synapse Analytics

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule opisano sposób używania przepływu mapowania danych do przekształcania danych ze źródła SAP ODP przy użyciu łącznika SAP CDC. Aby dowiedzieć się więcej, przeczytaj artykuł wprowadzający dotyczący usługi Azure Data Factory lub Azure Synapse Analytics. Aby zapoznać się z wprowadzeniem do przekształcania danych za pomocą usług Azure Data Factory i Azure Synapse Analytics, przeczytaj przepływ mapowania danych lub samouczek dotyczący przepływu mapowania danych.

Napiwek

Aby dowiedzieć się więcej na temat ogólnego scenariusza integracji danych SAP, zobacz oficjalny dokument dotyczący integracji danych SAP przy użyciu usługi Azure Data Factory ze szczegółowym wprowadzeniem do każdego łącznika SAP, porównania i wskazówek.

Obsługiwane możliwości

Ten łącznik SAP CDC jest obsługiwany w następujących funkcjach:

Obsługiwane możliwości IR
Przepływ danych mapowania (źródło/-) ①, ②

(1) Środowisko Azure Integration Runtime (2) Self-hosted Integration Runtime

Ten łącznik SAP CDC używa struktury SAP ODP do wyodrębniania danych z systemów źródłowych SAP. Aby zapoznać się z wprowadzeniem do architektury rozwiązania, przeczytaj wprowadzenie i architekturę do przechwytywania zmian (CDC) sap w naszym centrum wiedzy SAP.

Struktura SAP ODP jest zawarta we wszystkich aktualnych systemach opartych na oprogramowaniu SAP NetWeaver, w tym SAP ECC, SAP S/4HANA, SAP BW, SAP BW/4HANA, SAP LT Replication Server (SLT). Aby zapoznać się z wymaganiami wstępnymi i minimalnymi wymaganymi wersjami, zobacz Wymagania wstępne i konfiguracja.

Łącznik SAP CDC obsługuje uwierzytelnianie podstawowe lub secure network communications (SNC), jeśli skonfigurowano SNC.

Bieżące ograniczenia

Poniżej przedstawiono bieżące ograniczenia łącznika SAP CDC w usłudze Data Factory:

  • Nie można zresetować ani usunąć subskrypcji ODQ w usłudze Data Factory (w tym celu użyj funkcji ODQMON transakcji w połączonym systemie SAP).
  • Nie można używać hierarchii SAP z rozwiązaniem.

Wymagania wstępne

Aby użyć tego łącznika SAP CDC, zapoznaj się z tematem Wymagania wstępne i konfiguracja łącznika SAP CDC.

Rozpocznij

Aby wykonać działanie Kopiuj za pomocą potoku, możesz użyć jednego z następujących narzędzi lub zestawów SDK:

Tworzenie połączonej usługi dla łącznika SAP CDC przy użyciu interfejsu użytkownika

Wykonaj kroki opisane w artykule Przygotowywanie połączonej usługi SAP CDC, aby utworzyć połączoną usługę dla łącznika SAP CDC w interfejsie użytkownika witryny Azure Portal.

Właściwości zestawu danych

Aby przygotować zestaw danych SAP CDC, wykonaj czynności opisane w artykule Prepare the SAP CDC source dataset (Przygotowywanie źródłowego zestawu danych sap CDC).

Przekształcanie danych za pomocą łącznika SAP CDC

Nieprzetworzone źródło zmian SAP ODP jest trudne do zinterpretowania i poprawnego zaktualizowania go do ujścia może być wyzwaniem. Na przykład atrybuty techniczne skojarzone z każdym wierszem (na przykład ODQ_CHANGEMODE) muszą być zrozumiałe, aby prawidłowo zastosować zmiany do ujścia. Ponadto wyodrębnienie danych zmiany z odp może zawierać wiele zmian w tym samym kluczu (na przykład to samo zamówienie sprzedaży). Dlatego ważne jest, aby uwzględniać kolejność zmian, jednocześnie optymalizując wydajność, przetwarzając zmiany równolegle. Ponadto zarządzanie źródłem danych przechwytywania zmian wymaga również śledzenia stanu, na przykład w celu zapewnienia wbudowanych mechanizmów odzyskiwania błędów. Przepływy danych mapowania usługi Azure Data Factory zajmują się wszystkimi takimi aspektami. W związku z tym łączność SAP CDC jest częścią środowiska przepływu mapowania danych. W związku z tym użytkownicy mogą skoncentrować się na wymaganej logice przekształcania bez konieczności przejmowania się szczegółami technicznymi wyodrębniania danych.

Aby rozpocząć, utwórz potok z przepływem danych mapowania.

Screenshot of add data flow activity in pipeline.

Następnie określ tymczasową połączoną usługę i folder przejściowy w usłudze Azure Data Lake Gen2, który służy jako pośredni magazyn dla danych wyodrębnionych z oprogramowania SAP.

Uwaga

  • Połączona usługa przejściowa nie może używać własnego środowiska Integration Runtime.
  • Folder przejściowy należy uznać za wewnętrzny magazyn łącznika SAP CDC. Aby uzyskać dalsze optymalizacje środowiska uruchomieniowego SAP CDC, szczegóły implementacji, takie jak format pliku używany na potrzeby danych przejściowych, mogą ulec zmianie. Dlatego nie zalecamy używania folderu przejściowego do innych celów, np. jako źródła dla innych działań kopiowania lub mapowania przepływów danych.

Screenshot of specify staging folder in data flow activity.

Klucz punktu kontrolnego jest używany przez środowisko uruchomieniowe SAP CDC do przechowywania informacji o stanie procesu przechwytywania zmian danych. Umożliwia to na przykład przepływom mapowania danych usługi SAP CDC w celu automatycznego odzyskiwania po sytuacjach błędów lub ustalenia, czy proces przechwytywania zmian danych dla danego przepływu danych został już ustanowiony. Dlatego ważne jest użycie unikatowego klucza punktu kontrolnego dla każdego źródła. W przeciwnym razie informacje o stanie jednego źródła zostaną zastąpione przez inne źródło.

Uwaga

  • Aby uniknąć konfliktów, unikatowy identyfikator jest generowany jako klucz punktu kontrolnego domyślnie.
  • W przypadku używania parametrów do korzystania z tego samego przepływu danych dla wielu źródeł upewnij się, że parametryzacja klucza punktu kontrolnego z unikatowymi wartościami na źródło.
  • Właściwość Klucz punktu kontrolnego nie jest wyświetlana, jeśli tryb uruchamiania w źródle usługi SAP CDC jest ustawiony na Pełny dla każdego przebiegu (zobacz następną sekcję), ponieważ w tym przypadku nie zostanie ustanowiony żaden proces przechwytywania zmian danych.

Screenshot of checkpoint key property in data flow activity.

Właściwości przepływu mapowania danych

Aby utworzyć przepływ danych mapowania przy użyciu łącznika SAP CDC jako źródła, wykonaj następujące kroki:

  1. W programie ADF Studio przejdź do sekcji Przepływy danych w centrum Autor, wybierz przycisk ... w celu menu akcji przepływu danych i wybierz element Nowy przepływdanych. Włącz tryb debugowania przy użyciu przycisku Debugowanie przepływu danych na górnym pasku kanwy przepływu danych.

    Screenshot of the data flow debug button in mapping data flow.

  2. W edytorze przepływu mapowania danych wybierz pozycję Dodaj źródło.

    Screenshot of add source in mapping data flow.

  3. Na karcie Ustawienia źródła wybierz przygotowany zestaw danych SAP CDC lub wybierz przycisk Nowy , aby utworzyć nowy. Alternatywnie możesz również wybrać opcję Wbudowany we właściwości Typ źródła i kontynuować bez definiowania jawnego zestawu danych.

    Screenshot of the select dataset option in source settings of mapping data flow source.

  4. Na karcie Opcje źródła wybierz opcję Pełne dla każdego przebiegu , jeśli chcesz załadować pełne migawki w każdym wykonaniu przepływu mapowania danych. Wybierz pozycję Pełne w pierwszym uruchomieniu, a następnie przyrostowe , jeśli chcesz zasubskrybować zestawienie zmian z systemu źródłowego SAP, w tym początkową pełną migawkę danych. W takim przypadku pierwsze uruchomienie potoku wykonuje inicjowanie różnicowe, co oznacza, że tworzy subskrypcję różnicową ODP w systemie źródłowym i zwraca bieżącą pełną migawkę danych. Kolejne uruchomienia potoku zwracają tylko zmiany przyrostowe od poprzedniego uruchomienia. Opcja przyrostowych zmian tworzy tylko subskrypcję różnicową ODP bez zwracania początkowej pełnej migawki danych w pierwszym uruchomieniu. Ponownie kolejne przebiegi zwracają zmiany przyrostowe od poprzedniego przebiegu. Obie opcje ładowania przyrostowego wymagają określenia kluczy obiektu źródłowego ODP we właściwości Kolumny klucza.

    Screenshot of the run mode property in source options of mapping data flow source.

    Screenshot of the key columns selection in source options of mapping data flow source.

  5. Na kartach Projekcja, Optymalizowanie i inspekcja postępuj zgodnie z przepływem danych mapowania.

Optymalizowanie wydajności pełnych lub początkowych obciążeń przy użyciu partycjonowania źródłowego

Jeśli tryb uruchamiania jest ustawiony na Pełny dla każdego przebiegu lub Pełne w pierwszym uruchomieniu, a następnie przyrostowe, karta Optymalizacja oferuje wybór i typ partycjonowania o nazwie Źródło. Ta opcja umożliwia określenie wielu warunków partycji (czyli filtrowania) w celu podzielenia dużego zestawu danych źródłowych na wiele mniejszych części. Dla każdej partycji łącznik SAP CDC wyzwala oddzielny proces wyodrębniania w systemie źródłowym SAP.

Screenshot of the partitioning options in optimize of mapping data flow source.

Jeśli partycje mają równy rozmiar, partycjonowanie źródłowe może liniowo zwiększyć przepływność wyodrębniania danych. Aby osiągnąć takie ulepszenia wydajności, w systemie źródłowym SAP wymagane są wystarczające zasoby, maszyna wirtualna hostująca własne środowisko Integration Runtime i środowisko Azure Integration Runtime.