Przechwytywanie zmienionych danych przy użyciu ewolucji schematu z usługi Azure SQL Database do ujścia różnicowego przy użyciu zasobu przechwytywania zmian danych

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule użyjesz interfejsu użytkownika usługi Azure Data Factory, aby utworzyć zasób przechwytywania zmian danych (CDC). Zasób pobiera zmienione dane ze źródła usługi Azure SQL Database i dodaje je do usługi Delta Lake przechowywanej w usłudze Azure Data Lake Storage Gen2 w czasie rzeczywistym. To działanie prezentuje obsługę ewolucji schematu przy użyciu zasobu CDC między źródłem a ujściem.

W tym artykule omówiono sposób wykonywania następujących zadań:

  • Utwórz zasób CDC.
  • Wprowadź dynamiczne zmiany schematu w tabeli źródłowej.
  • Zweryfikuj zmiany schematu w docelowym ujściu różnicy.

Możesz zmodyfikować i rozwinąć wzorzec konfiguracji w tym artykule.

Wymagania wstępne

Przed rozpoczęciem procedur opisanych w tym artykule upewnij się, że masz następujące zasoby:

  • Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, utwórz bezpłatne konto platformy Azure.
  • Baza danych SQL. Usługa Azure SQL Database jest używana jako źródłowy magazyn danych. Jeśli nie masz bazy danych SQL, utwórz bazę danych w witrynie Azure Portal.
  • Konto magazynu. Usługa Delta Lake jest przechowywana w usłudze Azure Data Lake Storage Gen2 jako docelowy magazyn danych. Jeśli nie masz konta magazynu, zobacz Tworzenie konta magazynu, aby zapoznać się z krokami, które należy utworzyć.

Tworzenie artefaktu CDC

  1. Przejdź do okienka Autor w fabryce danych. Poniżej sekcji Potoki zostanie wyświetlony nowy artefakt najwyższego poziomu o nazwie Change Data Capture (wersja zapoznawcza).

    Screenshot of a new top-level artifact for change data capture on the Factory Resources pane.

  2. Zatrzymaj wskaźnik myszy na przechwytywaniu zmian danych (wersja zapoznawcza) do momentu wyświetlenia trzech kropek. Następnie wybierz pozycję Zmień przechwytywanie danych (wersja zapoznawcza) Akcje.

    Screenshot of the button for change data capture actions appearing over the new top-level artifact.

  3. Wybierz pozycję Nowa usługa CDC (wersja zapoznawcza). Ten krok otwiera okno wysuwane, aby rozpocząć proces z przewodnikiem.

    Screenshot of a list of change data capture actions.

  4. Zostanie wyświetlony monit o nadenie nazwy zasobowi CDC. Domyślnie nazwa to "adfcdc" z liczbą, która zwiększa się o 1. Możesz zastąpić tę nazwę domyślną wybraną nazwą.

    Screenshot of the text box to update the name of a resource.

  5. Użyj listy rozwijanej, aby wybrać źródło danych. W tym artykule wybierz pozycję Azure SQL Database.

    Screenshot of the guided process flyout with source options in a dropdown list.

  6. Zostanie wyświetlony monit o wybranie połączonej usługi. Utwórz nową połączoną usługę lub wybierz istniejącą.

    Screenshot of the box to choose or create a linked service.

  7. Po wybraniu połączonej usługi zostanie wyświetlony monit o wybranie tabel źródłowych. Użyj pól wyboru, aby wybrać tabele źródłowe, a następnie wybierz wartość kolumny przyrostowej przy użyciu listy rozwijanej.

    Screenshot that shows selection of a source table and an incremental column.

    W okienku są wyświetlane tylko tabele, które mają obsługiwane typy danych kolumn przyrostowych.

    Uwaga

    Aby włączyć usługę CDC z ewolucją schematu w źródle usługi Azure SQL Database, wybierz tabele oparte na kolumnach limitu, a nie na tabelach, które są natywnie włączone usługi SQL CDC.

  8. Po wybraniu tabel źródłowych wybierz pozycję Kontynuuj , aby ustawić cel danych.

    Screenshot of the Continue button in the guided process to select a data target.

  9. Wybierz wartość Typu docelowego przy użyciu listy rozwijanej. W tym artykule wybierz pozycję Delta.

    Screenshot of a dropdown menu of all data target types.

  10. Zostanie wyświetlony monit o wybranie połączonej usługi. Utwórz nową połączoną usługę lub wybierz istniejącą.

    Screenshot of the box to choose or create a linked service to your data target.

  11. Wybierz docelowy folder danych. Możesz użyć jednej z następujących opcji:

    • Przycisk Przeglądaj w obszarze Ścieżka podstawowa elementu docelowego, który ułatwia automatyczne wypełnienie ścieżki przeglądania dla wszystkich nowych tabel wybranych dla źródła.
    • Przycisk Przeglądaj na zewnątrz, aby indywidualnie wybrać ścieżkę folderu.

    Screenshot of a folder icon to browse for a folder path.

  12. Po wybraniu ścieżki folderu wybierz przycisk Kontynuuj .

    Screenshot of the Continue button in the guided process to proceed to the next step.

  13. Zostanie wyświetlona nowa karta przechwytywania danych zmiany. Ta karta to studio CDC, w którym można skonfigurować nowy zasób.

    Screenshot of the change data capture studio.

    Nowe mapowanie jest tworzone automatycznie. Możesz zaktualizować opcje Tabela źródłowa i Docelowa tabela dla mapowania, korzystając z list rozwijanych.

    Screenshot of the source-to-target mapping in the change data capture studio.

  14. Po wybraniu tabel ich kolumny są domyślnie mapowane z włączonym przełącznikiem Automatyczne mapowanie . Automatyczna mapa automatycznie mapuje kolumny według nazwy w ujściu, pobiera zmiany nowej kolumny po ewolucji schematu źródłowego i przepływa te informacje do obsługiwanych typów ujścia.

    Screenshot of the toggle for automatic mapping turned on.

    Uwaga

    Ewolucja schematu działa tylko wtedy, gdy przełącznik Mapy automatyczne jest włączony. Aby dowiedzieć się, jak edytować mapowania kolumn lub dołączać przekształcenia, zobacz Przechwytywanie zmienionych danych przy użyciu zasobu przechwytywania zmian danych.

  15. Wybierz link Klucze, a następnie wybierz kolumnę Klucze, która ma być używana do śledzenia operacji usuwania.

    Screenshot of the link to enable Keys column selection.

    Screenshot of selecting a Keys column for the selected source.

  16. Po zakończeniu mapowania ustaw opóźnienie cdC przy użyciu przycisku Ustaw opóźnienie .

    Screenshot of the Set Latency button at the top of the canvas.

  17. Wybierz opóźnienie usługi CDC, a następnie wybierz pozycję Zastosuj , aby wprowadzić zmiany.

    Domyślnie opóźnienie jest ustawione na 15 minut. W przykładzie w tym artykule użyto opcji czasu rzeczywistego dla opóźnienia. Opóźnienie w czasie rzeczywistym stale pobiera zmiany w danych źródłowych w odstępach czasu krótszym niż 1 minuta.

    W przypadku innych opóźnień (na przykład jeśli wybierzesz 15 minut), przechwytywanie zmian spowoduje przetworzenie danych źródłowych i odebranie wszelkich zmienionych danych od czasu ostatniego przetworzenia.

    Screenshot of the options for setting latency.

  18. Po zakończeniu konfigurowania usługi CDC wybierz pozycję Opublikuj wszystko , aby opublikować zmiany.

    Screenshot of the publish button at the top of the canvas.

    Uwaga

    Jeśli nie opublikujesz zmian, nie będzie można uruchomić zasobu usługi CDC. Przycisk Uruchom w następnym kroku będzie niedostępny.

  19. Wybierz pozycję Rozpocznij , aby rozpocząć uruchamianie przechwytywania danych zmian.

    Screenshot of the Start button at the top of the canvas.

Teraz, gdy przechwytywanie zmian danych jest uruchomione, możesz:

  • Użyj strony monitorowania, aby zobaczyć, ile zmian (wstawiania, aktualizowania lub usuwania) zostało odczytanych i zapisanych wraz z innymi informacjami diagnostycznymi.

    Screenshot of the monitoring page of a selected change data capture.

    Screenshot of the monitoring page of a selected change data capture with a detailed view.

  • Sprawdź, czy dane zmiany dotarły do usługi Delta Lake przechowywanej w usłudze Azure Data Lake Storage Gen2 w formacie delta.

    Screenshot of a target Delta folder.

  • Zweryfikuj schemat przybyłych danych zmiany.

    Screenshot of a Delta file.

Wprowadzanie dynamicznych zmian na poziomie schematu w tabelach źródłowych

  1. Dodaj nową kolumnę PersonalEmail do tabeli źródłowej przy użyciu ALTER TABLE instrukcji języka T-SQL, jak pokazano w poniższym przykładzie.

    Screenshot of the ALTER command in Azure Data Studio.

  2. Sprawdź, czy nowa kolumna PersonalEmail jest wyświetlana w istniejącej tabeli.

    Screenshot of a new table design with a column added for personal email.

Weryfikowanie zmian schematu w ujściu delty

Upewnij się, że nowa kolumna PersonalEmail jest wyświetlana w ujściu delty. Teraz wiesz, że zmiany danych ze zmianami schematu dotarły do miejsca docelowego.

Screenshot of a Delta file with a schema change.