Zachycení změněná data z Azure Data Lake Storage Gen2 na Azure SQL Database pomocí prostředku pro zachytávání dat změn

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto článku použijete uživatelské rozhraní služby Azure Data Factory k vytvoření prostředku CDC (Change Data Capture). Prostředek převezme změněná data ze zdroje Azure Data Lake Storage Gen2 a přidá je do Služby Azure SQL Database v reálném čase.

V tomto článku získáte informace o těchto tématech:

  • Vytvořte prostředek CDC.
  • Monitorujte aktivitu CDC.

Vzor konfigurace můžete upravit a rozšířit v tomto článku.

Požadavky

Než začnete s postupy v tomto článku, ujistěte se, že máte tyto zdroje informací:

  • Předplatné Azure. Pokud nemáte předplatné Azure, vytvořte si bezplatný účet Azure.
  • Databáze SQL. Azure SQL Database použijete jako zdrojové úložiště dat. Pokud databázi SQL nemáte, vytvořte ji na webu Azure Portal.
  • Účet úložiště. Delta Lake uložené v Azure Data Lake Storage Gen2 použijete jako cílové úložiště dat. Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu úložiště pro postup jeho vytvoření.

Vytvoření artefaktu CDC

  1. Přejděte do podokna Autor ve vaší datové továrně. Pod kanály se zobrazí nový artefakt nejvyšší úrovně s názvem Change Data Capture (Preview).

    Screenshot of a new top-level artifact for change data capture on the Factory Resources pane.

  2. Najeďte myší na Change Data Capture (Preview), dokud se nezobrazí tři tečky. Pak vyberte akce Change Data Capture (Preview).

    Screenshot of the button for change data capture actions appearing over the new top-level artifact.

  3. Vyberte Nový CDC (Preview). Tento krok otevře informační panel pro zahájení procesu s asistencí.

    Screenshot of a list of change data capture actions.

  4. Zobrazí se výzva k pojmenování prostředku CDC. Ve výchozím nastavení je název "adfcdc" s číslem, které se zvýší o 1. Tento výchozí název můžete nahradit zvoleným názvem.

    Screenshot of the text box to update the name of a resource.

  5. V rozevíracím seznamu vyberte zdroj dat. V tomto článku vyberte Oddělovač textu.

    Screenshot of the guided process flyout with source options in a dropdown list.

  6. Zobrazí se výzva k výběru propojené služby. Vytvořte novou propojenou službu nebo vyberte existující službu.

    Screenshot of the box to choose or create a linked service.

  7. Pomocí oblasti Nastavení zdroje můžete volitelně nastavit pokročilé konfigurace zdroje, včetně oddělovačů sloupců a řádků.

    Screenshot of advanced source settings to set delimiters.

    Pokud tato nastavení zdroje ručně neupravíte, nastaví se na výchozí hodnoty.

  8. Pomocí tlačítka Procházet vyberte zdrojová datová složka.

    Screenshot of a folder icon to browse for a folder path.

  9. Po výběru cesty ke složce vyberte Pokračovat a nastavte cíl dat.

    Screenshot of the Continue button in the guided process to select data targets.

    Pomocí tlačítka plus (+) můžete přidat více zdrojových složek. Ostatní zdroje musí také používat stejnou propojenou službu, kterou jste už vybrali.

  10. Pomocí rozevíracího seznamu vyberte hodnotu cílového typu . V tomto článku vyberte Azure SQL Database.

    Screenshot of a dropdown menu of all data target types.

  11. Zobrazí se výzva k výběru propojené služby. Vytvořte novou propojenou službu nebo vyberte existující službu.

    Screenshot of the box to choose or create a linked service to your data target.

  12. U cílových tabulek můžete vytvořit novou cílovou tabulku nebo vybrat existující tabulku:

    • Pokud chcete vytvořit cílovou tabulku, vyberte kartu Nové entity a pak vyberte Upravit nové tabulky.

      Screenshot of the tab to create new tables for your target.

    • Pokud chcete vybrat existující tabulku, vyberte kartu Existující entity a potom pomocí zaškrtávacího políčka vyberte tabulku. K zobrazení dat tabulky použijte tlačítko Náhled.

      Screenshot of the tab to choose tables for your target.

    Pokud existující tabulky v cíli mají odpovídající názvy, jsou ve výchozím nastavení vybrány v části Existující entity. Pokud ne, vytvoří se nové tabulky s odpovídajícími názvy v části Nové entity. Kromě toho můžete nové tabulky upravovat pomocí tlačítka Upravit nové tabulky .

  13. Zaškrtávací políčka můžete použít k výběru více cílových tabulek z databáze SQL. Po dokončení výběru cílových tabulek vyberte Pokračovat.

    Screenshot of the Continue button in the guided process to proceed to the next step.

  14. Zobrazí se nová karta pro zachytávání dat změn. Tato karta je studio CDC, kde můžete nakonfigurovat nový prostředek.

    Screenshot of the change data capture studio.

    Nové mapování se automaticky vytvoří za vás. Výběry zdrojové tabulky a cílové tabulky pro mapování můžete aktualizovat pomocí rozevíracích seznamů.

    Screenshot of the source-to-target mapping in the change data capture studio.

  15. Po výběru tabulek se jejich sloupce ve výchozím nastavení mapují zapnutým přepínačem Automatické mapování . Automatické mapování automaticky mapuje sloupce podle názvu v jímce, při vývoji zdrojového schématu převezme nové změny sloupců a tyto informace se přetáčí do podporovaných typů jímky.

    Pokud chcete použít automatické mapování a nechcete měnit mapování sloupců, přejděte přímo ke kroku 18.

    Screenshot of the toggle for automatic mapping turned on.

    Pokud chcete povolit mapování sloupců, vyberte mapování a vypněte přepínač Automatické mapování . Pak výběrem tlačítka Mapování sloupců zobrazte mapování.

    Screenshot of mapping selection, the toggle for automatic mapping turned off, and the button for column mappings.

    Automatické mapování můžete kdykoli přepnout zpět na automatické mapování zapnutím přepínače Automatické mapování .

  16. Umožňuje zobrazit mapování sloupců. Pomocí rozevíracích seznamů můžete upravit mapování sloupců pro metodu Mapování, zdrojový sloupec a cílový sloupec.

    Screenshot of the page for editing column mappings.

    Z této stránky můžete:

    • Přidejte další mapování sloupců pomocí tlačítka Nové mapování . Pomocí rozevíracích seznamů můžete vybrat metodu mapování, zdrojový sloupec a cílový sloupec.
    • Pokud chcete sledovat operaci odstranění podporovaných typů jímky, vyberte sloupec Klíče.
    • Výběrem tlačítka Aktualizovat v části Náhled dat můžete vizualizovat, jak data vypadají v cíli.

    Screenshot of the button for adding column mappings, the dropdown list for mapping methods, the Keys column, and the Refresh button.

  17. Po dokončení mapování se výběrem tlačítka se šipkou vraťte na hlavní plátno CDC.

    Screenshot of the button to go back to the table mapping page.

  18. Do jednoho artefaktu CDC můžete přidat další mapování zdroje k cíli. Pomocí tlačítka Upravit můžete přidat další zdroje dat a cíle. Pak vyberte Nové mapování a pomocí rozevíracích seznamů nastavte nový zdroj a cíl. Automatické mapování můžete zapnout nebo vypnout pro každé z těchto mapování nezávisle.

    Screenshot of the button to add new sources and the button to set a new source-to-target mapping.

  19. Po dokončení mapování nastavte latenci CDC pomocí tlačítka Nastavit latenci .

    Screenshot of the Set Latency button at the top of the canvas.

  20. Vyberte latenci cdC a pak vyberte Použít , aby se změny udělaly.

    Ve výchozím nastavení je latence nastavená na 15 minut. Příklad v tomto článku používá pro latenci možnost v reálném čase . Latence v reálném čase průběžně přebírá změny ve zdrojových datech v intervalech kratších než 1 minutu.

    V případě jiných latencí (například pokud vyberete 15 minut), bude zachytávání dat změn zpracovávat zdrojová data a vyzvednout všechna změněná data od posledního zpracování času.

    Screenshot of the options for setting latency.

    Poznámka:

    Pokud je podpora rozšířená na integraci streamovaných dat (Azure Event Hubs a zdroje dat Kafka), nastaví se ve výchozím nastavení latence na hodnotu V reálném čase .

  21. Po dokončení konfigurace CDC vyberte Publikovat vše a publikujte provedené změny.

    Screenshot of the publish button at the top of the canvas.

    Poznámka:

    Pokud změny nepublikujete, nebudete moct spustit prostředek CDC. Tlačítko Start v dalším kroku nebude k dispozici.

  22. Vyberte Start a začněte spouštět zachytávání dat změn.

    Screenshot of the Start button at the top of the canvas.

Monitorování zachytávání dat změn

  1. Otevřete podokno Monitorování pomocí některé z těchto metod:

    • Na webu Azure Portal vyberte Monitorovat .

      Screenshot of the Monitor button in the Azure portal.

    • V návrháři CDC vyberte ikonu monitorování.

      Screenshot of the monitoring icon at the top of the CDC canvas.

  2. Výběrem možnosti Change Data Capture (Preview) zobrazíte prostředky CDC.

    Screenshot of the Change Data Capture button.

    V podokně Change Data Capture se zobrazují informace o zdroji, cíli, stavu a naposledy zpracovaných informacích pro zachytávání dat změn.

    Screenshot of an overview of the change data capture monitoring page.

  3. Pokud chcete zobrazit další podrobnosti, vyberte název CDC. Můžete vidět, kolik změn (vložení, aktualizace nebo odstranění) bylo přečteno a zapsáno spolu s dalšími diagnostickými informacemi.

    Screenshot of the detailed monitoring of a selected change data capture.

    Pokud v zachytávání dat změn nastavíte více mapování, každé mapování se zobrazí jako jiná barva. Výběrem panelu zobrazíte konkrétní podrobnosti pro každé mapování nebo použijte diagnostické informace v dolní části podokna.

    Screenshot of the detailed monitoring information for a change data capture with multiple source-to-target mappings.

    Screenshot of a detailed breakdown of each mapping in a change data capture artifact.