Samla in ändrade data från Azure Data Lake Storage Gen2 till Azure SQL Database med hjälp av en resurs för insamling av ändringsdata

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

I den här artikeln använder du Användargränssnittet för Azure Data Factory för att skapa en CDC-resurs (Change Data Capture). Resursen hämtar ändrade data från en Azure Data Lake Storage Gen2-källa och lägger till dem i Azure SQL Database i realtid.

I den här artikeln kan du se hur du:

  • Skapa en CDC-resurs.
  • Övervaka CDC-aktivitet.

Du kan ändra och expandera konfigurationsmönstret i den här artikeln.

Förutsättningar

Innan du påbörjar procedurerna i den här artikeln kontrollerar du att du har följande resurser:

  • Azure-prenumeration. Om du inte har en Azure-prenumeration skapar du ett kostnadsfritt Azure-konto.
  • SQL-databas. Du använder Azure SQL Database som källdatalager. Om du inte har någon SQL-databas skapar du en i Azure-portalen.
  • Lagringskonto. Du använder Delta Lake som lagras i Azure Data Lake Storage Gen2 som måldatalager. Om du inte har något lagringskonto kan du läsa Skapa ett lagringskonto för stegen för att skapa ett.

Skapa en CDC-artefakt

  1. Gå till fönstret Författare i datafabriken. Under Pipelines visas en ny artefakt på toppnivå med namnet Change Data Capture (förhandsversion).

    Screenshot of a new top-level artifact for change data capture on the Factory Resources pane.

  2. Hovra över Ändra datainsamling (förhandsversion) tills tre punkter visas. Välj sedan Ändra datainsamlingsåtgärder (förhandsversion).

    Screenshot of the button for change data capture actions appearing over the new top-level artifact.

  3. Välj Ny CDC (förhandsversion). Det här steget öppnar en utfällning för att påbörja den guidade processen.

    Screenshot of a list of change data capture actions.

  4. Du uppmanas att namnge din CDC-resurs. Som standard är namnet "adfcdc" med ett tal som ökar med 1. Du kan ersätta det här standardnamnet med ett namn som du väljer.

    Screenshot of the text box to update the name of a resource.

  5. Använd listrutan för att välja din datakälla. I den här artikeln väljer du Avgränsadtext.

    Screenshot of the guided process flyout with source options in a dropdown list.

  6. Du uppmanas att välja en länkad tjänst. Skapa en ny länkad tjänst eller välj en befintlig.

    Screenshot of the box to choose or create a linked service.

  7. Använd området Källinställningar om du vill ange avancerade källkonfigurationer, inklusive kolumn- och radavgränsare.

    Screenshot of advanced source settings to set delimiters.

    Om du inte redigerar dessa källinställningar manuellt är de inställda på standardinställningarna.

  8. Använd knappen Bläddra för att välja källdatamappen.

    Screenshot of a folder icon to browse for a folder path.

  9. När du har valt en mappsökväg väljer du Fortsätt för att ange datamålet.

    Screenshot of the Continue button in the guided process to select data targets.

    Du kan välja att lägga till flera källmappar med hjälp av plusknappen (+). De andra källorna måste också använda samma länkade tjänst som du redan har valt.

  10. Välj ett värde för måltyp med hjälp av listrutan. I den här artikeln väljer du Azure SQL Database.

    Screenshot of a dropdown menu of all data target types.

  11. Du uppmanas att välja en länkad tjänst. Skapa en ny länkad tjänst eller välj en befintlig.

    Screenshot of the box to choose or create a linked service to your data target.

  12. För Måltabeller kan du skapa en ny måltabell eller välja en befintlig:

    • Om du vill skapa en måltabell väljer du fliken Nya entiteter och väljer sedan Redigera nya tabeller.

      Screenshot of the tab to create new tables for your target.

    • Välj en befintlig tabell genom att välja fliken Befintliga entiteter och sedan använda kryssrutan för att välja en tabell. Använd förhandsgranskningsknappen för att visa dina tabelldata.

      Screenshot of the tab to choose tables for your target.

    Om befintliga tabeller på målet har matchande namn väljs de som standard under Befintliga entiteter. Annars skapas nya tabeller med matchande namn under Nya entiteter. Dessutom kan du redigera nya tabeller med hjälp av knappen Redigera nya tabeller .

  13. Du kan använda kryssrutorna för att välja flera måltabeller från SQL-databasen. När du har valt måltabeller väljer du Fortsätt.

    Screenshot of the Continue button in the guided process to proceed to the next step.

  14. En ny flik för att samla in ändringsdata visas. Den här fliken är CDC Studio, där du kan konfigurera din nya resurs.

    Screenshot of the change data capture studio.

    En ny mappning skapas automatiskt åt dig. Du kan uppdatera källtabell- och måltabellvalen för din mappning med hjälp av listrutorna.

    Screenshot of the source-to-target mapping in the change data capture studio.

  15. När du har valt dina tabeller mappas deras kolumner som standard med växlingsknappen Automatisk mappning aktiverad. Automatisk mappning mappar automatiskt kolumnerna efter namn i mottagaren, hämtar nya kolumnändringar när källschemat utvecklas och flödar den här informationen till de mottagartyper som stöds.

    Om du vill använda automatisk mappning och inte ändra några kolumnmappningar går du direkt till steg 18.

    Screenshot of the toggle for automatic mapping turned on.

    Om du vill aktivera kolumnmappningarna väljer du mappningarna och inaktiverar växlingsknappen Automatisk mappning . Välj sedan knappen Kolumnmappningar för att visa mappningarna.

    Screenshot of mapping selection, the toggle for automatic mapping turned off, and the button for column mappings.

    Du kan växla tillbaka till automatisk mappning när som helst genom att aktivera växlingsknappen Automatisk karta .

  16. Visa dina kolumnmappningar. Använd listrutorna för att redigera dina kolumnmappningar för mappningsmetod, källkolumn och målkolumn.

    Screenshot of the page for editing column mappings.

    Från den här sidan kan du:

    • Lägg till fler kolumnmappningar med knappen Ny mappning . Använd listrutorna för att göra val för mappningsmetod, källkolumn och målkolumn.
    • Välj kolumnen Nycklar om du vill spåra borttagningsåtgärden för mottagartyper som stöds.
    • Välj knappen Uppdatera under Dataförhandsgranskning för att visualisera hur data ser ut på målet.

    Screenshot of the button for adding column mappings, the dropdown list for mapping methods, the Keys column, and the Refresh button.

  17. När mappningen är klar väljer du pilknappen för att återgå till huvudarbetsytan för CDC.

    Screenshot of the button to go back to the table mapping page.

  18. Du kan lägga till fler käll-till-mål-mappningar i en CDC-artefakt. Använd knappen Redigera för att lägga till fler datakällor och mål. Välj sedan Ny mappning och använd listrutorna för att ange en ny källa och ett nytt mål. Du kan aktivera eller inaktivera automatisk mappning för var och en av dessa mappningar oberoende av varandra.

    Screenshot of the button to add new sources and the button to set a new source-to-target mapping.

  19. När dina mappningar har slutförts anger du CDC-svarstiden med hjälp av knappen Ange svarstid .

    Screenshot of the Set Latency button at the top of the canvas.

  20. Välj svarstiden för CDC och välj sedan Tillämpa för att göra ändringarna.

    Som standard är svarstiden inställd på 15 minuter. I exemplet i den här artikeln används alternativet Realtid för svarstid. Svarstid i realtid hämtar kontinuerligt ändringar i källdata i intervall på mindre än 1 minut.

    För andra svarstider (till exempel om du väljer 15 minuter) bearbetas källdata och eventuella ändrade data hämtas sedan den senaste bearbetade tiden.

    Screenshot of the options for setting latency.

    Kommentar

    Om stödet utökas till direktuppspelningsdataintegrering (Azure Event Hubs och Kafka-datakällor) ställs svarstiden in på Realtid som standard.

  21. När du har konfigurerat CDC väljer du Publicera alla för att publicera ändringarna.

    Screenshot of the publish button at the top of the canvas.

    Kommentar

    Om du inte publicerar ändringarna kan du inte starta CDC-resursen. Knappen Start i nästa steg är inte tillgänglig.

  22. Välj Starta för att börja köra insamlingen av ändringsdata.

    Screenshot of the Start button at the top of the canvas.

Övervaka infångade ändringsdata

  1. Öppna fönstret Övervaka med någon av följande metoder:

    • Välj Övervaka i Azure-portalen.

      Screenshot of the Monitor button in the Azure portal.

    • Välj övervakningsikonen från CDC-designern.

      Screenshot of the monitoring icon at the top of the CDC canvas.

  2. Välj Ändra datainsamling (förhandsversion) för att visa dina CDC-resurser.

    Screenshot of the Change Data Capture button.

    Fönstret Hämta ändringsdata visar information om källa, mål, status och senast bearbetad information för insamling av ändringsdata.

    Screenshot of an overview of the change data capture monitoring page.

  3. Välj namnet på DIN CDC för att se mer information. Du kan se hur många ändringar (infoga, uppdatera eller ta bort) som har lästs och skrivits tillsammans med annan diagnostikinformation.

    Screenshot of the detailed monitoring of a selected change data capture.

    Om du konfigurerar flera mappningar i din ändringsdatainsamling visas varje mappning som en annan färg. Välj fältet för att se specifik information för varje mappning eller använd diagnostikinformationen längst ned i fönstret.

    Screenshot of the detailed monitoring information for a change data capture with multiple source-to-target mappings.

    Screenshot of a detailed breakdown of each mapping in a change data capture artifact.