Ändra datainsamling i Azure Data Factory och Azure Synapse Analytics

Artikel
12/09/2023

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

Den här artikeln beskriver CDC (Change Data Capture) i Azure Data Factory.

Mer information finns i Översikt över Azure Data Factory eller Översikt över Azure Synapse.

Översikt

När du utför dataintegrering och ETL-processer i molnet kan dina jobb fungera bättre och vara effektivare när du bara läser källdata som har ändrats sedan den senaste gången pipelinen kördes, i stället för att alltid köra frågor mot en hel datauppsättning på varje körning. ADF erbjuder flera olika sätt för dig att enkelt hämta deltadata från den senaste körningen.

Ändra datainsamlingsfabriksresurs

Det enklaste och snabbaste sättet att komma igång i datafabriken med CDC är via resursen Change Data Capture på fabriksnivå. Från huvuddesignern för pipelinen klickar du på Nytt under Fabriksresurser för att skapa en ny ändringsdatainsamling. CDC-fabriksresursen ger en genomgång av konfigurationen där du kan välja dina källor och mål, tillämpa valfria transformeringar och sedan klicka på Starta för att påbörja datainsamlingen. Med CDC-resursen behöver du inte utforma pipelines eller dataflödesaktiviteter. Du debiteras också endast för fyra kärnor av dataflöden för generell användning medan dina data bearbetas. Du kan ange en önskad svarstid som ADF använder för att aktivera och leta efter ändrade data. Det är den enda gången du debiteras. CDC-resursen på den översta nivån är också ADF-metoden för att köra dina processer kontinuerligt. Pipelines i ADF är endast batch, men CDC-resursen kan köras kontinuerligt.

Intern ändringsdatainsamling i mappning av dataflöde

Ändrade data inklusive infogade, uppdaterade och borttagna rader kan identifieras automatiskt och extraheras av ADF-mappningsdataflödet från källdatabaserna. Inga tidsstämpel- eller ID-kolumner krävs för att identifiera ändringarna eftersom den använder den inbyggda datainsamlingstekniken för ändringar i databaserna. Genom att helt enkelt länka en källtransformering och en referens för mottagartransformering till en databasdatauppsättning i ett mappningsdataflöde kan du se att ändringarna i källdatabasen tillämpas automatiskt på måldatabasen, så att du enkelt kan synkronisera data mellan två tabeller. Du kan också lägga till eventuella transformeringar däremellan för affärslogik för att bearbeta deltadata. När du definierar mål för mottagardata kan du ange åtgärder för att infoga, uppdatera, upsert och ta bort i mottagaren utan att behöva ändra radomvandlingen eftersom ADF automatiskt kan identifiera radskaparna.

Anslutningsappar som stöds

Automatisk inkrementell extrahering i mappning av dataflöde

De nyligen uppdaterade raderna eller uppdaterade filerna kan identifieras automatiskt och extraheras av ADF-mappningsdataflödet från källarkiven. När du vill hämta deltadata från databaserna krävs den inkrementella kolumnen för att identifiera ändringarna. När du bara vill läsa in nya filer eller uppdaterade filer från ett lagringslager fungerar ADF-mappningsdataflödet genom filernas senaste ändringstid.

Anslutningsappar som stöds

Extrahering av kundhanterade deltadata i pipeline

Du kan alltid skapa en egen pipeline för extrahering av deltadata för alla datalager som stöds av ADF, inklusive att använda uppslagsaktivitet för att hämta vattenstämpelvärdet som lagras i en extern kontrolltabell, kopiera aktivitet eller mappa dataflödesaktivitet för att köra frågor mot deltadata mot tidsstämpeln eller ID-kolumnen och SP-aktiviteten för att skriva tillbaka det nya vattenstämpelvärdet till den externa kontrolltabellen för nästa körning. När du bara vill läsa in nya filer från ett lagringslager kan du antingen ta bort filer varje gång efter att de har flyttats till målet, eller utnyttja den tid partitionerade mappen eller filnamnen eller senast ändrade tiden för att identifiera de nya filerna.

Metodtips

Ändra datainsamling från databaser

Intern datainsamling rekommenderas alltid som det enklaste sättet för dig att hämta ändringsdata. Det medför också mycket mindre belastning på källdatabasen när ADF extraherar ändringsdata för vidare bearbetning.
Om dina databaslager inte ingår i ADF-anslutningslistan med inbyggt stöd för insamling av ändringsdata rekommenderar vi att du kontrollerar alternativet för automatisk inkrementell extrahering där du bara behöver ange inkrementell kolumn för att samla in ändringarna. ADF tar hand om resten, inklusive att skapa en dynamisk fråga för deltainläsning och hantera kontrollpunkten för varje aktivitetskörning.
Extrahering av kundhanterade deltadata i pipeline omfattar alla databaser som stöds av ADF och ger dig flexibiliteten att styra allt själv.

Ändra filer som avbildas från filbaserade lagringsplatser

När du vill läsa in data från Azure Blob Storage, Azure Data Lake Storage Gen2 eller Azure Data Lake Storage Gen1 ger mappning av dataflödet möjlighet att bara hämta nya eller uppdaterade filer med ett enda klick. Det är det enklaste och rekommenderade sättet för dig att uppnå deltabelastning från dessa filbaserade lagringar i mappning av dataflöde.
Du kan få fler metodtips.

Checkpoint

När du aktiverar inbyggda alternativ för insamling av inbyggda ändringsdata eller automatisk inkrementell extrahering i ADF-mappningsdataflödet hjälper ADF dig att hantera kontrollpunkten för att se till att varje aktivitetskörning automatiskt bara läser källdata som har ändrats sedan den senaste gången pipelinekörningen. Som standard är kontrollpunkten kopplad till din pipeline och ditt aktivitetsnamn. Om du ändrar pipelinens namn eller aktivitetsnamn återställs kontrollpunkten, vilket leder till att du börjar från början eller hämtar ändringar från och med nu i nästa körning. Om du vill ändra pipelinenamnet eller aktivitetsnamnet men ändå behålla kontrollpunkten för att hämta ändrade data från den senaste körningen automatiskt använder du din egen kontrollpunktsnyckel i dataflödesaktiviteten för att uppnå detta. Namngivningsregeln för din egen kontrollpunktsnyckel är samma som länkade tjänster, datauppsättningar, pipelines och dataflöden.

När du felsöker pipelinen fungerar den här funktionen på samma sätt. Kontrollpunkten återställs när du uppdaterar webbläsaren under felsökningskörningen. När du är nöjd med pipelineresultatet från felsökningskörningen kan du publicera och utlösa pipelinen. När du första gången utlöser den publicerade pipelinen startas den automatiskt om från början eller hämtar ändringar från och med nu.

I övervakningsavsnittet har du alltid chansen att köra en pipeline igen. När du gör det registreras alltid ändrade data från den tidigare kontrollpunkten för den valda pipelinekörningen.

Självstudier

Följande är självstudierna för att starta insamlingen av ändringsdata i Azure Data Factory och Azure Synapse Analytics.

Mallar

Följande är mallarna för att använda ändringsdatainsamlingen i Azure Data Factory och Azure Synapse Analytics.

Replikera flera objekt från SAP via SAP CDC

Lär dig hur du använder kontrollpunktsnyckeln i dataflödesaktiviteten.
Lär dig mer om resursen för ADF-ändringsdatainsamling.
Gå igenom att skapa en CDC-artefakt på toppnivå.