Gegevensopname wijzigen in Azure Data Factory en Azure Synapse Analytics

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

In dit artikel wordt het vastleggen van wijzigingen van gegevens (CDC) in Azure Data Factory beschreven.

Zie overzicht van Azure Data Factory of Overzicht van Azure Synapse voor meer informatie.

Overzicht

Wanneer u gegevensintegratie en ETL-processen uitvoert in de cloud, kunnen uw taken beter en effectiever worden uitgevoerd wanneer u alleen de brongegevens leest die zijn gewijzigd sinds de laatste keer dat de pijplijn werd uitgevoerd, in plaats van altijd een query uit te voeren op een volledige gegevensset bij elke uitvoering. ADF biedt meerdere manieren om eenvoudig deltagegevens op te halen uit de laatste uitvoering.

Data Capture Factory-resource wijzigen

De eenvoudigste en snelste manier om aan de slag te gaan in data factory met CDC, is via de resource Change Data Capture op fabrieksniveau. Klik in de ontwerpfunctie voor pijplijnen op Nieuw onder Factory-resources om een nieuwe wijzigingsgegevensopname te maken. De CDC Factory-resource biedt een stapsgewijze configuratie-ervaring waarin u uw bronnen en bestemmingen kunt selecteren, optionele transformaties kunt toepassen en vervolgens kunt klikken om te beginnen met het vastleggen van gegevens. Met de CDC-resource hoeft u geen pijplijnen of gegevensstroomactiviteiten te ontwerpen. U wordt ook alleen gefactureerd voor vier kernen van algemene gegevensstromen terwijl uw gegevens worden verwerkt. U kunt een voorkeurslatentie instellen, die ADF gebruikt om wakker te worden en te zoeken naar gewijzigde gegevens. Dat is de enige keer dat je gefactureerd wordt. De CDC-resource op het hoogste niveau is ook de ADF-methode voor het continu uitvoeren van uw processen. Pijplijnen in ADF zijn alleen batches, maar de CDC-resource kan continu worden uitgevoerd.

Systeemeigen wijzigingsgegevens vastleggen in toewijzingsgegevensstroom

De gewijzigde gegevens, waaronder ingevoegde, bijgewerkte en verwijderde rijen, kunnen automatisch worden gedetecteerd en geëxtraheerd door de ADF-toewijzingsgegevensstroom uit de brondatabases. Er zijn geen tijdstempel- of id-kolommen vereist om de wijzigingen te identificeren, omdat deze gebruikmaakt van de systeemeigen technologie voor gegevensopname van wijzigingen in de databases. Door een brontransformatie en een sinktransformatie te koppelen aan een databasegegevensset in een toewijzingsgegevensstroom, kunt u zien dat de wijzigingen in de brondatabase automatisch worden toegepast op de doeldatabase, zodat u eenvoudig gegevens tussen twee tabellen kunt synchroniseren. U kunt ook transformaties tussen elke bedrijfslogica toevoegen om de deltagegevens te verwerken. Wanneer u de sinkgegevensbestemming definieert, kunt u invoeg-, update-, upsert- en verwijderbewerkingen instellen in uw sink zonder dat hiervoor een alter row-transformatie nodig is, omdat ADF de rijmakers automatisch kan detecteren.

Ondersteunde connectors

Automatische incrementele extractie in toewijzingsgegevensstroom

De zojuist bijgewerkte rijen of bijgewerkte bestanden kunnen automatisch worden gedetecteerd en geëxtraheerd door de ADF-toewijzingsgegevensstroom uit de bronarchieven. Wanneer u deltagegevens uit de databases wilt ophalen, is de incrementele kolom vereist om de wijzigingen te identificeren. Wanneer u nieuwe bestanden of bijgewerkte bestanden alleen vanuit een opslagarchief wilt laden, werkt de ADF-toewijzingsgegevensstroom alleen via de laatste wijzigingstijd van bestanden.

Ondersteunde connectors

Door de klant beheerde deltagegevensextractie in pijplijn

U kunt altijd uw eigen pijplijn voor deltagegevensextractie bouwen voor alle door ADF ondersteunde gegevensarchieven, waaronder het gebruik van opzoekactiviteit om de grenswaarde op te halen die is opgeslagen in een externe besturingstabel, kopieeractiviteit of toewijzingsgegevensstroomactiviteit om de deltagegevens op te vragen op basis van tijdstempel of id-kolom, en SP-activiteit om de nieuwe watermerkwaarde terug te schrijven naar uw externe besturingstabel voor de volgende uitvoering. Wanneer u alleen nieuwe bestanden wilt laden uit een opslagarchief, kunt u bestanden verwijderen telkens nadat ze naar het doel zijn verplaatst, of de tijd die is gepartitioneerd, of de tijd die is gepartitioneerd of de laatste wijzigingstijd gebruiken om de nieuwe bestanden te identificeren.

Beste praktijken

Gegevens vastleggen uit databases wijzigen

  • Het vastleggen van systeemeigen wijzigingsgegevens wordt altijd aanbevolen als de eenvoudigste manier om wijzigingsgegevens op te halen. Het brengt ook veel minder belasting met zich mee voor uw brondatabase wanneer ADF de wijzigingsgegevens extraheert voor verdere verwerking.
  • Als uw databasearchieven geen deel uitmaken van de ADF-connectorlijst met systeemeigen ondersteuning voor het vastleggen van wijzigingsgegevens, raden we u aan om de optie voor automatische incrementele extractie te controleren, waarbij u alleen incrementele kolom hoeft in te voeren om de wijzigingen vast te leggen. ADF zorgt voor de rest, waaronder het maken van een dynamische query voor het laden van delta's en het beheren van het controlepunt voor elke activiteitsuitvoering.
  • Door de klant beheerde deltagegevensextractie in de pijplijn heeft betrekking op alle door ADF ondersteunde databases en biedt u de flexibiliteit om alles zelf te beheren.

Bestanden vastleggen wijzigen vanuit opslag op basis van bestanden

  • Wanneer u gegevens wilt laden uit Azure Blob Storage, Azure Data Lake Storage Gen2 of Azure Data Lake Storage Gen1, kunt u met één klik nieuwe of bijgewerkte bestanden ophalen. Het is de eenvoudigste en aanbevolen manier om deltabelasting te bereiken vanuit deze op bestanden gebaseerde opslag in de toewijzingsgegevensstroom.
  • U kunt meer aanbevolen procedures krijgen.

Controlepunt

Wanneer u systeemeigen opties voor het vastleggen van wijzigingen of automatische incrementele extractieopties inschakelt in de ADF-toewijzingsgegevensstroom, helpt ADF u bij het beheren van het controlepunt om ervoor te zorgen dat elke activiteitsuitvoering automatisch alleen de brongegevens leest die zijn gewijzigd sinds de laatste keer dat de pijplijn wordt uitgevoerd. Standaard is het controlepunt gekoppeld aan de naam van uw pijplijn en activiteit. Als u de naam of activiteitsnaam van uw pijplijn wijzigt, wordt het controlepunt opnieuw ingesteld. Dit leidt ertoe dat u begint vanaf het begin of wijzigingen krijgt vanaf nu in de volgende uitvoering. Als u de naam van de pijplijn of activiteit wilt wijzigen, maar het controlepunt toch wilt behouden om automatisch gewijzigde gegevens op te halen uit de laatste uitvoering, gebruikt u uw eigen controlepuntsleutel in de gegevensstroomactiviteit om dat te bereiken. De naamgevingsregel van uw eigen controlepuntsleutel is hetzelfde als gekoppelde services, gegevenssets, pijplijnen en gegevensstromen.

Wanneer u fouten in de pijplijn opssport, werkt deze functie hetzelfde. Het controlepunt wordt opnieuw ingesteld wanneer u uw browser vernieuwt tijdens de uitvoering van foutopsporing. Nadat u tevreden bent met het resultaat van de foutopsporingsuitvoering, kunt u doorgaan met het publiceren en activeren van de pijplijn. Op het moment dat u de gepubliceerde pijplijn voor het eerst activeert, wordt deze automatisch opnieuw opgestart vanaf het begin of worden er vanaf nu wijzigingen doorgevoerd.

In de sectie Bewaking hebt u altijd de mogelijkheid om een pijplijn opnieuw uit te voeren. Wanneer u dit doet, worden de gewijzigde gegevens altijd vastgelegd vanaf het vorige controlepunt van de geselecteerde pijplijnuitvoering.

Zelfstudies

Hieronder volgen de zelfstudies voor het starten van het vastleggen van wijzigingsgegevens in Azure Data Factory en Azure Synapse Analytics.

Sjablonen

Hier volgen de sjablonen voor het gebruik van de wijzigingsgegevensopname in Azure Data Factory en Azure Synapse Analytics.