De prestaties en herbruikbaarheid verbeteren door gegevens opnemen te scheiden van gegevenstransformatiegegevensstromen

Een van de best practices voor implementaties van gegevensstromen is het scheiden van de verantwoordelijkheden van gegevensstromen in twee lagen: gegevens opnemen en gegevenstransformatie. Dit patroon is specifiek nuttig wanneer u te maken hebt met meerdere query's van tragere gegevensbronnen in één gegevensstroom of meerdere gegevensstromen die query's uitvoeren op dezelfde gegevensbronnen. In plaats van telkens opnieuw gegevens op te halen uit een trage gegevensbron voor elke query, kan het gegevens opnameproces één keer worden uitgevoerd en kan de transformatie boven op dat proces worden uitgevoerd. In dit artikel wordt het proces uitgelegd.

On-premises gegevensbron

In veel scenario's is de on-premises gegevensbron een trage gegevensbron. Met name gezien het feit dat de gateway bestaat als de middelste laag tussen de gegevensstroom en de gegevensbron.

Gegevens rechtstreeks uit de on-premises gegevensbron verkrijgen.

Het gebruik van analytische gegevensstromen voor gegevensingestie minimaliseert het gegevensproces van de bron en is gericht op het laden van gegevens naar Azure Data Lake Storage. In de opslag kunnen andere gegevensstromen worden gemaakt die gebruikmaken van de uitvoer van de opnamegegevensstroom. De gegevensstroomengine kan de gegevens lezen en de transformaties rechtstreeks vanuit de data lake, zonder contact op te nemen met de oorspronkelijke gegevensbron of gateway.

Gegevens opnamegegevensstroom.

Trage gegevensbron

Hetzelfde proces is geldig wanneer een gegevensbron traag is. Sommige SaaS-gegevensbronnen (Software as a Service) presteren traag vanwege de beperkingen van hun API-aanroepen.

Scheiding van de gegevens opname- en gegevenstransformatiegegevensstromen

De scheiding van de twee lagen gegevens opname en transformatie is nuttig in de scenario's — — waarin de gegevensbron traag is. Het helpt de interactie met de gegevensbron te minimaliseren.

Deze scheiding is niet alleen nuttig vanwege de prestatieverbetering, maar ook voor de scenario's waarin een oud verouderd gegevensbronsysteem is gemigreerd naar een nieuw systeem. In dergelijke gevallen hoeven alleen de gegevensstromen voor gegevens opnemen te worden gewijzigd. De gegevensstromen voor gegevenstransformatie blijven intact voor dit type wijziging.

De gegevensbron wijzigen.

Hergebruik in andere hulpprogramma's en services

Scheiding van gegevensgegevensstromen van gegevenstransformatiegegevensstromen is handig in veel scenario's. Een ander use-casescenario voor dit patroon is wanneer u deze gegevens wilt gebruiken in andere hulpprogramma's en services. Voor dit doel is het beter om analytische gegevensstromen te gebruiken en uw eigen Data Lake-Storage als de opslagen engine. Meer informatie: Analytische gegevensstromen

De gegevensstroom voor gegevens opnemen optimaliseren

Overweeg waar mogelijk de gegevensstroom voor gegevensingestie te optimaliseren. Als bijvoorbeeld niet alle gegevens uit de bron nodig zijn en de gegevensbron ondersteuning biedt voor het vouwen van query's, is het filteren van gegevens en het verkrijgen van slechts een vereiste subset een goede benadering. Ga voor meer informatie over query folding naar Power Query query folding.

Gegevensstromen voor gegevens opname maken als analytische gegevensstromen

U kunt uw gegevensgegevensstromen maken als analytische gegevensstromen. Dit helpt met name andere services en toepassingen om deze gegevens te gebruiken. Dit maakt het ook eenvoudiger voor de gegevenstransformatiegegevensstromen om gegevens op te halen uit de analytische opnamegegevensstroom. Ga naar Analytische gegevensstromen voor meer informatie.