Gedeelde en eigendomsgegevens samenvoegen en transformeren met toewijzingsstroom in Azure Data Factory

Voltooid

In een scenario waarin u een gegevensset ontvangt die u moet combineren met uw eigen gegevens, kunt u nadenken over het samenvoegen en transformeren van beide gegevenssets. Hiervoor kunt u de toewijzingsgegevensstroom gebruiken in Azure Data Factory.

In Azure Data Factory kunt u gegevensstromen visueel toewijzen om een gegevenstransformatiestroom te ontwerpen zonder codering. Uw gegevensstromen worden uitgevoerd op door Azure Data Factory beheerde uitvoeringsclusters voor uitgeschaalde gegevensverwerking. Azure Data Factory verwerkt alle codevertalingen, padoptimalisatie en uitvoering van uw gegevensstroomtaken. De resulterende gegevensstromen worden uitgevoerd als activiteiten in Azure Data Factory-pijplijnen die gebruikmaken van uitgeschaalde Apache Spark-clusters. Activiteiten voor gegevensstromen kunnen worden uitgevoerd met behulp van bestaande azure Data Factory-plannings-, controle-, stroom- en bewakingsmogelijkheden.

Als data engineer ontvangt u waarschijnlijk gegevens van verschillende resources en in het eerste geval kunt u deze gegevens opslaan in een Azure Data Lake Storage. Azure Data Share kan worden gebruikt om gegevens van derden of tussenonderdelen te ontvangen.

Als u deze verschillende gegevenssets wilt samenvoegen en aggregeren in het datawarehouse, kunt u de toewijzingsstroom gebruiken. Dit is een visueel ontworpen transformatieservice in Azure Data Factory. Gegevensstromen hebben de mogelijkheid om dingen visueel te ontwerpen, zoals verschillende typen joins, statistische functies via een opbouwfunctie voor expressies, splitsingen, samenvoegingen, zoekacties, schema moderators, rij moderators en sinks. U kunt bijvoorbeeld een inner join maken van een gegevensset die is gedeeld met Azure Data Share. Als u wilt aggregeren, moet u een kolom zoeken die u gaat gebruiken voor de aggregatie en bepaalde velden berekenen om terug te schrijven en naar een Azure Synapse Analytics-tabel te gaan.

Er zijn meer manieren om gegevenssets samen te voegen, maar de meest voorkomende is een inner join. De verschillende jointypen die mogelijk zijn in de toewijzingsgegevensstroom, vindt u hier: jointypen.

Nu u hebt geleerd hoe u gegevenssets kunt samenvoegen, krijgt u in het volgende onderwerp handen om gegevenssets samen te voegen.