Inzicht in Azure Data Factory-onderdelen

Voltooid

Een Azure-abonnement kan een of meer Azure Data Factory-exemplaren hebben. Azure Data Factory bestaat uit vier kernonderdelen. Deze onderdelen werken samen om een platform te bieden waarop u gegevensgestuurde werkstromen kunt maken met stappen voor de verplaatsing en transformatie van gegevens.

Data Factory ondersteunt een groot aantal gegevensbronnen waarmee u verbinding kunt maken door een object te maken dat ook wel een gekoppelde service wordt genoemd, waarmee u de gegevens van een gegevensbron kunt opnemen in gereedheid om de gegevens voor te bereiden op transformatie en/of analyse. Daarnaast kunnen gekoppelde services op aanvraag rekenservices activeren. U moet bijvoorbeeld een HDInsight-cluster op aanvraag starten om alleen gegevens te verwerken via een Hive-query. Met Linked Services kunt u dus gegevensbronnen definiëren of rekenresources definiëren die nodig zijn om gegevens op te nemen en voor te bereiden.

Wanneer de gekoppelde service is gedefinieerd, wordt Azure Data Factory op de hoogte gebracht van de gegevenssets die moeten worden gebruikt door het maken van een Gegevenssets-object . Gegevenssets vertegenwoordigen gegevensstructuren in het gegevensarchief waarnaar wordt verwezen door het object Gekoppelde service. Gegevenssets kunnen ook worden gebruikt door een ADF-object dat een activiteit wordt genoemd.

Activiteiten bevatten doorgaans de transformatielogica of de analyseopdrachten van het werk van Azure Data Factory. Activiteiten omvatten de kopieeractiviteit die kan worden gebruikt voor het opnemen van gegevens uit verschillende gegevensbronnen. Het kan ook de toewijzings-Gegevensstroom bevatten om gegevenstransformaties zonder code uit te voeren. Het kan ook de uitvoering van een opgeslagen procedure, Hive-query of Pig-script omvatten om de gegevens te transformeren. U kunt gegevens naar een Machine Learning-model pushen om analyses uit te voeren. Het is niet ongebruikelijk dat meerdere activiteiten plaatsvinden die gegevens kunnen transformeren met behulp van een op SQL opgeslagen procedure en vervolgens analyses uitvoeren met Databricks. In dit geval kunnen meerdere activiteiten logisch worden gegroepeerd met een object dat wordt aangeduid als een pijplijn, en deze kunnen worden gepland om uit te voeren, of een trigger kan worden gedefinieerd die bepaalt wanneer een pijplijnuitvoering moet worden gestart. Er zijn verschillende soorten triggers voor verschillende soorten gebeurtenissen.

Data Factory Components

Controlestroom is een indeling van pijplijnactiviteiten met ketenactiviteiten in een reeks, vertakking, het definiëren van parameters op pijplijnniveau en het doorgeven van argumenten tijdens het aanroepen van de pijplijn op aanvraag of vanuit een trigger. Het bevat ook containers voor het doorgeven en herhalen van aangepaste statussen en voor elke iterators.

Parameters zijn sleutel-waardeparen van alleen-lezenconfiguratie.  Parameters worden gedefinieerd in de pijplijn. De argumenten voor de gedefinieerde parameters worden doorgegeven tijdens het uitvoeren van de uitvoeringscontext, die wordt gemaakt door een trigger of een pijplijn die handmatig wordt uitgevoerd. Activiteiten binnen de pijplijn gebruiken de parameterwaarden.

Azure Data Factory heeft een integratieruntime waarmee deze een brug kan maken tussen de activiteit en gekoppelde Services-objecten. Er wordt naar verwezen door de gekoppelde service en biedt de rekenomgeving waarop de activiteit wordt uitgevoerd of waaruit deze wordt opgehaald. Op deze manier kan de activiteit in de dichtstbijzijnde regio worden uitgevoerd. Er zijn drie typen Integration Runtime, waaronder Azure, zelf-hostend en Azure-SSIS.

Zodra al het werk is voltooid, kunt u Data Factory gebruiken om de uiteindelijke gegevensset te publiceren naar een andere gekoppelde service die vervolgens kan worden gebruikt door technologieën zoals Power BI of Machine Learning.