Het data factory-proces uitleggen

4 minuten

Gegevensgestuurde werkstromen

De pijplijnen (gegevensgestuurde werkstromen) in Azure Data Factory voeren normaal gesproken de volgende vier stappen uit:

Data Factory process

Verbinding maken en verzamelen

De eerste stap bij het bouwen van een indelingssysteem is het definiëren en verbinden van alle vereiste gegevensbronnen, zoals databases, bestandsshares en FTP-webservices. De volgende stap bestaat uit het opnemen van de gegevens die nodig zijn voor een centrale locatie voor volgende verwerking.

Transformeren en verrijken

Rekenservices zoals Databricks en Machine Learning kunnen worden gebruikt om getransformeerde gegevens voor te bereiden of te produceren volgens een onderhoudbare en gecontroleerde planning voor het voeden van productieomgevingen met opgeschoonde en getransformeerde gegevens. In sommige gevallen kunt u zelfs de brongegevens uitbreiden met aanvullende gegevens om analyse te helpen, of deze consolideren via een normalisatieproces dat als voorbeeld moet worden gebruikt in een Machine Learning-experiment.

Publiceren

Nadat de onbewerkte gegevens zijn verfijnd in een bedrijfsklare verbruiksvorm vanuit de transformatie- en verrijkingsfase, kunt u de gegevens laden in Azure Data Warehouse, Azure SQL Database, Azure Cosmos DB of de analyse-engine waarnaar uw zakelijke gebruikers kunnen verwijzen vanuit hun business intelligence-hulpprogramma's

Bijhouden

Azure Data Factory heeft ingebouwde ondersteuning voor pijplijnbewaking via Azure Monitor, API, PowerShell, Azure Monitor-logboeken en statusvensters in Azure Portal om de geplande activiteiten en pijplijnen te bewaken op succes- en foutpercentages.

Doorgaan

Gegevensgestuurde werkstromen

Verbinding maken en verzamelen

Transformeren en verrijken

Publiceren

Bijhouden

Feedback