Gegevensintegratiepatronen beschrijven

6 minuten

Microsoft Azure biedt verschillende gegevensplatformservices waarmee u verschillende typen analyses kunt uitvoeren. Of het nu gaat om een beschrijvende analyseoplossing in een datawarehouse, tot predictive analytics in HDInsight, Azure Databricks of Machine Learning Services. Er is behoefte aan een service om te kunnen omgaan met het belangrijke aspect van gegevensintegratie.

Gegevensintegratie omvat eerst het verzamelen van gegevens uit een of meer bronnen. Optioneel omvat het meestal een proces waarbij de gegevens kunnen worden opgeschoond en getransformeerd, of misschien uitgebreid met extra gegevens en voorbereid zijn. Ten slotte worden de samengevoegde gegevens opgeslagen in een gegevensplatformservice die het type analyse verwerkt dat u wilt uitvoeren. Dit proces kan worden geautomatiseerd door Azure Data Factory in een patroon dat ETL (Extract, Transform and Load) wordt genoemd.

Extraheren

Tijdens het extractieproces definiëren data-engineers de gegevens en de bijbehorende bron:

Definieer de gegevensbron: identificeer brongegevens, zoals de resourcegroep, het abonnement en identiteitsgegevens, zoals een sleutel of geheim.
Definieer de gegevens: identificeer de gegevens die moeten worden geëxtraheerd. Definieer gegevens met behulp van een databasequery, een set bestanden of een Azure Blob Storage-naam voor blobopslag.

Transformeren

Definieer de gegevenstransformatie: bewerkingen voor gegevenstransformatie kunnen bestaan uit splitsen, combineren, afleiden, toevoegen, verwijderen of draaiende kolommen. Koppel velden tussen de gegevensbron en het gegevensdoel. Mogelijk moet u ook gegevens aggregeren of samenvoegen.

Laden

Definieer het doel: tijdens een belasting kunnen veel Azure-bestemmingen gegevens accepteren die zijn opgemaakt als een JSON (JavaScript Object Notation), bestand of blob. U moet mogelijk ook code schrijven om met toepassings-API's te kunnen werken.

Azure Data Factory biedt ingebouwde ondersteuning voor Azure Functions. U vindt ook ondersteuning voor veel programmeertalen, waaronder Node.js, .NET, Python en Java. Waar vroeger Extensible Markup Language (XML) gebruikelijk was, zijn de meeste systemen naar JSON gemigreerd vanwege de flexibiliteit als semi-gestructureerd gegevenstype.
Start de taak: Test de ETL-taak in een ontwikkel- of testomgeving. Migreer daarna de taak in een productieomgeving om het productiesysteem te laden.
De taak bewaken: ETL-bewerkingen kunnen veel complexe processen omvatten. Stel een proactief en reactief bewakingssysteem in dat informatie geeft wanneer er iets misgaat. Stel logboekregistratie in op basis van de technologie die wordt gebruikt.

ETL-hulpmiddelen

Als data engineer zijn er verschillende beschikbare hulpprogramma's voor ETL. Azure Data Factory biedt bijna 100 bedrijfsconnectors en robuuste resources voor zowel codevrije als op code gebaseerde gebruikers om hun behoeften op het gebied van gegevensverplaatsing en transformatie te realiseren.

Ontwikkeling van ETL

Azure heeft de weg vrijgemaakt voor technologieën die onbeperkt niet-gestructureerde gegevens kunnen verwerken. Door deze wijziging is het model voor het laden en transformeren van gegevens van ETL naar extraheren, laden en transformeren (ELT) verschoven.

Het voordeel van ELT is dat u gegevens kunt opslaan in de oorspronkelijke indeling, of dit nu JSON, XML, PDF- of afbeeldingen betreft. In ELT definieert u de structuur van de gegevens tijdens de transformatiefase, zodat u de brongegevens in meerdere downstreamsystemen kunt gebruiken.

In een ELT-proces worden gegevens geëxtraheerd en in de oorspronkelijke indeling geladen. Deze wijziging verkort de tijd die nodig is om de gegevens in een doelsysteem te laden. De wijziging beperkt ook conflicten tussen resources op de gegevensbronnen.

De stappen voor het ELT-proces zijn dezelfde als het ETL-proces. Ze vinden alleen plaats in een andere volgorde.

Nog een proces dat lijkt op ELT wordt aangeduid met extraheren, laden, transformeren en laden (ELTL). Het verschil met ELTL is dat in dit proces als laatste bewerking gegevens in het doelsysteem worden geladen.

Er zijn twee veelvoorkomende typen gegevensintegratiepatronen die kunnen worden ondersteund door Azure Data Factory.

Modern datawarehouse-workloads:

Een modern datawarehouse is een gecentraliseerd gegevensarchief dat beschrijvende analyse- en beslissingsondersteuningsservices biedt voor de hele onderneming met gestructureerde, ongestructureerde of streaminggegevensbronnen. Gegevens worden periodiek overgebracht naar het datawarehouse van meerdere transactionele systemen, relationele databases en andere gegevensbronnen. De opgeslagen gegevens worden gebruikt voor de rapportage van historische gegevens en van trendanalyses. Het datawarehouse fungeert als een centrale opslagplaats voor vele aandachtsgebieden en bevat één betrouwbare bron.

Azure Data Factory wordt doorgaans gebruikt om het proces van het extraheren, transformeren en laden van de gegevens via een batchproces te automatiseren op gestructureerde en ongestructureerde gegevensbronnen.

Geavanceerde analytische workloads

U kunt geavanceerde analyses uitvoeren in de vorm van voorspellende of preventieve analyses met behulp van een reeks Azure-gegevensplatformservices. Azure Data Factory biedt de integratie van bronsystemen in een Data Lake Store en kan rekenresources zoals Azure Databricks of HDInsight initiëren om de gegevens te gebruiken om de geavanceerde analytische werkzaamheden uit te voeren

Doorgaan