In dit voorbeeldscenario wordt een gegevenspijplijn gedemonstreerd die grote hoeveelheden gegevens uit meerdere bronnen integreert in een geïntegreerd analyseplatform in Azure. Dit specifieke scenario is gebaseerd op een verkoop- en marketingoplossing, maar de ontwerppatronen zijn relevant voor veel branches waarvoor geavanceerde analyses van grote gegevenssets, zoals e-commerce, detailhandel en gezondheidszorg, nodig zijn.
In dit voorbeeld wordt een verkoop- en marketingbedrijf gedemonstreerd dat incentive-programma's maakt. Deze programma's beloont klanten, leveranciers, verkopers en werknemers. Gegevens zijn essentieel voor deze programma's en het bedrijf wil de inzichten verbeteren die zijn verkregen via gegevensanalyses met behulp van Azure.
Het bedrijf heeft een moderne benadering nodig voor het analyseren van gegevens, zodat beslissingen worden genomen met behulp van de juiste gegevens op het juiste moment. De doelstellingen van het bedrijf zijn onder andere:
- Verschillende soorten gegevensbronnen combineren in een platform op cloudschaal.
- Brongegevens omzetten in een gemeenschappelijke taxonomie en structuur, om de gegevens consistent en eenvoudig te vergelijken.
- Het laden van gegevens met behulp van een sterk ge parallelliseerde benadering die ondersteuning biedt voor duizenden incentive-programma's, zonder de hoge kosten voor het implementeren en onderhouden van een on-premises infrastructuur.
- U hebt veel minder tijd nodig om gegevens te verzamelen en te transformeren, zodat u zich kunt richten op het analyseren van de gegevens.
Relevante gebruiksgevallen
Deze aanpak kan ook worden gebruikt voor het volgende:
- Stel een datawarehouse in als één bron van waarheid voor uw gegevens.
- Integreer relationele gegevensbronnen met andere ongestructureerde gegevenssets.
- Gebruik semantische modellering en krachtige visualisatiehulpprogramma's voor eenvoudigere gegevensanalyse.
Architectuur

De gegevens stromen als volgt door de oplossing:
- Voor elke gegevensbron worden eventuele updates periodiek geëxporteerd naar een faseringsgebied in Azure Blob Storage.
- Data Factory de gegevens incrementeel uit Blob Storage in faseringstabellen in Azure Synapse Analytics. De gegevens worden tijdens dit proces opsschoond en getransformeerd. PolyBase kan het proces voor grote gegevenssets parallelliseren.
- Nadat een nieuwe batch met gegevens in het magazijn is geladen, wordt een eerder Analysis Services tabellaire model vernieuwd. Dit semantische model vereenvoudigt de analyse van zakelijke gegevens en relaties.
- Bedrijfsanalisten gebruiken Microsoft Power BI om data uit een magazijn te analyseren via Analysis Services semantische model.
Onderdelen
Het bedrijf heeft gegevensbronnen op veel verschillende platforms:
- SQL Server on-premises
- Oracle on-premises
- Azure SQL Database
- Azure-tabelopslag
- Cosmos DB
Gegevens worden vanuit deze verschillende gegevensbronnen geladen met behulp van verschillende Azure-onderdelen:
- Blob Storage wordt gebruikt om brongegevens te fasen voordat deze in de Azure Synapse.
- Data Factory de transformatie van gefaseeerde gegevens in een gemeenschappelijke structuur in Azure Synapse. Data Factory gebruikt PolyBase bij het laden van gegevens in Azure Synapse om de doorvoer te maximaliseren.
- Azure Synapse is een gedistribueerd systeem voor het opslaan en analyseren van grote gegevenssets. Het gebruik van MPP (Massive Parallel Processing) maakt het geschikt voor het uitvoeren van analyses met hoge prestaties. Azure Synapse kunt PolyBase gebruiken om snel gegevens uit Blob Storage te laden.
- Analysis Services biedt een semantisch model voor uw gegevens. Het kan ook de systeemprestaties verbeteren bij het analyseren van uw gegevens.
- Power BI is een suite met hulpprogramma's voor bedrijfsanalyse om gegevens te analyseren en inzichten te delen. Power BI kan een query uitvoeren op een semantisch model dat is opgeslagen in Analysis Services, of er kan rechtstreeks een query Azure Synapse uitgevoerd.
- Azure Active Directory (Azure AD) verifieert gebruikers die verbinding maken met de Analysis Services server via Power BI. Data Factory kunt ook Azure AD gebruiken om te verifiëren bij Azure Synapse via een service-principal of beheerde identiteit voor Azure-resources.
Alternatieven
De voorbeeldpijplijn bevat verschillende soorten gegevensbronnen. Deze architectuur kan een groot aantal relationele en niet-relationele gegevensbronnen verwerken.
Data Factory de werkstromen voor uw gegevenspijplijn in. Als u gegevens slechts één keer of op aanvraag wilt laden, kunt u hulpprogramma's zoals SQL Server bulksgewijs kopiëren (bcp) en AzCopy gebruiken om gegevens naar Blob Storage te kopiëren. U kunt de gegevens vervolgens rechtstreeks in uw Azure Synapse polybase.
Als u zeer grote gegevenssets hebt, kunt u Data Lake Storage,dat onbeperkte opslag voor analysegegevens biedt.
Een on-premises SQL Server Parallel Data Warehouse kan ook worden gebruikt voor big data verwerking. De operationele kosten zijn echter vaak veel lager met een beheerde cloudoplossing zoals Azure Synapse.
Azure Synapse is niet geschikt voor OLTP-workloads of gegevenssets die kleiner zijn dan 250 GB. Voor deze gevallen moet u een Azure SQL Database of SQL Server.
Zie voor vergelijkingen van andere alternatieven:
Overwegingen
De technologieën in deze architectuur zijn gekozen omdat ze voldoen aan de vereisten van het bedrijf voor schaalbaarheid en beschikbaarheid, terwijl ze de kosten kunnen beheersen.
- De massively parallel processing-architectuur van Azure Synapse biedt schaalbaarheid en hoge prestaties.
- Azure Synapse beschikt over gegarandeerde SLA's en aanbevolen procedures voor het bereiken van hoge beschikbaarheid.
- Wanneer de analyseactiviteit laag is, kan het bedrijf de schaal vanAzure Synapse op aanvraag verlagen of zelfs onderbreken om de kosten te verlagen.
- Azure Analysis Services kunnen worden geschaald om de reactietijden tijdens hoge querywerkbelastingen te verminderen. U kunt de verwerking ook scheiden van de querygroep, zodat clientquery's niet worden vertraagd door verwerkingsbewerkingen.
- Azure Analysis Services biedt ook gegarandeerde SLA's en aanbevolen procedures voor het bereiken van hoge beschikbaarheid.
- Het Azure Synapse biedt verbindingsbeveiliging, verificatie en autorisatie via Azure AD of SQL Server en versleuteling. Azure Analysis Services maakt gebruik van Azure AD voor identiteitsbeheer en gebruikersverificatie.
Prijzen
Bekijk een prijsvoorbeeld voor een datawarehousingscenario via de Azure-prijscalculator. Pas de waarden aan om te zien hoe uw vereisten van invloed zijn op uw kosten.
- Azure Synapse kunt u uw reken- en opslagniveaus onafhankelijk schalen. Rekenbronnen worden per uur in rekening gebracht en u kunt deze resources op aanvraag schalen of onderbreken. Storage resources worden gefactureerd per terabyte, zodat uw kosten toenemen naarmate u meer gegevens opneemt.
- Data Factory kosten zijn gebaseerd op het aantal lees-/schrijfbewerkingen, bewakingsbewerkingen en orchestration-activiteiten die in een workload worden uitgevoerd. Uw Data Factory oplopen met elke extra gegevensstroom en de hoeveelheid gegevens die door elke stroom wordt verwerkt.
- Analysis Services is beschikbaar in de developer-, basic- en standard-laag. De prijs van exemplaren is gebaseerd op queryverwerkingseenheden (QPI's) en het beschikbare geheugen. Om uw kosten lager te houden, minimaliseert u het aantal query's dat u wilt uitvoeren, hoeveel gegevens ze verwerken en hoe vaak ze worden uitgevoerd.
- Power BI verschillende productopties voor verschillende vereisten. Power BI Embedded biedt een op Azure gebaseerde optie voor het insluiten Power BI functionaliteit in uw toepassingen. Een Power BI Embedded is opgenomen in het bovenstaande prijsvoorbeeld.
Volgende stappen
- Bekijk de Azure-referentiearchitectuur voor geautomatiseerde enterprise BI,die instructies bevat voor het implementeren van een exemplaar van deze architectuur in Azure.
- Lees het klantverhaal over Maritz Motivation Solutions. In dat verhaal wordt een vergelijkbare benadering beschreven voor het beheren van klantgegevens.
- U vindt uitgebreide richtlijnen voor de architectuur van gegevenspijplijnen, datawarehousing, online analytical processing (OLAP) en big data in de Azure Data Architecture Guide (Handleiding voor azure-gegevensarchitectuur).