Modern datawarehouse voor kleine en middelgrote bedrijven

Data Lake
SQL Database
Synapse Analytics
Dynamics 365
Microsoft Power Platform

Kleine en middelgrote bedrijven (SMB's) staan voor een keuze bij het moderniseren van hun on-premises datawarehouses voor de cloud. Ze kunnen big data gebruiken voor toekomstige extensibility of traditionele, op SQL gebaseerde oplossingen behouden voor kostenefficiëntie, onderhoudsgemak en soepele overgang.

Een hybride benadering combineert echter eenvoudige migratie van de bestaande gegevensent estate met de mogelijkheid om big data en processen toe te voegen voor bepaalde gebruiksgevallen. SQL op basis van gegevensbronnen kunnen blijven worden uitgevoerd in de cloud en zo nodig blijven moderniseren.

Deze voorbeeldworkload laat verschillende manieren zien waarop SB's verouderde gegevensopslag kunnen moderniseren en big data hulpprogramma's en mogelijkheden kunnen verkennen, zonder de huidige budgetten en vaardighedensets te overextensies. Deze end-to-end Azure-oplossingen voor datawarehousing kunnen eenvoudig worden geïntegreerd met Azure en Microsoft-services en hulpprogramma's zoals Azure Machine Learning, Microsoft Power Platform en Microsoft Dynamics.

Potentiële gebruikscases

Verschillende scenario's kunnen profiteren van deze workload:

  • Het migreren van een traditioneel, on-premises relationeel datawarehouse dat kleiner is dan 1 TB en intensief gebruikmaakt van SSIS-pakketten (SQL Server Integration Services) voor het inrichten van opgeslagen procedures.

  • Bestaande Dynamics- of Power Platform Dataverse-gegevens met batch- en realtime Azure Data Lake-bronnen.

  • Innovatieve technieken gebruiken om te communiceren met gecentraliseerde Data Lake Storage gegevens. Technieken zijn onder andere serverloze analyse, kennisanalyse, gegevensvervoeging tussen domeinen en gegevensverkenning door eindgebruikers.

Deze oplossing wordt niet aanbevolen voor:

  • Greenfield-implementatie van datawarehouses naar schatting > 1 TB binnen één jaar.

  • Het migreren van on-premises datawarehouses met een grootte van > 1 TB of die binnen een jaar naar die grootte moeten worden gemigreerd.

Architectuur

Diagram waarin wordt getoond hoe verouderde gegevens kunnen worden gemigreerd en gemoderniseerd met Azure Synapse, SQL Database, Data Lake Storage en andere services.

Verouderde SMB-datawarehouses kunnen verschillende typen gegevens bevatten:

  • Ongestructureerde gegevens, zoals documenten en afbeeldingen
  • Semi-gestructureerde gegevens, zoals logboeken, CSV's, JSON en XML-bestanden
  • Gestructureerde relationele gegevens, inclusief databases die gebruikmaken van opgeslagen procedures voor ETL-/ELT-activiteiten (extract-transform-transform-load/extract-load-transform)

In de volgende gegevensstroom wordt de opname van het gekozen gegevenstype gedemonstreerd:

  1. Azure Synapse Analytics pijplijnen de verouderde datawarehouses opnemen in Azure.

    • De pijplijnen beheren de stroom van gemigreerde of gedeeltelijk gemigreerde verouderde databases en SSIS-pakketten in Azure SQL Database. Deze lift-and-shift-benadering is het snelst te implementeren en biedt een soepele overgang van een on-premises SQL-oplossing naar een uiteindelijke Azure Platform-as-a-Service (PaaS). U kunt databases incrementeel moderniseren na de lift-and-shift.

    • De pijplijnen kunnen ook ongestructureerde, semi-gestructureerde en gestructureerde gegevens doorgeven aan Azure Data Lake Storage voor gecentraliseerde opslag en analyse met andere bronnen. Gebruik deze methode wanneer het gebruik van gegevens meer zakelijk voordeel biedt dan alleen het opnieuw platformen van de gegevens.

  2. Microsoft Dynamics-gegevensbronnen kunnen worden gebruikt voor het bouwen van gecentraliseerde BI-dashboards op uitgebreide gegevenssets met behulp van hulpprogramma's voor serverloze analyse van Synapse. U kunt de samengevoegde, verwerkte gegevens terug brengen naar Dynamics en Power BI voor verdere analyse.

  3. Realtime gegevens uit streamingbronnen kunnen ook via een Azure Event Hubs. Voor klanten met realtime dashboardvereisten kunnen Azure Stream Analytics gegevens onmiddellijk analyseren.

  4. De gegevens kunnen ook de gecentraliseerde Data Lake invoeren voor verdere analyse, opslag en rapportage.

  5. Serverloze analysehulpprogramma's zijn beschikbaar in Azure Synapse Analytics werkruimte. Deze hulpprogramma's maken gebruik van serverloze SQL-pool- of Apache Spark-rekenmogelijkheden voor het verwerken van de gegevens in Data Lake Storage. Serverloze pools zijn op aanvraag beschikbaar en vereisen geen inrichtende resources.

    Serverloze pools zijn ideaal voor:

    • Ad-hoc gegevenswetenschapverkenning in T-SQL indeling.
    • Vroege prototypen voor datawarehouse-entiteiten.
    • Weergaven definiëren die consumenten kunnen gebruiken, bijvoorbeeld in Power BI, voor scenario's die prestatievertraging kunnen tolereren.

Azure Synapse is nauw geïntegreerd met potentiële gebruikers van uw samengevoegde gegevenssets, zoals Azure Machine Learning. Andere gebruikers kunnen Power Apps, Azure Logic Apps, Azure Functions apps en Azure App Service web-apps.

Onderdelen

  • Azure Synapse Analytics is een analyseservice die gegevensintegratie, zakelijke datawarehousing en big data combineert. In deze oplossing:

  • Azure SQL Database is een intelligente, schaalbare relationele databaseservice die is gebouwd voor de cloud. In deze oplossing bevat SQL Database het datawarehouse van de onderneming en worden ETL-/ELT-activiteiten uitgevoerd die gebruikmaken van opgeslagen procedures.

  • Azure Event Hubs is een realtime platform voor gegevensstreaming en een service voor het opnemen van gebeurtenissen. Event Hubs kunt overal gegevens opnemen en naadloos integreren met Azure-gegevensservices.

  • Azure Stream Analytics is een realtime, serverloze analyseservice voor het streamen van gegevens. Stream Analytics biedt snelle, elastische schaalbaarheid, hoogwaardige betrouwbaarheid en herstel, en ingebouwde machine learning mogelijkheden.

  • Azure Machine Learning is een toolset voor het ontwikkelen van data science-modellen en levenscyclusbeheer. Machine Learning is een voorbeeld van de Azure- en Microsoft-services die samengevoegde, verwerkte gegevens uit Data Lake-Storage.

Alternatieven

  • Azure IoT Hub kunnen deze vervangen of aanvullen Event Hubs. De oplossing die u kiest, is afhankelijk van de bron van uw streaminggegevens en of u moet klonen en bidirectionele communicatie met de rapportageapparaten nodig hebt.

  • U kunt Azure Data Factory gebruiken voor gegevensintegratie in plaats van Azure Synapse pijplijnen. De keuze is afhankelijk van verschillende factoren:

    • Azure Synapse pijplijnen houden het ontwerp van de oplossing eenvoudiger en bieden samenwerking binnen één Azure Synapse werkruimte.
    • Azure Synapse pijplijnen bieden geen ondersteuning voor het opnieuw hosten van SSIS-pakketten, die beschikbaar is in Azure Data Factory.
    • Synapse Monitor Hub bewaakt Azure Synapse pijplijnen, terwijl Azure Monitor de Data Factory.

    Zie Gegevensintegratie in Azure Synapse Analytics versus Azure Data Factory voor meer informatie en een functievergelijking tussen Azure Synapse pijplijnen en Data Factory.

  • U kunt Synapse Analytics toegewezen SQL gebruiken voor het opslaan van bedrijfsgegevens, in plaats van SQL Database. Bekijk de use cases en overwegingen in dit artikel en de gerelateerde resources om een beslissing te nemen.

Overwegingen

De volgende overwegingen zijn van toepassing op dit scenario:

Beschikbaarheid

SQL Database is een PaaS-service die kan voldoen aan uw vereisten voor hoge beschikbaarheid (HA) en noodherstel (DR). Zorg ervoor dat u de SKU kiest die voldoet aan uw vereisten. Zie Hoge beschikbaarheid voor Azure SQL Database.

Operations

SQL Database maakt gebruik SQL Server Management Studio (SSMS) voor het ontwikkelen en onderhouden van verouderde artefacten, zoals opgeslagen procedures.

Prijzen

Bekijk een prijsvoorbeeld voor een SMB-datawarehousingscenario in de Azure-prijscalculator. Pas de waarden aan om te zien hoe uw vereisten van invloed zijn op de kosten.

  • SQL Database worden de kosten gebaseerd op de geselecteerde compute- en servicelagen en het aantal vCores en Database Transaction Units (DTUs). In het voorbeeld ziet u een individuele database met ingerichte Compute en acht vCores, op basis van de veronderstelling dat u opgeslagen procedures moet uitvoeren in SQL Database.

  • De prijzen Storage Data Lake-gegevens zijn afhankelijk van de hoeveelheid gegevens die u opgeslagen en hoe vaak u de gegevens gebruikt. De voorbeeldprijzen omvatten 1 TB aan opgeslagen gegevens, met verdere transactionele veronderstellingen. De 1 TB verwijst naar de grootte van de data lake, niet de oorspronkelijke grootte van de verouderde database.

  • Azure Synapse pijplijnen zijn gebaseerd op het aantal gegevenspijplijnactiviteiten, de uitvoeringsuren van integratie, de grootte van het gegevensstroomcluster en de kosten voor uitvoering en bewerking. De kosten voor pijplijnen nemen toe met extra gegevensbronnen en verwerkte hoeveelheden gegevens. In het voorbeeld wordt ervan uitgenomen dat één gegevensbron elk uur 15 minuten wordt gebatcheerd op een in Azure gehoste Integration Runtime.

  • Azure Synapse prijzen voor Spark-poolbases op knooppuntgrootte, aantal exemplaren en uptime. In het voorbeeld wordt ervan uitgenomen dat er één klein reken knooppunt is met vijf uur per week tot 40 uur per maand.

  • Azure Synapse van serverloze SQL voor poolbases op verwerkte TB's aan gegevens. In het voorbeeld wordt ervan uitgenomen dat er 50 TB per maand is verwerkt. Deze afbeelding verwijst naar de grootte van de data lake, niet de oorspronkelijke grootte van de verouderde database.

  • Event Hubs op basis van laag, ingerichte doorvoereenheden en ontvangen ingressverkeer. In het voorbeeld wordt ervan uitgenomen dat één doorvoereenheid in de Standard-laag meer dan één miljoen gebeurtenissen voor een maand heeft.

  • Stream Analytics worden de kosten gebaseerd op het aantal inrichtende streaming-eenheden. In het voorbeeld wordt ervan uitgenomen dat er één streaming-eenheid is gebruikt in de afgelopen maand.

Volgende stappen