Små och medelstora företag (SBS) står inför ett val när de ska modernisera sina lokala informationslager för molnet. De kan använda stordataverktyg för framtida utökningsbarhet eller behålla traditionella, SQL-baserade lösningar för kostnadseffektivitet, enkelt underhåll och smidig övergång.
En hybridmodell kombinerar dock enkel migrering av befintlig datae egendom med möjlighet att lägga till verktyg och processer för stordata för vissa användningsfall. SQL datakällor kan fortsätta att köras i molnet och fortsätta att modernisera efter behov.
Den här exempelarbetsbelastningen visar flera sätt som SMF kan modernisera äldre datalager och utforska verktyg och funktioner för stordata, utan att överutse aktuella budgetar och kompetensuppsättningar. Dessa azure-lösningar för informationslager är enkla att integrera med Azure och Microsoft-tjänster och verktyg som Azure Machine Learning, Microsoft Power Platform och Microsoft Dynamics.
Potentiella användningsfall
Flera scenarier kan dra nytta av den här arbetsbelastningen:
Migrera ett traditionellt, lokalt relationsinformationslager som är mindre än 1 TB och som i stor utsträckning använder SSIS-paket (SQL Server Integration Services) för att orkestrera lagrade procedurer.
Koppla ihop befintliga Dynamics- Power Platform data från Dataverse med batchbaserade och realtidsbaserade Azure Data Lake-källor.
Använda innovativa tekniker för att interagera med centraliserade Data Lake-Storage data. Teknikerna omfattar serverlös analys, kunskapsutvinning, data fusion mellan domäner och utforskning av slutanvändardata.
Den här lösningen rekommenderas inte för:
Ny distribution av informationslager som uppskattas vara 1 TB inom ett år.
Migrering av lokala informationslager på 1 TB eller som beräknas växa > till den storleken inom ett år.
Arkitektur
Äldre SMB-informationslager kan innehålla flera typer av data:
- Ostrukturerade data som dokument och grafik
- Halvstrukturerade data, till exempel loggar, CSV:er, JSON och XML-filer
- Strukturerade relationsdata, inklusive databaser som använder lagrade procedurer för ETL-/ELT-aktiviteter (extract-transform-load/extract-load-transform)
Följande dataflöde visar inmatningen av din valda datatyp:
Azure Synapse Analytics in de äldre informationslager i Azure.
Pipelines orkestrerar flödet av migrerade eller delvis omstrukturerade äldre databaser och SSIS-paket till Azure SQL Database. Den här lift and shift-metoden är snabbast att implementera och erbjuder en smidig övergång från en lokal SQL-lösning till en eventuell Azure-plattform som en tjänst (PaaS). Du kan modernisera databaser stegvis efter lift and shift.
Pipelines kan också skicka ostrukturerade, halvstrukturerade och strukturerade data till Azure Data Lake-Storage för centraliserad lagring och analys med andra källor. Använd den här metoden när dataanvändning ger bättre affärsförmån än att bara omformulera data.
Microsoft Dynamics-datakällor kan användas för att skapa centraliserade BI-instrumentpaneler på förhöjda datamängder med hjälp av Synapse Serverless-analysverktyg. Du kan föra tillbaka de sammanarbetade, bearbetade data till Dynamics och Power BI för ytterligare analys.
Realtidsdata från strömmande källor kan också komma in i systemet via Azure Event Hubs. För kunder med krav på instrumentpanel i realtid kan Azure Stream Analytics analysera dessa data omedelbart.
Data kan också ange den centraliserade Data Lake för ytterligare analys, lagring och rapportering.
Serverlösa analysverktyg är tillgängliga Azure Synapse Analytics arbetsytan. Dessa verktyg använder serverlösa SQL eller Apache Spark beräkningsfunktioner för att bearbeta data i Data Lake Storage. Serverlösa pooler är tillgängliga på begäran och kräver inte några etablerade resurser.
Serverlösa pooler är idealiska för:
- Ad hoc-dataforskning i T-SQL format.
- Tidiga prototyper för informationslagerentiteter.
- Definiera vyer som konsumenter kan använda, till exempel i Power BI, för scenarier som kan tolerera prestandafördröjning.
Azure Synapse är nära integrerad med potentiella användare av dina sammanslutna datauppsättningar, till exempel Azure Machine Learning. Andra konsumenter kan till exempel Power Apps, Azure Logic Apps, Azure Functions och Azure App Service webbappar.
Komponenter
Azure Synapse Analytics är en analystjänst som kombinerar dataintegrering, informationslager i företag och stordataanalys. I den här lösningen:
- En Azure Synapse-arbetsyta främjar samarbete mellan datatekniker, dataforskare, dataanalytiker och business intelligence(BI)-proffs.
- Azure Synapse pipelines orkestrera och mata in data i SQL Database och Data Lake Storage.
- Azure Synapse serverlösa SQL-pooler analyserar ostrukturerade och halvstrukturerade data i Data Lake Storage på begäran.
- Azure Synapse serverlösa Apache Spark-pooler gör kod first-utforskningar i Data Lake Storage med Spark-språk som Spark SQL, pySpark och Scala.
Azure SQL Database är en intelligent, skalbar relationsdatabastjänst som skapats för molnet. I den här SQL Database innehåller informationslagret för företag och utför ETL/ELT-aktiviteter som använder lagrade procedurer.
Azure Event Hubs är en plattform för dataströmning i realtid och händelseinmatningstjänst. Event Hubs kan mata in data var som helst och integreras sömlöst med Azure-datatjänster.
Azure Stream Analytics är en serverlös analystjänst i realtid för strömmande data. Stream Analytics snabb, elastisk skalbarhet, tillförlitlighet och återställning i företagsklass samt inbyggda maskininlärningsfunktioner.
Azure Machine Learning är en verktygsuppsättning för utveckling av datavetenskapsmodeller och livscykelhantering. Machine Learning är ett exempel på azure- och Microsoft-tjänster som kan använda sammansydd, bearbetade data från Data Lake Storage.
Alternativ
Azure IoT Hub kan ersätta eller komplettera Event Hubs. Vilken lösning du väljer beror på källan för dina strömmande data och om du behöver kloning och dubbelriktad kommunikation med rapporteringsenheterna.
Du kan använda Azure Data Factory för dataintegrering i stället för Azure Synapse pipelines. Valet beror på flera faktorer:
- Azure Synapse-pipelines håller lösningsdesignen enklare och tillåter samarbete i en enda Azure Synapse arbetsyta.
- Azure Synapse-pipelines stöder inte värdar för SSIS-paket, vilket är tillgängligt i Azure Data Factory.
- Synapse Monitor Hub övervakar Azure Synapse pipelines, Azure Monitor kan övervaka Data Factory.
Mer information och en funktionsjämförelse mellan Azure Synapse pipelines och Data Factory finns i Dataintegrering i Azure Synapse Analytics jämfört med Azure Data Factory.
Du kan använda Synapse Analytics dedikerade SQL för att lagra företagsdata i stället för att använda SQL Database. Granska användningsfallen och övervägandena i den här artikeln och relaterade resurser för att fatta ett beslut.
Överväganden
Följande överväganden gäller för det här scenariot:
Tillgänglighet
SQL Database är en PaaS-tjänst som kan uppfylla dina krav på hög tillgänglighet (HA) och haveriberedskap (DR). Se till att välja den SKU som uppfyller dina krav. Vägledning finns i Hög tillgänglighet för Azure SQL Database.
Operations
SQL Database använder SQL Server Management Studio (SSMS) för att utveckla och underhålla äldre artefakter som lagrade procedurer.
Prissättning
Se ett prisexempel för ett SMB-datalagerscenario i priskalkylatorn för Azure. Justera värdena för att se hur dina krav påverkar kostnaderna.
SQL Database på valda beräknings- och tjänstnivåer samt antalet virtuella kärnor och databastransaktionsenheter (DPU:er). Exemplet visar en enkel databas med etablerat compute och åtta virtuella kärnor, baserat på antagandet att du behöver köra lagrade procedurer i SQL Database.
Data Lake Storage priser beror på hur mycket data du lagrar och hur ofta du använder data. Exempelpriset inkluderar 1 TB lagrade data, med ytterligare transaktionsantaganden. 1 TB avser storleken på datasjön, inte den ursprungliga äldre databasstorleken.
Azure Synapse-pipelines baserar kostnader på antalet datapipelineaktiviteter, integreringskörningstimmar, storlek på dataflödeskluster samt körnings- och åtgärdsavgifter. Pipelinekostnader ökar med ytterligare datakällor och mängder bearbetade data. Exemplet förutsätter att en datakälla batchas varje timme i 15 minuter på en Azure-värdbaserade integrationskörning.
Azure Synapse Spark-pool baserar prissättningen på nodstorlek, antal instanser och drifttid. Exemplet förutsätter en liten beräkningsnod med fem timmar i veckan till 40 timmar per månad.
Azure Synapse för serverlösa SQL på databaser för bearbetade data. Exemplet förutsätter att 50 MB bearbetas per månad. Den här bilden avser storleken på datasjön, inte den ursprungliga äldre databasstorleken.
Event Hubs faktureras baserat på nivå, etablerade dataflödesenheter och ingående trafik som tas emot. I exemplet förutsätts en dataflödesenhet på Standard-nivån över en miljon händelser under en månad.
Stream Analytics på antalet etablerade strömningsenheter. Exemplet förutsätter att en strömningsenhet används under månaden.
Nästa steg
- Information om utbildningsinnehåll och labb finns i Microsoft Learn Dataingenjör Learning Sökvägar.
- Självstudie: Komma igång med Azure Synapse Analytics
- Skapa en enkel databas – Azure SQL Database
- Skapa ett lagringskonto för Azure Data Lake Storage
- Azure Event Hubs snabbstart – Skapa en händelsehubb med hjälp av Azure Portal
- Snabbstart – Skapa Stream Analytics jobb med hjälp av Azure Portal
- Snabbstart: Kom igång med Azure Machine Learning
Relaterade resurser
- Omfattande arkitekturvägledning för datapipelines, informationslagerhantering, onlineanalysbearbetning (OLAP) och stordata finns i Guide för Azure-dataarkitektur.
- Läs mer om: