Analys från slutpunkt till slutpunkt med Azure Synapse

Azure Synapse Analytics
Azure Cosmos DB
Azure Data Factory
Azure Databricks
Azure Event Hubs

Lösningen som beskrivs i den här artikeln kombinerar en rad Azure-tjänster som matar in, lagrar, bearbetar, berikar och hanterar data och insikter från olika källor (strukturerade, halvstrukturerade, ostrukturerade och strömmande).

Arkitektur

Arkitekturdiagram för en modern dataplattform med hjälp av Azure-datatjänster.

Ladda ned en Visio-fil med den här arkitekturen.

Kommentar

  • De tjänster som omfattas av den här arkitekturen är bara en delmängd av en mycket större familj av Azure-tjänster. Liknande resultat kan uppnås med hjälp av andra tjänster eller funktioner som inte omfattas av den här designen.
  • Specifika affärskrav för ditt analysanvändningsfall kan kräva användning av olika tjänster eller funktioner som inte beaktas i den här designen.

Dataflöde

De analysanvändningsfall som omfattas av arkitekturen illustreras av de olika datakällorna till vänster i diagrammet. Data flödar genom lösningen nedifrån och upp enligt följande:

Kommentar

I följande avsnitt används Azure Data Lake som startsida för data under de olika stegen i datalivscykeln. Azure Data Lake organiseras av olika lager och containrar på följande sätt:

  • Raw-lagret är landningsområdet för data som kommer in från källsystem. Som namnet antyder är data i det här lagret i rå, ofiltrerad och opurifierad form.
  • I nästa steg i livscykeln flyttas data till det berikade lagret där data rensas, filtreras och eventuellt transformeras.
  • Data flyttas sedan till det kurerade lagret, där konsumentklara data underhålls.

Se dokumentationen om Data lake-zoner och -containrar för en fullständig granskning av Azure Data Lake-lager och -containrar och deras användning.

Azure-datatjänster, molnbaserad HTAP med Azure Cosmos DB och Dataverse

Process
  1. Med Azure Synapse Link för Azure Cosmos DB och Azure Synapse Link for Dataverse kan du köra nästan realtidsanalyser över drift- och affärsprogramdata med hjälp av analysmotorerna som är tillgängliga från din Azure Synapse-arbetsyta: SQL Serverless och Spark Pools.

  2. När du använder Azure Synapse Link för Azure Cosmos DB använder du antingen en SQL Serverless-fråga eller en Spark-poolanteckningsbok. Du kan komma åt Azure Cosmos DB-analysarkivet och sedan kombinera datauppsättningar från dina driftdata i nära realtid med data från din datasjö eller från ditt informationslager.

  3. När du använder Azure Synapse Link för Dataverse använder du antingen en SQL Serverless-fråga eller en Notebook-fil för Spark-pool. Du kan komma åt de valda Dataverse-tabellerna och sedan kombinera datauppsättningar från dina nästan realtidsprogramdata med data från din datasjö eller från ditt informationslager.

Store
  1. Resulterande datauppsättningar från dina SQL Serverless-frågor kan sparas i din datasjö. Om du använder Spark-notebook-filer kan de resulterande datauppsättningarna bevaras antingen i din datasjö eller i informationslagret (SQL-pool).
Tjäna
  1. Läs in relevanta data från Azure Synapse SQL-poolen eller datasjön till Power BI-datauppsättningar för datavisualisering och utforskning. Power BI-modeller implementerar en semantisk modell för att förenkla analysen av affärsdata och relationer. Affärsanalytiker använder Power BI-rapporter och instrumentpaneler för att analysera data och härleda affärsinsikter.

  2. Data kan också delas på ett säkert sätt till andra affärsenheter eller externa betrodda partner med hjälp av Azure Data Share. Datakonsumenter har friheten att välja vilket dataformat de vill använda och vilken beräkningsmotor som är bäst för att bearbeta de delade datauppsättningarna.

  3. Strukturerade och ostrukturerade data som lagras på din Synapse-arbetsyta kan också användas för att skapa lösningar för kunskapsutvinning och använda AI för att upptäcka värdefulla affärsinsikter i olika dokumenttyper och format, till exempel från Office-dokument, PDF-filer, bilder, ljud, formulär och webbsidor.

Relationsdatabaser

Mata in
  1. Använd Azure Synapse-pipelines för att hämta data från en mängd olika databaser, både lokalt och i molnet. Pipelines kan utlösas baserat på ett fördefinierat schema, som svar på en händelse, eller kan uttryckligen anropas via REST-API:er.
Store
  1. I rådatasjölagret organiserar du datasjön enligt metodtipsen kring vilka lager som ska skapas, vilka mappstrukturer som ska användas i varje lager och vilket filformat som ska användas för varje analysscenario.

  2. Från Azure Synapse-pipelinen använder du en kopieringsdataaktivitet för att mellanlagra data som kopierats från relationsdatabaserna till det råa lagret i din Azure Data Lake Store Gen 2-datasjö. Du kan spara data i avgränsat textformat eller komprimeras som Parquet-filer.

Process
  1. Använd antingen dataflöden, serverlösa SQL-frågor eller Spark-notebook-filer för att verifiera, transformera och flytta datauppsättningarna från raw-lagret, via det berikade lagret och till det kurerade lagret i datasjön.

    1. Som en del av dina datatransformeringar kan du anropa maskinträningsmodeller från dina SQL-pooler med hjälp av vanliga T-SQL - eller Spark-notebook-filer. Dessa ML-modeller kan användas för att utöka dina datamängder och generera ytterligare affärsinsikter. Dessa maskininlärningsmodeller kan användas från Azure Cognitive Services eller anpassade ML-modeller från Azure ML.
Tjäna
  1. Du kan hantera den slutliga datamängden direkt från datasjölagret eller använda aktiviteten Kopiera data för att mata in den slutliga datamängden i dina SQL-pooltabeller med hjälp av kommandot COPY för snabb inmatning.

  2. Läs in relevanta data från Azure Synapse SQL-poolen eller datasjön till Power BI-datauppsättningar för datavisualisering. Power BI-modeller implementerar en semantisk modell för att förenkla analysen av affärsdata och relationer. Affärsanalytiker använder Power BI-rapporter och instrumentpaneler för att analysera data och härleda affärsinsikter.

  3. Data kan också delas på ett säkert sätt till andra affärsenheter eller externa betrodda partner med hjälp av Azure Data Share. Datakonsumenter har friheten att välja vilket dataformat de vill använda och vilken beräkningsmotor som är bäst för att bearbeta de delade datauppsättningarna.

  4. Strukturerade och ostrukturerade data som lagras på din Synapse-arbetsyta kan också användas för att skapa lösningar för kunskapsutvinning och använda AI för att upptäcka värdefulla affärsinsikter i olika dokumenttyper och format, till exempel från Office-dokument, PDF-filer, bilder, ljud, formulär och webbsidor.

Halvstrukturerade datakällor

Mata in
  1. Använd Azure Synapse-pipelines för att hämta data från en mängd olika halvstrukturerade datakällor, både lokalt och i molnet. Till exempel:

    • Mata in data från filbaserade källor som innehåller CSV- eller JSON-filer.
    • Anslut till No-SQL-databaser som Azure Cosmos DB eller MongoDB.
    • Anropa REST-API:er som tillhandahålls av SaaS-program som fungerar som datakälla för pipelinen.
Store
  1. I rådatasjölagret organiserar du datasjön enligt metodtipsen kring vilka lager som ska skapas, vilka mappstrukturer som ska användas i varje lager och vilket filformat som ska användas för varje analysscenario.

  2. Från Azure Synapse-pipelinen använder du en kopieringsdataaktivitet för att mellanlagra data som kopierats från de halvstrukturerade datakällorna till det råa lagret i din Azure Data Lake Store Gen 2-datasjö. Spara data för att bevara det ursprungliga formatet, som hämtats från datakällorna.

Process
  1. För batch-/mikrobatchpipelines använder du antingen dataflöden, SQL-serverlösa frågor eller Spark-notebook-filer för att validera, transformera och flytta dina datamängder till det kurerade lagret i datasjön. SQL Serverless-frågor exponerar underliggande CSV-, Parquet- eller JSON-filer som externa tabeller, så att de kan efterfrågas med hjälp av T-SQL.

    1. Som en del av dina datatransformeringar kan du anropa maskininlärningsmodeller från dina SQL-pooler med hjälp av vanliga T-SQL - eller Spark-notebook-filer. Dessa ML-modeller kan användas för att utöka dina datamängder och generera ytterligare affärsinsikter. Dessa maskininlärningsmodeller kan användas från Azure Cognitive Services eller anpassade ML-modeller från Azure ML.
  2. För telemetri- och tidsserieanalysscenarier i nära realtid använder du Data Explorer-pooler för att enkelt mata in, konsolidera och korrelera loggar och IoT-händelsedata över flera datakällor. Med Data Explorer-pooler kan du använda Kusto-frågor (KQL) för att utföra tidsserieanalys, geospatial klustring och maskininlärningsberikning.

Tjäna
  1. Du kan hantera den slutliga datamängden direkt från datasjölagret eller använda aktiviteten Kopiera data för att mata in den slutliga datamängden i dina SQL-pooltabeller med hjälp av kommandot COPY för snabb inmatning.

  2. Läs in relevanta data från Azure Synapse SQL-pooler, Data Explorer-pooler eller en datasjö i Power BI-datauppsättningar för datavisualisering. Power BI-modeller implementerar en semantisk modell för att förenkla analysen av affärsdata och relationer. Affärsanalytiker använder Power BI-rapporter och instrumentpaneler för att analysera data och härleda affärsinsikter.

  3. Data kan också delas på ett säkert sätt till andra affärsenheter eller externa betrodda partner med hjälp av Azure Data Share. Datakonsumenter har friheten att välja vilket dataformat de vill använda och vilken beräkningsmotor som är bäst för att bearbeta de delade datauppsättningarna.

  4. Strukturerade och ostrukturerade data som lagras på din Synapse-arbetsyta kan också användas för att skapa lösningar för kunskapsutvinning och använda AI för att upptäcka värdefulla affärsinsikter i olika dokumenttyper och format, till exempel från Office-dokument, PDF-filer, bilder, ljud, formulär och webbsidor.

Icke-strukturerade datakällor

Mata in
  1. Använd Azure Synapse-pipelines för att hämta data från en mängd olika icke-strukturerade datakällor, både lokalt och i molnet. Till exempel:

    • Mata in video, bild, ljud eller fri text från filbaserade källor som innehåller källfilerna.
    • Anropa REST-API:er som tillhandahålls av SaaS-program som fungerar som datakälla för pipelinen.
Store
  1. Organisera datasjön i rådatasjölagret genom att följa metodtipsen för vilka skikt som ska skapas, vilka mappstrukturer som ska användas i varje lager och vilket filformat som ska användas för varje analysscenario.

  2. Från Azure Synapse-pipelinen använder du en kopieringsdataaktivitet för att mellanlagra data som kopierats från de icke-strukturerade datakällorna till det råa lagret i din Azure Data Lake Store Gen 2-datasjö. Spara data genom att bevara det ursprungliga formatet, som hämtats från datakällorna.

Process
  1. Använd Spark-notebook-filer för att validera, transformera, berika och flytta dina datamängder från raw-lagret, via det berikade lagret och till det kurerade lagret i datasjön.

    1. Som en del av dina datatransformeringar kan du anropa maskininlärningsmodeller från dina SQL-pooler med hjälp av vanliga T-SQL - eller Spark-notebook-filer. Dessa ML-modeller kan användas för att utöka dina datamängder och generera ytterligare affärsinsikter. Dessa maskininlärningsmodeller kan användas från Azure Cognitive Services eller anpassade ML-modeller från Azure ML.
Tjäna
  1. Du kan hantera den slutliga datamängden direkt från datasjölagret eller använda aktiviteten Kopiera data för att mata in den slutliga datamängden i dina informationslagertabeller med hjälp av kommandot COPY för snabb inmatning.

  2. Läs in relevanta data från Azure Synapse SQL-poolen eller datasjön till Power BI-datauppsättningar för datavisualisering. Power BI-modeller implementerar en semantisk modell för att förenkla analysen av affärsdata och relationer.

  3. Affärsanalytiker använder Power BI-rapporter och instrumentpaneler för att analysera data och härleda affärsinsikter.

  4. Data kan också delas på ett säkert sätt till andra affärsenheter eller externa betrodda partner med hjälp av Azure Data Share. Datakonsumenter har friheten att välja vilket dataformat de vill använda och vilken beräkningsmotor som är bäst för att bearbeta de delade datauppsättningarna.

  5. Strukturerade och ostrukturerade data som lagras på din Synapse-arbetsyta kan också användas för att skapa lösningar för kunskapsutvinning och använda AI för att upptäcka värdefulla affärsinsikter i olika dokumenttyper och format, till exempel från Office-dokument, PDF-filer, bilder, ljud, formulär och webbsidor.

Strömning

Mata in
  1. Använd Azure Event Hubs eller Azure IoT Hubs för att mata in dataströmmar som genereras av klientprogram eller IoT-enheter. Event Hubs eller IoT Hub matar sedan in och lagrar strömmande data som bevarar sekvensen av mottagna händelser. Konsumenter kan sedan ansluta till Event Hubs- eller IoT Hub-slutpunkter och hämta meddelanden för bearbetning.
Store
  1. I rådatasjölagret organiserar du datasjön enligt metodtipsen kring vilka lager som ska skapas, vilka mappstrukturer som ska användas i varje lager och vilket filformat som ska användas för varje analysscenario.

  2. Konfigurera Event Hubs Capture- eller IoT Hub Storage-slutpunkter för att spara en kopia av händelserna i raw-lagret i din Azure Data Lake Store Gen 2-datasjö. Den här funktionen implementerar "kall sökväg" i Lambda-arkitekturmönstret och gör att du kan utföra historiska och trendanalyser på dataströmdata som sparats i din datasjö med hjälp av SQL Serverless-frågor eller Spark-notebook-filer enligt mönstret för halvstrukturerade datakällor som beskrivs ovan.

Process
  1. För insikter i realtid använder du ett Stream Analytics-jobb för att implementera "Hot Path" i Lambda-arkitekturmönstret och härleda insikter från dataströmmen under överföring. Definiera minst en indata för dataströmmen som kommer från dina eventhubbar eller IoT Hub, en fråga för att bearbeta indataströmmen och en Power BI-utdata som frågeresultatet ska skickas till.

    1. Som en del av databehandlingen med Stream Analytics kan du anropa maskininlärningsmodeller för att utöka dina datauppsättningar och driva affärsbeslut baserat på de förutsägelser som genereras. Dessa maskininlärningsmodeller kan användas från Azure Cognitive Services eller från anpassade ML-modeller i Azure Machine Learning.
  2. Använd andra Stream Analytics-jobbutdata för att skicka bearbetade händelser till Azure Synapse SQL-pooler eller Data Explorer-pooler för ytterligare analysanvändningsfall.

  3. För telemetri- och tidsserieanalysscenarier i nära realtid använder du Data Explorer-pooler för att enkelt mata in IoT-händelser direkt från Event Hubs eller IoT Hubs. Med Data Explorer-pooler kan du använda Kusto-frågor (KQL) för att utföra tidsserieanalys, geospatial klustring och maskininlärningsberikning.

Tjäna
  1. Affärsanalytiker använder sedan Power BI-realtidsdatauppsättningar och instrumentpanelsfunktioner för att visualisera de snabbt föränderliga insikter som genereras av din Stream Analytics-fråga.

  2. Data kan också delas på ett säkert sätt till andra affärsenheter eller externa betrodda partner med hjälp av Azure Data Share. Datakonsumenter har friheten att välja vilket dataformat de vill använda och vilken beräkningsmotor som är bäst för att bearbeta de delade datauppsättningarna.

  3. Strukturerade och ostrukturerade data som lagras på din Synapse-arbetsyta kan också användas för att skapa kunskapsutvinningslösningar och använda AI för att upptäcka värdefulla affärsinsikter i olika dokumenttyper och format, till exempel från Office-dokument, PDF-filer, bilder, ljud, formulär och webbsidor.

Komponenter

Följande Azure-tjänster har använts i arkitekturen:

Alternativ

Information om scenario

Det här exempelscenariot visar hur du använder Azure Synapse Analytics med den omfattande familjen Med Azure Data Services för att skapa en modern dataplattform som kan hantera de vanligaste datautmaningarna i en organisation.

Potentiella användningsfall

Den här metoden kan också användas för att:

  • Upprätta en dataproduktarkitektur som består av ett informationslager för strukturerade data och en datasjö för halvstrukturerade och ostrukturerade data. Du kan välja att distribuera en enskild dataprodukt för centraliserade miljöer eller flera dataprodukter för distribuerade miljöer, till exempel Data Mesh. Se mer information om Datahantering- och datalandningszoner.
  • Integrera relationsdatakällor med andra ostrukturerade datauppsättningar med hjälp av stordatabehandlingstekniker.
  • Använd semantisk modellering och kraftfulla visualiseringsverktyg för enklare dataanalys.
  • Dela datauppsättningar inom organisationen eller med betrodda externa partner.
  • Implementera kunskapsutvinningslösningar för att extrahera värdefull affärsinformation som är dold i bilder, PDF-filer, dokument och så vidare.

Rekommendationer

Identifiera och styra

Datastyrning är en vanlig utmaning i stora företagsmiljöer. Å ena sidan måste affärsanalytiker kunna identifiera och förstå datatillgångar som kan hjälpa dem att lösa affärsproblem. Å andra sidan vill chief data officers ha insikter om sekretess och säkerhet för affärsdata.

Microsoft Purview

  1. Använd Microsoft Purview för dataidentifiering och insikter om dina datatillgångar, dataklassificering och känslighet, som täcker hela organisationens datalandskap.

  2. Microsoft Purview kan hjälpa dig att upprätthålla en företagsordlista med den specifika affärsterminologi som krävs för att användarna ska förstå semantiken i vad datamängder betyder och hur de är avsedda att användas i hela organisationen.

  3. Du kan registrera alla dina datakällor och organisera dem i samlingar, vilket också fungerar som en säkerhetsgräns för dina metadata.

  4. Konfigurera regelbundna genomsökningar för att automatiskt katalogisera och uppdatera relevanta metadata om datatillgångar i organisationen. Microsoft Purview kan också automatiskt lägga till information om dataursprung baserat på information från Azure Data Factory eller Azure Synapse-pipelines.

  5. Dataklassificering och känslighetsetiketter för data kan läggas till automatiskt i dina datatillgångar baserat på förkonfigurerade regler eller tullregler som tillämpas under de regelbundna genomsökningarna.

  6. Datastyrningspersonal kan använda rapporter och insikter som genereras av Microsoft Purview för att behålla kontrollen över hela datalandskapet och skydda organisationen mot eventuella säkerhets- och sekretessproblem.

Plattformstjänster

För att förbättra kvaliteten på dina Azure-lösningar följer du de rekommendationer och riktlinjer som definieras i Azure Well-Architected Framework med fem grundpelare för arkitekturens utmärkthet: Kostnadsoptimering, driftseffektivitet, prestandaeffektivitet, tillförlitlighet och säkerhet.

Enligt dessa rekommendationer bör tjänsterna nedan betraktas som en del av designen:

  1. Microsoft Entra-ID: identitetstjänster, enkel inloggning och multifaktorautentisering i Azure-arbetsbelastningar.
  2. Azure Cost Management: ekonomisk styrning över dina Azure-arbetsbelastningar.
  3. Azure Key Vault: säker hantering av autentiseringsuppgifter och certifikat. Azure Synapse Pipelines, Azure Synapse Spark-pooler och Azure ML kan till exempel hämta autentiseringsuppgifter och certifikat från Azure Key Vault som används för säker åtkomst till datalager.
  4. Azure Monitor: samla in, analysera och agera på telemetriinformation om dina Azure-resurser för att proaktivt identifiera problem och maximera prestanda och tillförlitlighet.
  5. Microsoft Defender för molnet: stärka och övervaka säkerhetsstatusen för dina Azure-arbetsbelastningar.
  6. Azure DevOps & GitHub: Implementera DevOps-metoder för att framtvinga automatisering och efterlevnad av dina pipelines för utveckling och distribution av arbetsbelastningar för Azure Synapse och Azure ML.
  7. Azure Policy: Implementera organisationsstandarder och styrning för resurskonsekvens, regelefterlevnad, säkerhet, kostnad och hantering.

Att tänka på

Dessa överväganden implementerar grundpelarna i Azure Well-Architected Framework, som är en uppsättning vägledande grundsatser som kan användas för att förbättra kvaliteten på en arbetsbelastning. Mer information finns i Microsoft Azure Well-Architected Framework.

Teknikerna i den här arkitekturen valdes eftersom var och en av dem tillhandahåller de funktioner som krävs för att hantera de vanligaste datautmaningarna i en organisation. Dessa tjänster uppfyller kraven för skalbarhet och tillgänglighet, samtidigt som de hjälper dem att kontrollera kostnaderna. De tjänster som omfattas av den här arkitekturen är bara en delmängd av en mycket större familj av Azure-tjänster. Liknande resultat kan uppnås med hjälp av andra tjänster eller funktioner som inte omfattas av den här designen.

Specifika affärskrav för dina analysanvändningsfall kan också be om användning av olika tjänster eller funktioner som inte beaktas i den här designen.

Liknande arkitektur kan också implementeras för förproduktionsmiljöer där du kan utveckla och testa dina arbetsbelastningar. Överväg de specifika kraven för dina arbetsbelastningar och funktionerna i varje tjänst för en kostnadseffektiv förproduktionsmiljö.

Kostnadsoptimering

Kostnadsoptimering handlar om att titta på sätt att minska onödiga utgifter och förbättra drifteffektiviteten. Mer information finns i Översikt över kostnadsoptimeringspelare.

Normalt beräknar du kostnader med hjälp av Azures priskalkylator. Den idealiska individuella prisnivån och den totala totala kostnaden för varje tjänst som ingår i arkitekturen beror på mängden data som ska bearbetas och lagras och den acceptabla prestandanivå som förväntas. Använd guiden nedan för att lära dig mer om hur varje tjänst prissätts:

  • Med serverlös arkitektur i Azure Synapse Analytics kan du skala dina beräknings- och lagringsnivåer oberoende av varandra. Beräkningsresurser debiteras baserat på användning och du kan skala eller pausa dessa resurser på begäran. Lagringsresurser debiteras per terabyte, så dina kostnader ökar när du matar in mer data.

  • Azure Data Lake Gen 2 debiteras baserat på mängden data som lagras och baserat på antalet transaktioner för att läsa och skriva data.

  • Azure Event Hubs och Azure IoT Hubs debiteras baserat på mängden beräkningsresurser som krävs för att bearbeta dina meddelandeströmmar.

  • Azure Machine Learning-avgifterna kommer från mängden beräkningsresurser som används för att träna och distribuera dina maskininlärningsmodeller.

  • Cognitive Services debiteras baserat på antalet anrop du gör till tjänst-API:erna.

  • Microsoft Purview prissätts baserat på antalet datatillgångar i katalogen och mängden beräkningskraft som krävs för att genomsöka dem.

  • Azure Stream Analytics debiteras baserat på den mängd beräkningskraft som krävs för att bearbeta dina dataströmfrågor.

  • Power BI har olika produktalternativ för olika krav. Power BI Embedded tillhandahåller ett Azure-baserat alternativ för inbäddning av Power BI-funktioner i dina program. En Power BI Embedded-instans ingår i prisexemplet ovan.

  • Azure Cosmos DB prissätts baserat på mängden lagrings- och beräkningsresurser som krävs av dina databaser.

Distribuera det här scenariot

Med den här distributionsacceleratorn kan du implementera hela referensarkitekturen eller välja vilka arbetsbelastningar du behöver för ditt analysanvändningsfall. Du kan också välja om tjänster ska vara tillgängliga via offentliga slutpunkter eller om de endast ska nås via privata slutpunkter.

Använd följande knapp för att distribuera referensen med hjälp av Azure-portalen.

Distribuera till Azure

Detaljerad information och ytterligare distributionsalternativ finns i GitHub-lagringsplatsen för distributionsacceleratorn med dokumentation och kod som används för att definiera den här lösningen.

Deltagare

Den här artikeln uppdateras och underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudförfattare:

Om du vill se icke-offentliga LinkedIn-profiler loggar du in på LinkedIn.

Nästa steg