Analys från Azure Synapse

Synapse Analytics
Cosmos DB
Data Factory
Databricks
Event Hubs

Det här exempelscenariot visar hur du använder den omfattande azure-Data Services för att skapa en modern dataplattform som kan hantera de vanligaste datautmaningarna i en organisation.

Lösningen som beskrivs i den här artikeln kombinerar en mängd Azure-tjänster som matar in, lagrar, bearbetar, utökar och betjänar data och insikter från olika källor (strukturerade, halvstrukturerade, ostrukturerade och strömmande).

Relevanta användningsfall

Den här metoden kan också användas för att:

  • Upprätta en datahubb för hela företaget som består av ett informationslager för strukturerade data och en datasjö för halvstrukturerade och ostrukturerade data. Den här datahubben blir den enda sanningskällan för dina rapporteringsdata.
  • Integrera relationsdatakällor med andra ostrukturerade datamängder med hjälp av stordatabearbetningstekniker.
  • Använd semantisk modellering och kraftfulla visualiseringsverktyg för enklare dataanalys.
  • Dela datauppsättningar i organisationen eller med betrodda externa partner.

Arkitektur

Arkitektur för en modern dataplattform med hjälp av Azure-datatjänster

Ladda ned Visio fil för den här arkitekturen.

Anteckning

  • De tjänster som omfattas av den här arkitekturen är bara en delmängd av en mycket större familj av Azure-tjänster. Liknande resultat kan uppnås med hjälp av andra tjänster eller funktioner som inte omfattas av den här designen.
  • Specifika affärskrav för ditt användningsfall för analys kan också be om användning av olika tjänster eller funktioner som inte beaktas i den här designen.

Användningsfall för analys

Analysanvändningsfallen som omfattas av arkitekturen illustreras av de olika datakällorna till vänster i diagrammet. Data flödar genom lösningen längst ned på följande sätt:

Azure Data Services, molnbyggt HTAP med Cosmos DB

  1. Azure Synapse Link för Azure Cosmos DB gör att du kan köra analys i nära realtid över driftdata i Azure Cosmos DB med hjälp av de två analysmotorer som är tillgängliga från din Azure Synapse-arbetsyta: SQL Serverlösa pooler och Spark-pooler.

  2. Med antingen en SQL Serverlös fråga eller en Notebook-fil för Spark-poolkan du komma åt Cosmos DB-analysarkivet och sedan kombinera datauppsättningar från dina driftdata nästan i realtid med data från din datasjö eller från ditt informationslager.

  3. De resulterande datauppsättningarna från SQL serverlösa frågor kan bevaras i din datasjö. Om du använder Notebook-datorer i Spark kan de resulterande datauppsättningarna bevaras i din datasjö eller ditt informationslager(SQL pool).

  4. Läs in relevanta data från Azure Synapse SQL eller datasjö till Power BI datauppsättningar för datavisualisering. Power BI implementerar en semantisk modell för att förenkla analysen av affärsdata och relationer.

  5. Affärsanalytiker använder Power BI rapporter och instrumentpaneler för att analysera data och härleda affärsinsikter.

  6. Data kan också delas på ett säkert sätt till andra affärsenheter eller externa betrodda partner med hjälp av Azure Data Share.

Relationsdatabaser

  1. Använd Azure Synapse pipelines för att hämta data från en mängd olika databaser, både lokalt och i molnet. Pipelines kan utlösas baserat på ett fördefinierat schema som svar på en händelse eller anropas explicit via REST-API:er.

  2. Från Azure Synapse-pipelinen använder du en Kopiera data-aktivitet för att mellanse data som kopieras från relationsdatabaserna till raw-zonen för din Azure Data Lake Store Gen 2-datasjö. Du kan spara data i avgränsat textformat eller komprimerade som Parquet-filer.

  3. Använd antingen dataflöden,SQL serverlösa frågor eller Spark-anteckningsböcker för att validera, transformera och flytta datauppsättningarna till din kontrollerade zon i din datasjö.

    1. Som en del av dina datatransformationer kan du anropa maskininlärningsmodeller från dina SQL-pooler med hjälp av standard-T-SQL eller Spark-anteckningsböcker. Dessa ML modeller kan användas för att utöka dina datamängder och generera ytterligare affärsinsikter. Dessa maskininlärningsmodeller kan användas från Azure Cognitive Serviceseller anpassade ML från Azure ML.
  4. Du kan visa din slutliga datauppsättning direkt från datasjöns curated-zon eller använda Kopiera data-aktiviteten för att mata in den slutliga datauppsättningen i dina SQL-pooltabeller med kommandot COPY för snabb inmatning.

  5. Läs in relevanta data från Azure Synapse SQL eller datasjö till Power BI datauppsättningar för datavisualisering. Power BI implementerar en semantisk modell för att förenkla analysen av affärsdata och relationer.

  6. Affärsanalytiker använder Power BI rapporter och instrumentpaneler för att analysera data och härleda affärsinsikter.

  7. Data kan också delas på ett säkert sätt till andra affärsenheter eller externa betrodda partner med hjälp av Azure Data Share.

Halvstrukturerade datakällor

  1. Använd Azure Synapse pipelines för att hämta data från en mängd olika halvstrukturerade datakällor, både lokalt och i molnet. Till exempel:

    • Mata in data från filbaserade källor som innehåller CSV- eller JSON-filer.
    • Anslut till SQL databaser som Cosmos DB eller Mongo DB.
    • Anropa REST API:er som tillhandahålls av SaaS-program som fungerar som datakälla för pipelinen.
  2. Från Azure Synapse-pipelinen använder du en Kopiera data-aktivitet för att mellanse data som kopierats från de halvstrukturerade datakällorna till raw-zonen för din Azure Data Lake Store Gen 2-datasjö. Du bör spara data som bevarar det ursprungliga formatet från datakällorna.

  3. Använd antingen dataflöden,SQL serverlösa frågor eller Spark-anteckningsböcker för att validera, transformera och flytta dina datauppsättningar till din kontrollerade zon i din datasjö. SQL serverlösa frågor exponerar underliggande CSV-,Parquet- eller JSON-filer som externa tabeller så att de kan efterfrågas med hjälp av T-SQL.

    1. Som en del av dina datatransformationer kan du anropa maskininlärningsmodeller från dina SQL-pooler med hjälp av standard-T-SQL eller Spark-anteckningsböcker. Dessa ML modeller kan användas för att utöka dina datamängder och generera ytterligare affärsinsikter. Dessa maskininlärningsmodeller kan användas från Azure Cognitive Serviceseller anpassade ML från Azure ML.
  4. Du kan visa din slutliga datauppsättning direkt från datasjöns curated-zon eller använda Kopiera data-aktiviteten för att mata in den slutliga datauppsättningen i dina SQL-pooltabeller med kommandot COPY för snabb inmatning.

  5. Läs in relevanta data från Azure Synapse SQL eller datasjö till Power BI datauppsättningar för datavisualisering. Power BI implementerar en semantisk modell för att förenkla analysen av affärsdata och relationer.

  6. Affärsanalytiker använder Power BI rapporter och instrumentpaneler för att analysera data och härleda affärsinsikter.

  7. Data kan också delas på ett säkert sätt till andra affärsenheter eller externa betrodda partner med hjälp av Azure Data Share.

Icke-strukturerade datakällor

  1. Använd Azure Synapse pipelines för att hämta data från en mängd olika icke-strukturerade datakällor, både lokalt och i molnet. Till exempel:

    • Mata in video, bild, ljud eller fritext från filbaserade källor som innehåller källfilerna.
    • Anropa REST API:er som tillhandahålls av SaaS-program som fungerar som datakälla för pipelinen.
  2. Från Azure Synapse-pipelinen använder du en Kopiera data-aktivitet för att mellanse data som kopierats från de icke-strukturerade datakällorna till raw-zonen för din Azure Data Lake Store Gen 2-datasjö. Du bör spara data som bevarar det ursprungliga formatet från datakällorna.

  3. Använd Spark-anteckningsböcker för att verifiera, transformera, utöka och flytta dina datauppsättningar till din curated-zon i din datasjö.

    1. Som en del av dina datatransformationer kan du anropa maskininlärningsmodeller från dina SQL-pooler med hjälp av standard-T-SQL eller Spark-anteckningsböcker. Dessa ML modeller kan användas för att utöka dina datamängder och generera ytterligare affärsinsikter. Dessa maskininlärningsmodeller kan användas från Azure Cognitive Serviceseller anpassade ML från Azure ML.
  4. Du kan visa din slutliga datauppsättning direkt från datasjöns curated-zon eller använda Kopiera data-aktiviteten för att mata in den slutliga datauppsättningen i dina informationslagertabeller med hjälp av kommandot COPY för snabb inmatning.

  5. Läs in relevanta data från Azure Synapse SQL eller datasjö till Power BI datauppsättningar för datavisualisering. Power BI implementerar en semantisk modell för att förenkla analysen av affärsdata och relationer.

  6. Affärsanalytiker använder Power BI rapporter och instrumentpaneler för att analysera data och härleda affärsinsikter.

  7. Data kan också delas på ett säkert sätt till andra affärsenheter eller externa betrodda partner med hjälp av Azure Data Share.

Strömning

  1. Använd Azure Event Hubs eller Azure IoT Hubs för att mata in dataströmmar som genereras av klientprogram eller IoT-enheter. Event Hub eller IoT Hub sedan in och lagrar strömmande data som bevarar sekvensen med mottagna händelser. Konsumenter kan sedan ansluta till händelsehubben eller IoT Hub slutpunkter och hämta meddelanden för bearbetning.

  2. Konfigurera Event Hub Capture eller IoT Hub Storage-slutpunkter för att spara en kopia av händelserna i raw-zonen för din Azure Data Lake Store Gen 2-datasjö. Den här funktionen implementerar "Kall sökväg" i Lambda-arkitekturmönstret och gör att du kan utföra historisk analys och trendanalys på dataströmmar som sparats i din datasjö med hjälp av SQL Serverlösa frågor eller Spark-notebook-filer enligt mönstret för halvstrukturerade datakällor som beskrivs ovan.

  3. Använd ett Stream Analytics för att implementera "Hot Path" för Lambda-arkitekturmönstret och härleda insikter från dataströmmen under överföring. Definiera minst en indata för dataströmmen som kommer från din händelsehubb eller IoT Hub, en fråga för att bearbeta indataströmmen och en Power BI-utdata som frågeresultatet ska skickas till.

    1. Som en del av din databearbetning med Stream Analytics kan du anropa maskininlärningsmodeller för att utöka dina dataströmmar och driva affärsbeslut baserat på de förutsägelser som genereras. Dessa maskininlärningsmodeller kan användas från Azure Cognitive Services eller från anpassade ML i Azure Machine Learning.
  4. Affärsanalytiker använder sedan Power BI datauppsättningar i realtid och instrumentpanelsfunktioner för att visualisera snabbt föränderliga insikter som genereras av din Stream Analytics fråga.

Identifiera och styra

Datastyrning är en vanlig utmaning i stora företagsmiljöer. Affärsanalytiker måste å ena sidan kunna identifiera och förstå datatillgångar som kan hjälpa dem att lösa affärsproblem. Å andra sidan vill Chief Data Officer ha insikter om sekretess och säkerhet för affärsdata.

Azure Purview

  1. Använd Azure Purview fördataidentifiering och styrningsinsikter om dina datatillgångar,dataklassificering och känslighet som täcker hela organisationens datalandskap.

  2. Azure Purview kan hjälpa dig att upprätthålla en företagsordlistor med den specifika affärsterminologi som krävs för att användarna ska förstå semantiken för vad datauppsättningar innebär och hur de är avsedda att användas i hela organisationen.

  3. Du kan registrera alla dina datakällor och konfigurera regelbundna genomsökningar för att automatiskt katalogisera och uppdatera relevanta metadata om datatillgångar i organisationen. Azure Purview kan också automatiskt lägga till dataurströmsinformation baserat på information från Azure Data Factory eller Azure Synapse pipelines.

  4. Dataklassificeringoch känslighetsetiketter för data kan läggas till automatiskt i dina datatillgångar baserat på förkonfigurerade regler eller regelregler som tillämpas under regelbundna genomsökningar.

  5. Datastyrningspersonal kan använda rapporter och insikter som genereras av Azure Purview för att behålla kontrollen över hela datalandskapet och skydda organisationen mot eventuella säkerhets- och sekretessproblem.

Plattformstjänster

För att förbättra kvaliteten på dina Azure-lösningar följer du rekommendationerna och riktlinjerna som definierats i Azure Well-Architected Framework fem grundpelare för utmärkt arkitektur: Kostnadsoptimering, driftseffektivitet, prestandaeffektivitet, tillförlitlighet och säkerhet.

Efter dessa rekommendationer bör tjänsterna nedan betraktas som en del av designen:

  1. Azure Active Directory:identitetstjänster, enkel inloggning och multifaktorautentisering mellan Azure-arbetsbelastningar.
  2. Azure Cost Management:ekonomisk styrning över dina Azure-arbetsbelastningar.
  3. Azure Key Vault:säker hantering av autentiseringsuppgifter och certifikat. Till exempel kan Azure Synapse PipelinesAzure Synapse Spark-pooler och Azure ML hämta autentiseringsuppgifter och certifikat från Azure Key Vault används för att få säker åtkomst till datalager.
  4. Azure Monitor:samla in, analysera och agera på telemetriinformation om dina Azure-resurser för att proaktivt identifiera problem och maximera prestanda och tillförlitlighet.
  5. Microsoft Defender för moln:förbättra och övervaka säkerhetsstatusen för dina Azure-arbetsbelastningar.
  6. Azure DevOpsGitHub:implementera DevOps-metoder för att framtvinga automatisering och efterlevnad för dina pipelines för arbetsbelastningsutveckling och -distribution för Azure Synapse och Azure ML.
  7. Azure Policy:implementera organisationsstandarder och styrning för resurskonsekvens, regelefterlevnad, säkerhet, kostnad och hantering.

Arkitekturkomponenter

Följande Azure-tjänster har använts i arkitekturen:

  • Azure Synapse Analytics
  • Azure Data Lake Gen2
  • Azure Cosmos DB
  • Azure Cognitive Services
  • Azure Machine Learning
  • Azure Event Hubs
  • Azure IoT Hub
  • Azure Stream Analytics
  • Azure Purview
  • Azure Data Share
  • Microsoft Power BI
  • Azure Active Directory
  • Azure Cost Management
  • Azure Key Vault
  • Azure Monitor
  • Microsoft Defender for Cloud
  • Azure DevOps
  • Azure Policy
  • GitHub

Alternativ

Överväganden

Teknikerna i den här arkitekturen har valts eftersom var och en av dem tillhandahåller de funktioner som krävs för att hantera de vanligaste datautmaningarna i en organisation. Dessa tjänster uppfyller kraven för skalbarhet och tillgänglighet, samtidigt som de hjälper dem att kontrollera kostnaderna. De tjänster som omfattas av den här arkitekturen är bara en delmängd av en mycket större familj av Azure-tjänster. Liknande resultat kan uppnås med hjälp av andra tjänster eller funktioner som inte omfattas av den här designen.

Specifika affärskrav för dina användningsfall för analys kan också be om användning av olika tjänster eller funktioner som inte beaktas i den här designen.

Liknande arkitektur kan också implementeras för förproduktionsmiljöer där du kan utveckla och testa dina arbetsbelastningar. Överväg de specifika kraven för dina arbetsbelastningar och funktionerna i varje tjänst för en kostnadseffektiv förproduktionsmiljö.

Prissättning

I allmänhet använder du priskalkylatorn för Azure för att beräkna kostnader. Den idealiska enskilda prisnivån och den totala kostnaden för varje tjänst som ingår i arkitekturen är beroende av mängden data som ska bearbetas och lagras och den godtagbara prestandanivå som förväntas. Använd guiden nedan för att lära dig mer om hur varje tjänst prissätts:

  • Azure Synapse Analytics serverlös arkitektur kan du skala dina beräknings- och lagringsnivåer oberoende av varandra. Beräkningsresurser debiteras baserat på användning och du kan skala eller pausa dessa resurser på begäran. Storage resurser debiteras per terabyte, så kostnaderna ökar när du matar in mer data.

  • Azure Data Lake Gen 2 debiteras baserat på mängden data som lagras och baserat på antalet transaktioner för att läsa och skriva data.

  • Azure Event Hubsoch Azure IoT Hubs debiteras baserat på mängden beräkningsresurser som krävs för att bearbeta dina meddelandeströmmar.

  • Azure Machine Learning kostnader kommer från mängden beräkningsresurser som används för att träna och distribuera dina maskininlärningsmodeller.

  • Cognitive Services debiteras baserat på antalet anrop du gör till tjänst-API:erna.

  • Azure Purview prissätts baserat på antalet datatillgångar i katalogen och mängden beräkningskraft som krävs för att genomsöka dem.

  • Azure Stream Analytics debiteras baserat på den mängd beräkningskraft som krävs för att bearbeta dina stream-frågor.

  • Power BI har olika produktalternativ för olika krav. Power BI Embedded ett Azure-baserat alternativ för inbäddning Power BI funktioner i dina program. En Power BI Embedded-instans ingår i prissättningsexempel ovan.

  • Azure CosmosDB prissätts baserat på mängden lagrings- och beräkningsresurser som krävs av dina databaser.

Nästa steg