Datalagerhantering och analys

Azure Data Lake Storage
Azure Cosmos DB
Azure Data Factory
Azure SQL Database
Azure Table Storage

Det här exempelscenariot visar en datapipeline som integrerar stora mängder data från flera källor i en enhetlig analysplattform i Azure. Det här specifika scenariot baseras på en försäljnings- och marknadsföringslösning, men designmönstren är relevanta för många branscher som kräver avancerad analys av stora datamängder som e-handel, detaljhandel och sjukvård.

Arkitektur

Architecture for a data warehousing and analysis scenario in Azure

Ladda ned en Visio-fil med den här arkitekturen.

Dataflöde

Data flödar genom lösningen på följande sätt:

  1. För varje datakälla exporteras alla uppdateringar regelbundet till ett mellanlagringsområde i Azure Data Lake Storage.
  2. Azure Data Factory läser in data stegvis från Azure Data Lake Storage till mellanlagringstabeller i Azure Synapse Analytics. Data rensas och transformeras under den här processen. PolyBase kan parallellisera processen för stora datamängder.
  3. När du har läst in en ny batch med data i lagret uppdateras en tidigare skapad Azure Analysis Services-tabellmodell. Den här semantiska modellen förenklar analysen av affärsdata och relationer.
  4. Affärsanalytiker använder Microsoft Power BI för att analysera lagrade data via Analysis Services-semantikmodellen.

Komponenter

Företaget har datakällor på många olika plattformar:

  • Lokal SQL Server
  • Oracle lokalt
  • Azure SQL Database
  • Azure Table Storage
  • Azure Cosmos DB

Data läses in från dessa olika datakällor med flera Azure-komponenter:

  • Azure Data Lake Storage används för att mellanlagra källdata innan de läses in i Azure Synapse.
  • Data Factory samordnar omvandlingen av mellanlagrade data till en gemensam struktur i Azure Synapse. Data Factory använder PolyBase när data läses in i Azure Synapse för att maximera dataflödet.
  • Azure Synapse är ett distribuerat system för att lagra och analysera stora datamängder. Dess användning av massiv parallell bearbetning (MPP) gör den lämplig för att köra högpresterande analys. Azure Synapse kan använda PolyBase för att snabbt läsa in data från Azure Data Lake Storage.
  • Analysis Services tillhandahåller en semantisk modell för dina data. Det kan också öka systemets prestanda när du analyserar dina data.
  • Power BI är en uppsättning affärsanalysverktyg för att analysera data och dela insikter. Power BI kan köra frågor mot en semantisk modell som lagras i Analysis Services eller fråga Azure Synapse direkt.
  • Microsoft Entra ID autentiserar användare som ansluter till Analysis Services-servern via Power BI. Data Factory kan också använda Microsoft Entra-ID för att autentisera till Azure Synapse via ett huvudnamn för tjänsten eller hanterad identitet för Azure-resurser.

Alternativ

  • Exempelpipelinen innehåller flera olika typer av datakällor. Den här arkitekturen kan hantera en mängd olika relations- och icke-relationella datakällor.

  • Data Factory samordnar arbetsflödena för din datapipeline. Om du bara vill läsa in data en gång eller på begäran kan du använda verktyg som SQL Server masskopiering (bcp) och AzCopy för att kopiera data till Azure Data Lake Storage. Du kan sedan läsa in data direkt i Azure Synapse med hjälp av PolyBase.

  • Om du har mycket stora datamängder bör du överväga att använda Data Lake Storage, som ger obegränsad lagring för analysdata.

  • Azure Synapse passar inte bra för OLTP-arbetsbelastningar eller datauppsättningar som är mindre än 250 GB. I dessa fall bör du använda Azure SQL Database eller SQL Server.

  • Jämförelser av andra alternativ finns i:

Information om scenario

Det här exemplet visar ett försäljnings- och marknadsföringsföretag som skapar incitamentsprogram. Dessa program belönar kunder, leverantörer, säljare och anställda. Data är grundläggande för de här programmen och företaget vill förbättra insikterna från dataanalys med hjälp av Azure.

Företaget behöver en modern metod för analysdata, så att beslut fattas med rätt data vid rätt tidpunkt. Företagets mål är:

  • Kombinera olika typer av datakällor till en plattform i molnskala.
  • Omvandla källdata till en gemensam taxonomi och struktur för att göra data konsekventa och enkla att jämföra.
  • Läser in data med en mycket parallelliserad metod som kan stödja tusentals incitamentsprogram, utan de höga kostnaderna för att distribuera och underhålla lokal infrastruktur.
  • Minska den tid som behövs för att samla in och transformera data, så att du kan fokusera på att analysera data.

Potentiella användningsfall

Den här metoden kan också användas för att:

  • Upprätta ett informationslager som ska vara en enda sanningskälla för dina data.
  • Integrera relationsdatakällor med andra ostrukturerade datauppsättningar.
  • Använd semantisk modellering och kraftfulla visualiseringsverktyg för enklare dataanalys.

Att tänka på

Dessa överväganden implementerar grundpelarna i Azure Well-Architected Framework, som är en uppsättning vägledande grundsatser som kan användas för att förbättra kvaliteten på en arbetsbelastning. Mer information finns i Microsoft Azure Well-Architected Framework.

Teknikerna i den här arkitekturen valdes eftersom de uppfyllde företagets krav på skalbarhet och tillgänglighet, samtidigt som de hjälpte dem att kontrollera kostnaderna.

Kostnadsoptimering

Kostnadsoptimering handlar om att titta på sätt att minska onödiga utgifter och förbättra drifteffektiviteten. Mer information finns i Översikt över kostnadsoptimeringspelare.

Granska ett prisexempel för ett datalagerscenario via Priskalkylatorn för Azure. Justera värdena för att se hur dina krav påverkar dina kostnader.

  • Med Azure Synapse kan du skala dina beräknings- och lagringsnivåer oberoende av varandra. Beräkningsresurser debiteras per timme och du kan skala eller pausa dessa resurser på begäran. Lagringsresurser debiteras per terabyte, så dina kostnader ökar när du matar in mer data.
  • Kostnaderna för Data Factory baseras på antalet läs-/skrivåtgärder, övervakningsåtgärder och orkestreringsaktiviteter som utförs i en arbetsbelastning. Dina Data Factory-kostnader ökar med varje ytterligare dataström och mängden data som bearbetas av var och en.
  • Analysis Services är tillgängligt på utvecklar-, basic- och standardnivåer. Instanser prissätts baserat på frågebearbetningsenheter (QPU:er) och tillgängligt minne. För att hålla kostnaderna lägre minimerar du antalet frågor som du kör, hur mycket data de bearbetar och hur ofta de körs.
  • Power BI har olika produktalternativ för olika krav. Power BI Embedded tillhandahåller ett Azure-baserat alternativ för inbäddning av Power BI-funktioner i dina program. En Power BI Embedded-instans ingår i prisexemplet ovan.

Deltagare

Den här artikeln underhålls av Microsoft. Den skrevs ursprungligen av följande deltagare.

Huvudförfattare:

Om du vill se icke-offentliga LinkedIn-profiler loggar du in på LinkedIn.

Nästa steg