Datalagerhantering och analys

Blob Storage
Cosmos DB
Data Factory
SQL Database
Table Storage

Det här exempelscenariot visar en datapipeline som integrerar stora mängder data från flera källor till en enhetlig analysplattform i Azure. Det här specifika scenariot baseras på en försäljnings- och marknadsföringslösning, men designmönstren är relevanta för många branscher som kräver avancerad analys av stora datamängder som e-handel, detaljhandel och sjukvård.

Det här exemplet visar ett försäljnings- och marknadsföringsföretag som skapar incitamentprogram. De här programmen ger kunderna, leverantörerna, säljarna och medarbetarna ett pris. Data är grundläggande för dessa program och företaget vill förbättra insikterna som fås genom dataanalys med hjälp av Azure.

Företaget behöver en modern metod för att analysera data, så att beslut fattas med rätt data vid rätt tidpunkt. Företagets mål är:

  • Kombinera olika typer av datakällor till en plattform i molnskala.
  • Transformera källdata till en gemensam taxonomi och struktur för att göra data konsekventa och enkla att jämföra.
  • Läsa in data med en mycket parallelliserad metod som kan stödja tusentals incitamentprogram, utan de höga kostnaderna för att distribuera och underhålla lokal infrastruktur.
  • Minska den tid som krävs för att samla in och transformera data, så att du kan fokusera på att analysera data.

Relevanta användningsfall

Den här metoden kan också användas för att:

  • Upprätta ett informationslager som ska vara en enda sanningskälla för dina data.
  • Integrera relationsdatakällor med andra ostrukturerade datamängder.
  • Använd semantisk modellering och kraftfulla visualiseringsverktyg för enklare dataanalys.

Arkitektur

Arkitektur för ett datalager- och analysscenario i Azure

Data flödar genom lösningen på följande sätt:

  1. För varje datakälla exporteras alla uppdateringar regelbundet till ett mellanlagringsområde i Azure Blob Storage.
  2. Data Factory inkrementellt data från Blob Storage till mellanlagringstabeller i Azure Synapse Analytics. Data rensas och transformeras under den här processen. PolyBase kan parallellisera processen för stora datamängder.
  3. När du har inläsning av en ny databatch i lagret uppdateras Analysis Services tidigare skapade tabellmodellen. Den här semantiska modellen förenklar analysen av affärsdata och relationer.
  4. Affärsanalytiker använder Microsoft Power BI för att analysera informationslagerdata via den Analysis Services semantikmodellen.

Komponenter

Företaget har datakällor på många olika plattformar:

  • SQL Server lokalt
  • Lokal Oracle
  • Azure SQL Database
  • Azure Table Storage
  • Cosmos DB

Data läses in från dessa olika datakällor med hjälp av flera Azure-komponenter:

  • Blob Storage används för att mellaninstallera källdata innan de läses in i Azure Synapse.
  • Data Factory orkestreras omvandlingen av mellanstegsdata till en gemensam struktur i Azure Synapse. Data Factory använder PolyBase vid inläsning av data i Azure Synapse för att maximera dataflödet.
  • Azure Synapse är ett distribuerat system för lagring och analys av stora datamängder. Användningen av massiv parallell bearbetning (MPP) gör den lämplig för att köra analyser med höga prestanda. Azure Synapse kan använda PolyBase för att snabbt läsa in data från Blob Storage.
  • Analysis Services en semantisk modell för dina data. Det kan också öka systemets prestanda vid analys av dina data.
  • Power BI är en uppsättning affärsanalysverktyg för att analysera data och dela insikter. Power BI kan fråga en semantisk modell som lagras i Analysis Services, eller så kan den fråga Azure Synapse direkt.
  • Azure Active Directory (Azure AD) autentiserar användare som ansluter till Analysis Services-servern via Power BI. Data Factory kan också använda Azure AD för att autentisera till Azure Synapse via ett huvudnamn för tjänsten eller hanterad identitet för Azure-resurser.

Alternativ

  • Exempelpipelinen innehåller flera olika typer av datakällor. Den här arkitekturen kan hantera en mängd olika relationsbaserade och icke-relationella datakällor.

  • Data Factory dirigerar arbetsflödena för din datapipeline. Om du bara vill läsa in data en gång eller på begäran kan du använda verktyg som SQL Server masskopiering (bcp) och AzCopy för att kopiera data till Blob Storage. Du kan sedan läsa in data direkt i Azure Synapse med PolyBase.

  • Om du har mycket stora datamängder bör du överväga att använda Data Lake Storage, som ger obegränsad lagring för analysdata.

  • En lokal installation SQL Server Parallel Data Warehouse också användas för bearbetning av stordata. Driftskostnaderna är dock ofta mycket lägre med en hanterad molnbaserad lösning som Azure Synapse.

  • Azure Synapse passar inte för OLTP-arbetsbelastningar eller datauppsättningar som är mindre än 250 GB. I dessa fall bör du använda Azure SQL Database eller SQL Server.

  • Jämförelser av andra alternativ finns i:

Överväganden

Teknikerna i den här arkitekturen valdes eftersom de uppfyllde företagets krav på skalbarhet och tillgänglighet, samtidigt som de kunde kontrollera kostnaderna.

Prissättning

Granska ett prisexempel för ett datalagerscenario via priskalkylatorn för Azure. Justera värdena för att se hur dina krav påverkar dina kostnader.

  • Azure Synapse kan du skala dina beräknings- och lagringsnivåer oberoende av varandra. Beräkningsresurser debiteras per timme och du kan skala eller pausa dessa resurser på begäran. Storage resurser debiteras per terabyte, så kostnaderna ökar när du matar in mer data.
  • Data Factory kostnader baseras på antalet läs-/skrivåtgärder, övervakningsåtgärder och orkestreringsaktiviteter som utförs i en arbetsbelastning. Dina Data Factory ökar med varje ytterligare dataström och mängden data som bearbetas av var och en.
  • Analysis Services finns i nivåerna utvecklare, basic och standard. Instanser prissätts baserat på frågebearbetningsenheter (QPU:er) och tillgängligt minne. Minimera antalet frågor som du kör, hur mycket data de bearbetar och hur ofta de körs för att hålla kostnaderna nere.
  • Power BI har olika produktalternativ för olika krav. Power BI Embedded ett Azure-baserat alternativ för inbäddning Power BI funktioner i dina program. En Power BI Embedded-instans ingår i prissättningsexempel ovan.

Nästa steg