Utforska bearbetning av analytiska data

Slutförd

Bearbetning av analytiska data använder vanligtvis skrivskyddade (eller skrivskyddade) system som lagrar stora mängder historiska data eller affärsmått. Analys kan baseras på en ögonblicksbild av data vid en viss tidpunkt eller en serie ögonblicksbilder.

Den specifika informationen för ett analysbearbetningssystem kan variera mellan lösningar, men en vanlig arkitektur för analys i företagsskala ser ut så här:

Diagram showing an analytical database architecture with the numbered elements described below.

  1. Driftdata extraheras, transformeras och läses in (ETL) till en datasjö för analys.
  2. Data läses in i ett schema med tabeller – vanligtvis i ett Spark-baserat datasjöhus med tabellabstraktioner över filer i datasjön eller ett informationslager med en helt relationell SQL-motor.
  3. Data i informationslagret kan aggregeras och läsas in i en OLAP-modell (Online Analytical Processing) eller kub. Aggregerade numeriska värden (mått) från faktatabeller beräknas för skärningspunkter mellan dimensioner från dimensionstabeller. Försäljningsintäkter kan till exempel summeras efter datum, kund och produkt.
  4. Data i datasjön, informationslagret och analysmodellen kan efterfrågas för att skapa rapporter, visualiseringar och instrumentpaneler.

Datasjöar är vanliga i storskaliga dataanalysbearbetningsscenarier, där en stor mängd filbaserade data måste samlas in och analyseras.

Informationslager är ett etablerat sätt att lagra data i ett relationsschema som är optimerat för läsåtgärder – främst frågor som stöder rapportering och datavisualisering. Data Lakehouses är en nyare innovation som kombinerar flexibel och skalbar lagring av en datasjö med relationsfrågans semantik i ett informationslager. Tabellschemat kan kräva viss avnormalisering av data i en OLTP-datakälla (introduktion till viss duplicering för att göra frågor snabbare).

En OLAP-modell är en aggregerad typ av datalagring som är optimerad för analytiska arbetsbelastningar. Dataaggregeringar finns i olika dimensioner på olika nivåer, så att du kan öka/minska detaljnivån för att visa aggregeringar på flera hierarkiska nivåer, till exempel för att hitta total försäljning per region, stad eller för en enskild adress. Eftersom OLAP-data är föraggregerade kan frågor för att returnera sammanfattningarna som de innehåller köras snabbt.

Olika typer av användare kan utföra dataanalysarbete i olika steg i den övergripande arkitekturen. Till exempel:

  • Dataforskare kan arbeta direkt med datafiler i en datasjö för att utforska och modellera data.
  • Dataanalytiker kan fråga tabeller direkt i informationslagret för att skapa komplexa rapporter och visualiseringar.
  • Företagsanvändare kan använda föraggregerade data i en analysmodell i form av rapporter eller instrumentpaneler.