Dataprodukter för analys i molnskala i Azure

Artikel
07/11/2023

Dataprodukter är data som hanteras som produkter och beräknas, sparas och hanteras av flerspråkiga beständighetstjänster, vilket kan krävas av vissa användningsfall. Processen för att skapa och betjäna en dataprodukt kan kräva tjänster och tekniker som inte ingår i kärntjänsterna i datalandningszonen . Ett exempel på detta är rapportering med nischkrav, till exempel efterlevnad och skatterapportering.

Designöverväganden

En datalandningszon kan betjänas med flera dataprodukter som skapats genom att mata in data från samma datalandningszon eller från flera datalandningszoner. Detta visas i följande diagram.

Diagram över förbrukning av landningszoner för flera data.

Exemplet ovan visar:

Förbrukning av intrazondata:
- Dataprodukt B förbrukar data från dataprodukt A och andra data eller dataprodukter som finns i datasjön inom sin egen landningszon.
- Dataprodukterna C och D använder endast data från sina egna respektive datalandningszoner.
Dataförbrukning mellan zoner:
- Dataprodukt B förbrukar också data från dataprodukt C och data i datasjön i landningszon 3.

Viktigt

När det gäller förbrukning av interzondata, eftersom dataprodukt B skapas genom läsning från datalandningszon 3, kräver den här läsåtkomsten godkännande från datalandningszonens drifts - och integreringsåtgärder i datalandningszon 3.

Viktigt

Dataprodukt B förbrukar data från dataprodukterna A och C. Innan detta kan inträffa måste dataprodukt B registrera sin förbrukning av dataprodukter via datadelningsavtal. Det här datadelningsavtalet bör uppdatera ursprunget från dataprodukt A till dataprodukt B och från dataprodukt C till dataprodukt B.

Resursgruppen för en dataprodukt innehåller alla tjänster som krävs för att skapa och underhålla den. Vi kan kalla den här resursgruppen för ett dataprogram. Exempel på tjänster som kan ingå i ett dataprogram är Azure Functions, Azure App Service, Logic Apps, Azure Analysis Services, Azure Cognitive Services, Azure Machine Learning, Azure SQL Database Azure Database for MySQLoch Azure Cosmos DB. Mer information finns i dataprogramexempel.

Dataprodukter har data från READ-datakällor som har tillämpat vissa datatransformeringar. Exempel kan vara en nyligen granskad datauppsättning eller en BI-rapport.

Designrekommendationer

Skapa dataprodukter i din datalandningszon genom att följa designprinciper som gör att du kan skala med datastyrning. Följande avsnitt innehåller designrekommendationer som hjälper dig när du planerar ditt dataprograms ekosystem.

Distribuera flera resursgrupper

Varje dataprogram är en resursgrupp. Eftersom dataprogram är beräkningstjänster, flerspråkiga beständighetstjänster eller båda kan de bara krävas beroende på vissa användningsfall. Därför anses de vara en valfri komponent för datalandningszoner. Om du behöver dataprogram kan du skapa flera resursgrupper efter dataprogram, vilket visas i följande diagram.

Diagram över resursgrupper för dataprogram.

Ange skyddsräcken

Azure Policy styr standardkonfigurationen av tjänster i en datalandningszon. Tänk på driftanalys som flera resursgrupper som ditt dataproduktteam kan begära från en standardtjänstkatalog. Med hjälp av Azure Policy kan du konfigurera säkerhetsgränsen och den nödvändiga funktionsuppsättningen.

Viktigt

Konfigurera en Azure Policy för varje dataprogram för att skapa konsekvens.

Använda data från flera platser

Dataprogram hanterar, organiserar och förstår data från flera datatillgångar och visar alla insikter som vunnits. En dataprodukt är resultatet av data från ett eller flera dataprogram i datalandningszoner. Ge dina dataprogram åtkomst till data från flera och olika källor vid behov.

Skala efter behov

Tjänster som utgör dataprogram är inkrementella distributioner till datalandningszonen. Skala dina dataprogram efter behov.

Aktivera dataidentifiering

Registrera dina dataprodukter automatiskt i en datakatalog, till exempel Azure Purview , för att tillåta datagenomsökning.

Identifiera dina dataprodukter

När du börjar planera en datalandningszon kan du identifiera så många dataprodukter (och de dataprogram som matar ut och underhåller dem) efter behov för att hjälpa till att driva din dataproduktprogramarkitektur. Överensstämmelse med implementerad plattformsstyrning bör spela den största rollen i dina beslut.

Fokusera på hur dina dataprogram är dataproducenter och konsumenter för andra. Anta till exempel att du har identifierat en uppsättning dataprodukter (A, B, C och D) som produceras och används. Du behöver dataprodukterna A och D som källor för data i dataprogram B för dataprodukt B. Dataprodukt B skapas från de data som dataprogram B förbrukar från dataprodukterna A och D. Dataprogram B fungerar som själva dataproducenten och genererar även data för dataprodukt C.

Diagram över en dataproducent och konsumenter.

Kontrollera dataprogrammiljön med infrastruktur som kod

Styrning och infrastruktur som kod bör styra dataprogrammiljön i ekosystemet för dina dataprodukter, som du ser i föregående diagram.

Publicera datamodeller

Dina dataproduktteam bör publicera sina datamodeller på en modelllagringsplats.

Ange förväntningar för dataproduktanvändare

Uppdatera dina avtal för datadelning med serviceavtal och certifieringar för dina dataprodukter så att du kan förmedla korrekta förväntningar till potentiella användare av dataprodukten.

Avbilda ursprung

Om dataprodukt B skapas från data som kommer från dataprodukterna A och D måste ursprunget samlas in från A och D till B. Ytterligare ursprung bör också samlas in för dataprodukt C, eftersom den skapas med data från dataprodukt B. Uppdaterad härkomst bör samlas in i ett data härkomstprogram före varje utgåva av din dataprodukt.

Anteckning

Med Hjälp av Azure Pipelines kan du skapa godkännandegrindar och anropa funktioner som kan se till att metadata, ursprung och serviceavtal registreras i rätt styrningstjänst.

Definiera arkitektur för dataprogram

Du måste skapa en detaljerad arkitektur för varje dataprodukt som helt definierar dess relation till andra dataprodukter, dess beroenden och dess åtkomstkrav.

Exempel på designscenario

För att förstå arkitekturdefinitionsprocessen kan du utforska följande exempel på ett finansinstitut och dess kreditövervakningsdataprodukt.

Diagram över arkitekturen define-data-product i detalj.

Kreditövervakningsdataprodukten som visas i det här diagrammet förbrukar data från ett läsdatalager som har matats in av integrationsåtgärderna. Den producerar dataprodukter som också används av två andra dataprodukter.

Anteckning

En läsdatakälla eller ett arkiv kallas även för en golden record-källa. Dessa datakällor har rensats men inga transformeringar har tillämpats på dem.

Produktteamet för kreditövervakningsdata begär läsåtkomst för att läsa datalager som de behöver för att skapa dataprodukter. Deras begäranden dirigeras till ägarna av data för godkännande. När de har fått godkännande kan produktteamet börja skapa sitt dataprogram.

Data från den lästa datakällan omvandlas till kreditövervakningsdataprodukterna. Alla nya dataprodukter lagras i datasjöns organiserade lager. Dessa nya dataprodukter och det nya data härstamningen bör registreras som en del av DevOps-distributionsprocessen. En funktion kan kontrollera registrerade metadata med datatillgångens fysiska struktur. Den bör registrera beroendet av datatillgångarna och dataprodukterna för läsdatakällan.

Produktteamet för godkännande av lån är beroende av några av kreditövervakningsdataprodukterna. De lånar godkännandeteamet kan begära läsåtkomst till de kreditövervakningsdataprodukter som de behöver för sina dataprodukter. När de släpper sin produkt för godkännande av lån och dess dataprogram bör alla dataprodukttillgångar, ursprung och modeller registreras i relevanta styrningstjänster.

Exempeldataprogram

Följande avsnitt innehåller exempeldataprogram för att ytterligare illustrera scenarier för dataprogram.

Dataanalys och data science-dataprogram

Ett program för dataanalys och datavetenskap kan innehålla de tjänster som visas i exempeldataprogrammet product-analytics-rg.

Anteckning

Dataprogrammet ovan är tillgängligt som en mall, som distribuerar en uppsättning tjänster som du kan använda för dataanalys och datavetenskap. Precis som alla våra mallar är den här dataproduktprogrammallen en skiss som du kan använda för att snabbt skapa miljöer för tvärfunktionella team. Alla tjänster som du inte behöver måste uttryckligen inaktiveras.

Dataproduktanalysmallen innehåller alla mallar för att distribuera en dataprodukt för analys och datavetenskap i en datalandningszon i molnskala.

Distributionen och kodartefakterna innehåller följande tjänster:

Machine Learning
Key Vault
Application Insights
Storage
Container Registry
Cognitive Services (valfritt)
Data Factory (välj mellan Data Factory och Synapse)
Synapse-arbetsyta (välj mellan Data Factory och Synapse)
Azure Search (valfritt)
SQL-pool (valfritt)
BigData-pool (valfritt)

Batch-dataprogram

Batch Data Application-mallen innehåller alla mallar för att distribuera en dataprodukt för batchdatabearbetning i en datalandningszon för analysscenario i molnskala.

Distributionen och kodartefakterna innehåller följande tjänster:

Key Vault
Data Factory (välj mellan Data Factory och Synapse)
Azure Cosmos DB (valfritt)
Synapse-arbetsyta (välj mellan Data Factory och Synapse)
MySQL-databas (valfritt)
Azure SQL Database (valfritt)
PostgreSQL-databas (valfritt)
MariaDB-databas (valfritt)
SQL-pool (valfritt)
SQL Server (valfritt)
Elastisk SQL-pool (valfritt)
BigData-pool

Strömmande dataprogram

Mallen Strömmande dataprogram innehåller alla mallar för att distribuera en dataprodukt för databearbetning i realtid i en datalandningszon för analysscenario i molnskala

Distributionen och kodartefakterna innehåller följande tjänster:

Information om hur du hittar de lagringsplatser som innehåller de tidigare nämnda distributionsmallarna finns i distributionsmallar för analys i molnskala

Nästa steg

Dataprogram (källjusterade)

Dataprodukter för analys i molnskala i Azure

Designöverväganden

Designrekommendationer

Distribuera flera resursgrupper

Ange skyddsräcken

Använda data från flera platser

Skala efter behov

Aktivera dataidentifiering

Identifiera dina dataprodukter

Kontrollera dataprogrammiljön med infrastruktur som kod

Publicera datamodeller

Ange förväntningar för dataproduktanvändare

Avbilda ursprung

Definiera arkitektur för dataprogram

Exempel på designscenario

Exempeldataprogram

Dataanalys och data science-dataprogram

Batch-dataprogram

Strömmande dataprogram

Nästa steg

Ytterligare resurser