Översikt över Azure Data Lake Storage för analys i molnskala

Artikel
10/10/2023

Azure Data Lake är en massivt skalbar och säker datalagring för arbetsbelastningar med hög prestandaanalys. Du kan skapa lagringskonton i en enda resursgrupp för analys i molnskala. Vi rekommenderar att du etablerar tre Azure Data Lake Storage Gen2-konton i en enda resursgrupp som liknar den storage-rg resursgrupp som beskrivs i artikeln översikt över datalandningszoner för analysarkitektur i molnskala.

Varje lagringskonto i din datalandningszon lagrar data i ett av tre steg:

Rådata
Berikade och kuraterade data
Datasjöar för utveckling

Ett dataprogram kan använda berikade och kurerade data från ett lagringskonto som har matats in en automatiserad dataoberoende inmatningstjänst. Du kan skapa ett källjusterat dataprogram om du inte implementerar en motor för dataagnostik eller underlättar komplexa anslutningar för inmatning av data från driftkällor. Det här dataprogrammet följer samma flöde som en dataagnostikmotor när data matas in från externa datakällor.

Data Lake Storage Gen2 har stöd för detaljerade åtkomstkontrollistor (ACL: er) som skyddar data på fil- och mappnivå. Åtkomstkontrollistor kan hjälpa din organisation att implementera strikta säkerhetsåtgärder för autentisering och auktorisering för dataprodukter för att:

Lagra data på ett säkert sätt via kryptering i vila.
Åtkomstkontroller för Microsoft Entra-användare och säkerhetsgrupper via Microsoft Entra-integrering.

Planering av datasjöar

När du planerar en datasjö bör du alltid överväga att tänka på struktur, styrning och säkerhet. Flera faktorer påverkar varje datasjös struktur och organisation:

Den typ av data som lagras
Hur dess data transformeras
Vem kommer åt sina data
Vad dess typiska åtkomstmönster är

Gruppera konsumenter och producenter baserat på deras behov av dataåtkomst. Det är en bra idé att planera implementering och styrning av åtkomstkontroll över din datasjö.

Om din datasjö innehåller några datatillgångar och automatiserade processer som extrahering, transformering, inläsning (ETL) avlastning är planeringen förmodligen ganska enkel. Om din datasjö innehåller hundratals datatillgångar och omfattar automatiserad och manuell interaktion kan du förvänta dig att ägna en längre tid åt planering, eftersom du behöver mycket mer samarbete från dataägare.

Dataträsket analogi

Ett dataträsket är en ohanterad datasjö som nästan inte är tillgänglig för användare. Dataträsket uppstår när du inte implementerar datakvalitets- och datastyrningsåtgärder. Ibland kan du se ett dataträsket i ett informationslager med befintliga hybridmodeller.

Rätt styrning och organisation förhindrar dataträsket. När du skapar en solid grund för din datasjö ökar din chans att lyckas med datasjön och affärsvärdet.

I takt med att storleken, komplexiteten, antalet datatillgångar och antalet användare eller avdelningar i din datasjö växer blir det allt viktigare att du har ett robust datakatalogsystem. Ditt datakatalogsystem säkerställer att användarna kan hitta, tagga och klassificera data medan de bearbetar, använder och styr din datasjö.

Mer information finns i Översikt över datastyrning.

Lagringskonton i en logisk datasjö

Fundera på om din organisation behöver ett eller flera lagringskonton och fundera över vilka filsystem du behöver för att skapa din logiska datasjö. Teknik för enkel lagring ger flera dataåtkomstmetoder och hjälper dig att standardisera i hela organisationen.

Data Lake Storage Gen2 är en fullständigt hanterad plattform som en tjänst (PaaS). Flera lagringskonton eller filsystem kan inte medföra en ekonomisk kostnad förrän data har använts eller lagrats. Observera att varje Azure-resurs har tillhörande administrativa och operativa omkostnader under etablering, säkerhet och styrning, inklusive säkerhetskopieringar och haveriberedskap.

Kommentar

Tre datasjöar illustreras i varje datalandningszon. Beroende på dina krav kan du dock konsolidera de råa, berikade och kuraterade lagren till ett lagringskonto. Du kan skapa ett annat lagringskonto som kallas "utveckling" där datakonsumenter kan ta med sig andra användbara dataprodukter.

Tänk på följande när du bestämmer dig för en konsoliderad eller tre lagringskontometod:

Isolering av datamiljöer och förutsägbarhet
- Du kan isolera aktiviteter som körs i rå- och utvecklingszonerna för att undvika potentiell effekt på den kurerade zonen, som innehåller data med stort affärsvärde som behövs för kritiskt beslutsfattande
Funktioner och funktioner på lagringskontonivå
- Du kan välja om livscykelhanteringsalternativ eller brandväggsregler måste tillämpas på datalandningszonen eller datasjönivån.
- Skapa flera lagringskonton, men inte oönskade silor.
- Undvik dubbletter av dataprojekt på grund av bristande synlighet eller kunskapsdelning i organisationen.
- Se till att du har god datastyrning, projektspårningsverktyg och en datakatalog på plats.
Interaktion mellan verktyg och tekniker för databearbetning med data över flera sjöar baserat på de konfigurerade behörigheterna
Regionala och globala sjöar
- Globalt distribuerade konsumenter eller processer på sjön är känsliga för svarstider som orsakas av geografiska avstånd.
- Det är bra att lagra data lokalt.
- Regelbegränsningar och datasuveränitet kan kräva att data finns kvar i en viss region.
- Mer information finns i distributioner i flera regioner.

Distributioner i flera regioner

När du styrs av regler för datahemvist eller ett krav på att du ska hålla data nära en användarbas kan du behöva skapa Azure Data Lake-konton i flera Azure-regioner. Det gör du genom att skapa en datalandningszon i en region och sedan replikera globala data med azcopy, Azure Data Factory eller produkter från tredje part. Lokala data finns i regionen, medan globala data replikeras i flera regioner.

Nästa steg

Datasjözoner och -containrar