Hierarkisk namnrymd Storage Azure Data Lake Storage Gen2

En viktig mekanism som gör att Azure Data Lake Storage Gen2 kan tillhandahålla filsystemprestanda vid objektlagringsskala och priser är tillägget av en hierarkisk namnrymd. Detta gör att insamlingen av objekt/filer i ett konto kan ordnas i en hierarki med kataloger och kapslade underkataloger på samma sätt som filsystemet på datorn är organiserat. När en hierarkisk namnrymd är aktiverad kan ett lagringskonto tillhandahålla objektlagringens skalbarhet och kostnadseffektivhet, med filsystemssemantik som är bekanta med analysmotorer och ramverk.

Fördelarna med en hierarkisk namnrymd

Följande fördelar är associerade med filsystem som implementerar ett hierarkiskt namnområde över blobdata:

  • Manipulering av atomisk katalog: Objektlager approximerar en kataloghierarki genom att använda en konvention för att bädda in snedstreck (/) i objektnamnet för att ange sökvägssegment. Den här konventionen fungerar för att organisera objekt, men konventionen ger ingen hjälp för åtgärder som att flytta, byta namn på eller ta bort kataloger. Utan verkliga kataloger måste program bearbeta potentiellt miljontals enskilda blobar för att uppnå aktiviteter på katalognivå. Däremot bearbetar en hierarkisk namnrymd dessa uppgifter genom att uppdatera en enda post (den överordnade katalogen).

    Den här dramatiska optimeringen är särskilt viktig för många ramverk för stordataanalys. Verktyg som Hive, Spark osv. skriver ofta utdata till tillfälliga platser och byter sedan namn på platsen efter jobbets slut. Utan en hierarkisk namnrymd kan det här namnet ofta ta längre tid än själva analysprocessen. Kortare jobbsvarstid motsvarar lägre total ägandekostnad (TCO) för analysarbetsbelastningar.

  • Bekant gränssnittsstil: Filsystem är väl förstådda för utvecklare och användare. Du behöver inte lära dig ett nytt lagringsparadigm när du flyttar till molnet eftersom filsystemgränssnittet som exponeras av Data Lake Storage Gen2 är samma paradigm som används av datorer, både stora och små.

En av orsakerna till att objektarkiv inte tidigare har haft stöd för ett hierarkiskt namnområde är att en hierarkisk namnrymd begränsar skalning. Data Lake-Storage Gen2-hierarkisk namnrymd skalas dock linjärt och försämrar inte varken datakapaciteten eller prestandan.

Bestämma om du vill aktivera ett hierarkiskt namnområde

När du har aktiverat en hierarkisk namnrymd på ditt konto kan du inte återställa den till ett platt namnområde. Överväg därför om det är klokt att aktivera en hierarkisk namnrymd baserat på typen av arbetsbelastningar i objektlagret. Information om hur du utvärderar effekten av att aktivera ett hierarkiskt namnområde för arbetsbelastningar, program, kostnader, tjänstintegreringar, verktyg, funktioner och dokumentation finns i Uppgradera Azure Blob Storage med Azure Data Lake Storage Gen2-funktioner.

Vissa arbetsbelastningar kanske inte får några fördelar genom att aktivera ett hierarkiskt namnområde. Exempel är säkerhetskopieringar, avbildningslagring och andra program där objektorganisationen lagras separat från själva objekten (till exempel i en separat databas).

Även om stödet för Blob Storage-funktioner och Azure-tjänstekosystemet fortsätter att växa, finns det fortfarande vissa funktioner och Azure-tjänster som ännu inte stöds i konton som har en hierarkisk namnrymd. Se Kända problem.

I allmänhet rekommenderar vi att du aktiverar ett hierarkiskt namnområde för lagringsarbetsbelastningar som är utformade för filsystem som manipulerar kataloger. Detta omfattar alla arbetsbelastningar som främst är avsedda för analysbearbetning. Datauppsättningar som kräver en hög grad av organisation kan också dra nytta av att aktivera en hierarkisk namnrymd.

Orsakerna till att aktivera ett hierarkiskt namnområde bestäms av en TCO-analys. I allmänhet kräver förbättringar av arbetsbelastningens svarstid på grund av lagringsacceleration beräkningsresurser för kortare tid. Svarstiden för många arbetsbelastningar kan förbättras på grund av atomisk katalogmanipulering som aktiveras av en hierarkisk namnrymd. I många arbetsbelastningar representerar beräkningsresursen > 85 % av den totala kostnaden, så även en liten minskning av arbetsbelastningsfördröjningen motsvarar en betydande mängd TCO-besparingar. Även om aktivering av ett hierarkiskt namnområde ökar lagringskostnaderna sänks TCO fortfarande på grund av minskade beräkningskostnader.

Information om hur du analyserar skillnader i priser för datalagring, transaktionspriser och prissättning för lagringskapacitetsreservation mellan konton som har en platt hierarkisk namnrymd jämfört med en hierarkisk namnrymd finns i Priser för Azure Data Lake Storage Gen2.

Nästa steg