Azure Data Lake Storage Gen2 hierarkisk namnrymd

En viktig mekanism som gör det möjligt för Azure Data Lake Storage Gen2 att tillhandahålla filsystemprestanda i objektlagringsskala och priser är att lägga till ett hierarkiskt namnområde. På så sätt kan samlingen av objekt/filer i ett konto ordnas i en hierarki med kataloger och kapslade underkataloger på samma sätt som filsystemet på datorn organiseras. Med ett hierarkiskt namnområde aktiverat kan ett lagringskonto tillhandahålla skalbarhet och kostnadseffektivitet för objektlagring, med filsystemssemantik som är bekanta för analysmotorer och ramverk.

Fördelarna med ett hierarkiskt namnområde

Följande fördelar är associerade med filsystem som implementerar ett hierarkiskt namnområde över blobdata:

  • Atomic Directory-manipulering: Objektet lagrar ungefärliga kataloghierarkier genom att anta en konvention för inbäddning av snedstreck (/) i objektnamnet för att ange sökvägssegment. Den här konventionen fungerar för att organisera objekt, men konventionen hjälper inte till med åtgärder som att flytta, byta namn på eller ta bort kataloger. Utan verkliga kataloger måste program bearbeta potentiellt miljontals enskilda blobar för att uppnå uppgifter på katalognivå. Däremot bearbetar ett hierarkiskt namnområde dessa uppgifter genom att uppdatera en enda post (den överordnade katalogen).

    Den här dramatiska optimeringen är särskilt viktig för många ramverk för stordataanalys. Verktyg som Hive, Spark osv. skriver ofta utdata till tillfälliga platser och byter sedan namn på platsen när jobbet avslutas. Utan ett hierarkiskt namnområde kan det här namnet ofta ta längre tid än själva analysprocessen. Kortare svarstid för jobb är lika med lägre total ägandekostnad (TCO) för analysarbetsbelastningar.

  • Välbekant gränssnittsformat: Filsystem är väl förstådda av både utvecklare och användare. Du behöver inte lära dig ett nytt lagringsparadigm när du flyttar till molnet eftersom filsystemgränssnittet som exponeras av Data Lake Storage Gen2 är samma paradigm som används av datorer, stora som små.

En av anledningarna till att objektlager inte tidigare har stöd för ett hierarkiskt namnområde är att en hierarkisk namnrymdsgräns skalas. Den Data Lake Storage Gen2 hierarkiska namnrymden skalas dock linjärt och försämrar varken datakapaciteten eller prestandan.

Bestämma om ett hierarkiskt namnområde ska aktiveras

När du har aktiverat ett hierarkiskt namnområde för ditt konto kan du inte återställa det till ett platt namnområde. Därför bör du överväga om det är lämpligt att aktivera ett hierarkiskt namnområde baserat på typen av objektlagerarbetsbelastningar. Information om hur du aktiverar ett hierarkiskt namnområde för arbetsbelastningar, program, kostnader, tjänstintegreringar, verktyg, funktioner och dokumentation finns i Uppgradera Azure Blob Storage med Azure Data Lake Storage Gen2 funktioner.

Vissa arbetsbelastningar kanske inte får någon fördel genom att aktivera ett hierarkiskt namnområde. Exempel är säkerhetskopior, bildlagring och andra program där objektorganisationen lagras separat från själva objekten (till exempel i en separat databas).

Även om stödet för Blob Storage-funktioner och Azure-tjänstekosystemet fortsätter att växa, finns det fortfarande vissa funktioner och Azure-tjänster som ännu inte stöds i konton som har ett hierarkiskt namnområde. Se Kända problem.

I allmänhet rekommenderar vi att du aktiverar ett hierarkiskt namnområde för lagringsarbetsbelastningar som är utformade för filsystem som manipulerar kataloger. Detta omfattar alla arbetsbelastningar som främst är till för analysbearbetning. Datauppsättningar som kräver en hög grad av organisation kommer också att gynnas genom att aktivera ett hierarkiskt namnområde.

Orsakerna till att aktivera ett hierarkiskt namnområde bestäms av en TCO-analys. Generellt sett kräver förbättringar av svarstiden för arbetsbelastningar på grund av lagringsacceleration beräkningsresurser under kortare tid. Svarstiden för många arbetsbelastningar kan förbättras på grund av atomkatalogmanipulering som aktiveras av ett hierarkiskt namnområde. I många arbetsbelastningar representerar > beräkningsresursen 85 % av den totala kostnaden, och även en blygsam minskning av svarstiden för arbetsbelastningar motsvarar en betydande mängd TCO-besparingar. Även om aktiveringen av ett hierarkiskt namnområde ökar lagringskostnaderna sänks TCO fortfarande på grund av minskade beräkningskostnader.

Information om hur du analyserar skillnader i datalagringspriser, transaktionspriser och prissättning för lagringskapacitetsreservationer mellan konton som har ett platt hierarkiskt namnområde jämfört med ett hierarkiskt namnområde finns i Azure Data Lake Storage Gen2 prissättning.

Nästa steg