Hierarchický obor názvů Azure Data Lake Storage Gen2
Klíčovým mechanismem, který službě Azure Data Lake Storage Gen2 umožňuje zajistit výkon systému souborů při škálování úložiště objektů a cen, je přidání hierarchického oboru názvů. Díky tomu může být kolekce objektů a souborů v rámci účtu uspořádána do hierarchie adresářů a vnořených podadresářů stejným způsobem jako systém souborů v počítači. S povoleným hierarchickým oborem názvů je účet úložiště schopný poskytovat škálovatelnost a nákladovou efektivitu úložiště objektů s sémantikou systému souborů, která je známá analytickým modulům a architekturám.
Výhody hierarchického oboru názvů
Následující výhody jsou přidružené k systémům souborů, které implementují hierarchický obor názvů pro data objektů blob:
Atomická manipulace s adresáři: Objekt ukládá přibližnou hierarchii adresářů přijetím konvence vkládání lomítk (/) do názvu objektu pro označení segmentů cesty. I když tato konvence funguje pro uspořádání objektů, tato konvence nepomáhá s akcemi, jako je přesun, přejmenování nebo odstranění adresářů. Bez reálných adresářů musí aplikace zpracovávat potenciálně miliony jednotlivých objektů blob, aby mohly provádět úlohy na úrovni adresáře. Naopak hierarchický obor názvů zpracovává tyto úlohy aktualizací jedné položky (nadřazeného adresáře).
Tato dramatická optimalizace je zvláště významná pro mnoho architektur analýzy velkých dat. Nástroje jako Hive, Spark atd. často zapisují výstup do dočasných umístění a pak na závěr úlohy přejmenují umístění. Bez hierarchického oboru názvů může toto přejmenování často trvat déle než samotný analytický proces. Nižší latence úloh se rovná nižším celkovým nákladům na vlastnictví (TCO) pro analytické úlohy.
Známý styl rozhraní: Systémy souborů jsou vývojářům i uživatelům dobře srozumitelné. Když se přesunete do cloudu, není nutné se učit nové paradigma úložiště, protože rozhraní systému souborů zveřejněné službou Data Lake Storage Gen2 je stejné paradigma používané velkými i malými počítači.
Jedním z důvodů, proč úložiště objektů v minulosti nepodporují hierarchický obor názvů, je, že hierarchický obor názvů omezuje škálování. Hierarchický obor názvů Data Lake Storage Gen2 se ale škáluje lineárně a nezhoršuje ani kapacitu dat ani výkon.
Rozhodnutí o povolení hierarchického oboru názvů
Po povolení hierarchického oboru názvů ve vašem účtu ho nemůžete vrátit zpět na plochý obor názvů. Proto zvažte, jestli je vhodné povolit hierarchický obor názvů na základě povahy úloh úložiště objektů. Pokud chcete vyhodnotit dopad povolení hierarchického oboru názvů na úlohy, aplikace, náklady, integrace služeb, nástroje, funkce a dokumentaci, podívejte se na upgrade Azure Blob Storage s funkcemi Azure Data Lake Storage Gen2.
Povolením hierarchického oboru názvů nemusí některé úlohy získat žádnou výhodu. Mezi příklady patří zálohy, úložiště obrázků a další aplikace, ve kterých je uspořádání objektů uloženo odděleně od samotných objektů (například v samostatné databázi).
I když se stále rozrůstá podpora funkcí úložiště objektů blob a ekosystému služeb Azure, stále existují některé funkce a služby Azure, které ještě nejsou podporované v účtech s hierarchickým oborem názvů. Viz Známé problémy.
Obecně doporučujeme zapnout hierarchický obor názvů pro úlohy úložiště, které jsou navržené pro systémy souborů, které manipulují s adresáři. To zahrnuje všechny úlohy, které jsou primárně určené ke zpracování analýzy. Povolením hierarchického oboru názvů budou mít užitek také datové sady, které vyžadují vysoký stupeň organizace.
Důvody pro povolení hierarchického oboru názvů určuje analýza nákladů na úrovni služeb. Obecně platí, že zlepšení latence úloh kvůli zrychlení úložiště bude vyžadovat výpočetní prostředky po kratší dobu. Latence mnoha úloh se může zlepšit díky atomické manipulaci s adresáři, která je povolená hierarchickým oborem názvů. V mnoha úlohách představuje výpočetní prostředek > 85 % celkových nákladů, a proto i mírné snížení latence úloh odpovídá značnému množství úspor celkových nákladů na výkon. I v případech, kdy povolení hierarchického oboru názvů zvyšuje náklady na úložiště, se náklady na úložiště stále snižují kvůli nižším nákladům na výpočetní prostředky.
Pokud chcete analyzovat rozdíly v cenách úložiště dat, cenách transakcí a cenách rezervací kapacity úložiště mezi účty s plochým hierarchickým oborem názvů a hierarchickým oborem názvů, podívejte se na ceny služby Azure Data Lake Storage Gen2.
Další kroky
- Při vytváření nového účtu úložiště povolte hierarchický obor názvů. Viz Vytvoření Storage účtu.
- Povolte hierarchický obor názvů pro existující účet úložiště. Viz Upgrade služby Azure Blob Storage s využitím funkcí Azure Data Lake Storage Gen2.