Úvod do Azure Data Lake Storage Gen2
Azure Data Lake Storage Gen2 je sada funkcí vyhrazených pro analýzy velkých objemů dat, která je založená na Azure Blob Storage.
Data Lake Storage Gen2 konverguje možnosti Azure Data Lake Storage Gen1 s Azure Blob Storage. Data Lake Storage Gen2 například poskytuje sémantiku systému souborů, zabezpečení na úrovni souborů a škálování. Vzhledem k tomu, že tyto funkce jsou postavené na úložišti objektů blob, získáte také nízké náklady na vrstvené úložiště s vysokou dostupností a možností zotavení po havárii.
Navrženo pro podnikovou analýzu velkých objemů dat
Data Lake Storage Gen2 vytváří Azure Storage základ pro vytváření laků podnikových dat v Azure. tato možnost je navržena od začátku až po obsluhu více petabajty informací a současně udržuje stovky gigabitových přenosů, Data Lake Storage Gen2 umožňuje snadno spravovat obrovské objemy dat.
základní část Data Lake Storage Gen2 je přidání hierarchického oboru názvů do úložiště objektů Blob. Hierarchický obor názvů uspořádává objekty/soubory do hierarchie adresářů pro efektivní přístup k datům. Společná konvence pojmenování objektů úložiště používá k napodobení hierarchické adresářové struktury lomítka v názvu. tato struktura se zastará o Data Lake Storage Gen2. Operace jako přejmenování nebo odstranění adresáře se stanou samostatnými atomických operací s metadaty v adresáři. Není nutné vytvářet výčet a zpracovávat všechny objekty, které sdílejí předponu názvu adresáře.
Data Lake Storage Gen2 se vytváří na Blob Storage a vylepšuje výkon, správu a zabezpečení následujícími způsoby:
Výkon je optimalizován, protože není nutné kopírovat nebo transformovat data jako předpoklad pro analýzu. V porovnání s plochým oborem názvů v úložišti objektů BLOB by hierarchický obor názvů významně zlepšit výkon operací správy adresářů, což zvyšuje celkový výkon úloh.
Správa je jednodušší, protože můžete uspořádat soubory a manipulovat s nimi prostřednictvím adresářů a podadresářů.
Zabezpečení je vykonatelné, protože můžete definovat oprávnění POSIX pro adresáře nebo jednotlivé soubory.
Data Lake Storage Gen2 je také velmi nákladově efektivní, protože je postaven na Azure Blob Storages nízkými náklady. Další funkce dále snižují celkové náklady na vlastnictví pro provozování analýz velkých objemů dat v Azure.
klíčové funkce Data Lake Storage Gen2
Přístup kompatibilní s Hadoop: Data Lake Storage Gen2 umožňuje správu a přístup k datům stejně, jako byste použili systém souborů DFS (Distributed File System) Hadoop (hdfs). Nový ovladač ABFS (používaný pro přístup k datům) je k dispozici ve všech Apache Hadoop prostředích. Mezi tato prostředí patří Azure HDInsight, Azure Databricksa Azure synapse Analytics.
Nadmnožina oprávnění POSIX: model zabezpečení pro Data Lake Gen2 podporuje oprávnění ACL a POSIX spolu s některými dalšími podrobnostmi, které jsou specifické pro Data Lake Storage Gen2. Nastavení můžete nakonfigurovat prostřednictvím Průzkumník služby Storage nebo prostřednictvím architektury, jako je například podregistr a Spark.
Nákladově efektivní: Data Lake Storage Gen2 nabízí s nízkými náklady kapacitu a transakce úložiště. funkce, jako je životní cyklus Azure Blob Storage , optimalizují náklady jako přechody dat během jejího životního cyklu.
Optimalizovaný ovladač: Ovladač ABFS se optimalizuje speciálně pro analýzy velkých objemů dat. Odpovídající rozhraní REST API se procházejí prostřednictvím koncového bodu
dfs.core.windows.net.
Škálovatelnost
Azure Storage jsou škálovatelné podle návrhu bez ohledu na to, jestli máte přístup přes rozhraní Data Lake Storage Gen2 nebo Blob Storage. Může ukládat a obsluhovat spoustu datových Exabyte. Tato velikost úložiště je dostupná s propustností měřenou v gigabitech za sekundu (GB/s) na vysoké úrovni vstupních/výstupních operací za sekundu (IOPS). Zpracování se provádí při téměř konstantních latencích požadavků, které se měří na úrovni služby, účtu a souboru.
Efektivita nákladů
vzhledem k tomu, že Data Lake Storage Gen2 je postavená na Azure Blob Storage, je kapacita úložiště a náklady na transakce nižší. Na rozdíl od jiných služeb cloudového úložiště nemusíte data přesouvat nebo transformovat, než je budete moct analyzovat. další informace o cenách najdete v tématu Azure Storage ceny.
Kromě toho funkce, jako je hierarchický obor názvů , významně zlepšují celkový výkon řady analytických úloh. Toto zlepšení výkonu znamená, že potřebujete méně výpočetní výkon pro zpracování stejného množství dat, což vede ke snížení celkových nákladů na vlastnictví pro ucelenou úlohu analýzy.
Jedna služba, více konceptů
vzhledem k tomu, že Data Lake Storage Gen2 je postavená na Azure Blob Storage, více konceptů může popsat stejné, sdílené věci.
Níže jsou uvedené ekvivalentní entity, jak je popsáno v různých konceptech. Pokud není uvedeno jinak, jsou tyto entity přímo synonymné:
| Koncepce | Organizace nejvyšší úrovně | Organizace nižší úrovně | Datový kontejner |
|---|---|---|---|
| Objekty blob – úložiště objektů pro obecné účely | Kontejner | Virtuální adresář (pouze sada SDK) neposkytuje atomickou manipulaci | Objekt blob |
| Storage Azure Data Lake Storage Gen2-Analytics | Kontejner | Adresář | Soubor |
podporované funkce Blob Storage
pro váš účet jsou k dispozici Blob Storageé funkce, jako je protokolování diagnostiky, úrovně přístupua zásady správy životního cyklu Blob Storage . většina funkcí Blob Storage je plně podporovaná, ale některé funkce jsou podporované jenom na úrovni preview nebo se ještě nepodporují.
pokud chcete zjistit, jak je funkce Blob Storage podporovaná v Data Lake Storage Gen2, přečtěte si téma podpora funkcí Blob Storage v Azure Storage účtech.
Podporované integrace služeb Azure
Data Lake Storage gen2 podporuje několik služeb Azure. Můžete je použít k ingestování dat, provádění analýz a vytváření vizuální reprezentace. seznam podporovaných služeb azure najdete v tématu služby azure, které podporují Azure Data Lake Storage Gen2.
Podporované opensourcové platformy
Data Lake Storage Gen2 podporuje několik open source platforem. úplný seznam najdete v tématu Open source platforms, které podporují Azure Data Lake Storage Gen2.