Úvod do Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 je sada funkcí vyhrazených pro analýzu velkých objemů dat, která je založená na Azure Blob Storage.

Data Lake Storage Gen2 konverguje možnosti Azure Data Lake Storage Gen1 se službou Azure Blob Storage. Data Lake Storage Gen2 například poskytuje sémantiku systému souborů, zabezpečení na úrovni souborů a škálování. Vzhledem k tomu, že tyto funkce jsou založené na úložišti objektů blob, získáte také nízkonákladové vrstvené úložiště s vysokou dostupností a možnostmi zotavení po havárii.

Navržené pro analýzu velkých objemů dat v podniku

Data Lake Storage Gen2 představuje Azure Storage základ pro vytváření podnikových datových jezer v Azure. Data Lake Storage Gen2 umožňuje snadnou správu obrovských objemů dat od začátku až po obsluhu několika petabajtů informací a současně udržovat stovky gigabitů propustnosti.

Základní součástí Data Lake Storage Gen2 je přidání hierarchického oboru názvů do úložiště objektů blob. Hierarchický obor názvů uspořádá objekty a soubory do hierarchie adresářů pro efektivní přístup k datům. Společná konvence pojmenování úložiště objektů používá lomítka v názvu k napodobování hierarchické adresářové struktury. Tato struktura se stává skutečnou službou Data Lake Storage Gen2. Operace, jako je přejmenování nebo odstranění adresáře, se stanou operacemi s atomovými metadaty v adresáři. Není nutné vytvořit výčet a zpracovat všechny objekty, které sdílejí předponu názvu adresáře.

Data Lake Storage Gen2 vychází z úložiště objektů blob a vylepšuje výkon, správu a zabezpečení následujícími způsoby:

  • Výkon je optimalizovaný, protože data nemusíte kopírovat ani transformovat jako předpoklad pro analýzu. V porovnání s plochým oborem názvů v úložišti objektů blob se hierarchický obor názvů výrazně zlepšuje výkon operací správy adresářů, což zlepšuje celkový výkon úloh.

  • Správa je jednodušší, protože soubory můžete uspořádat a manipulovat s nimi prostřednictvím adresářů a podadresářů.

  • Zabezpečení je vynucovatelné, protože můžete definovat oprávnění POSIX pro adresáře nebo jednotlivé soubory.

Data Lake Storage Gen2 je také velmi nákladově efektivní, protože je postavená na nízkonákladovém azure Blob Storage. Další funkce dále snižují celkové náklady na vlastnictví při spouštění analýz velkých objemů dat v Azure.

Klíčové funkce Data Lake Storage Gen2

  • Přístup kompatibilní s Hadoopem: Data Lake Storage Gen2 umožňuje spravovat a přistupovat k datům stejně jako u systému souborů HDFS (Hadoop Distributed File System). Nový ovladač ABFS (používaný pro přístup k datům) je k dispozici ve všech prostředích Apache Hadoop. Mezi tato prostředí patří Azure HDInsight,Azure Databricks a Azure Synapse Analytics.

  • Nadmnožina oprávnění POSIX: Model zabezpečení pro Data Lake Gen2 podporuje oprávnění ACL a POSIX spolu s určitou členitostí specifickou pro Data Lake Storage Gen2. Nastavení je možné nakonfigurovat prostřednictvím Průzkumníka služby Storage nebo prostřednictvím architektur, jako je Hive a Spark.

  • Rentabilní: Data Lake Storage Gen2 nabízí nízkonákladovou kapacitu úložiště a transakce. Funkce, jako je životní cyklus služby Azure Blob Storage , optimalizují náklady, jako jsou přechody dat v rámci životního cyklu.

  • Optimalizovaný ovladač: Ovladač ABFS je optimalizovaný speciálně pro analýzu velkých objemů dat. Odpovídající rozhraní REST API se zobrazují prostřednictvím koncového bodu dfs.core.windows.net.

Škálovatelnost

Azure Storage je škálovatelné návrhem bez ohledu na to, jestli přistupujete přes rozhraní Data Lake Storage Gen2 nebo Blob Storage. Dokáže ukládat a obsluhovat mnoho exabajtů dat. Toto množství úložiště je dostupné s propustností měřenou v gigabitech za sekundu (Gb/s) na vysokých úrovních vstupních a výstupních operací za sekundu (IOPS). Zpracování se provádí s téměř konstantní latencí jednotlivých požadavků, které se měří na úrovni služby, účtu a souboru.

Efektivita nákladů

Vzhledem k tomu, že Data Lake Storage Gen2 je založená na službě Azure Blob Storage, jsou náklady na úložiště a transakce nižší. Na rozdíl od jiných služeb cloudového úložiště nemusíte data před analýzou přesouvat ani transformovat. Další informace o cenách najdete v tématu Ceny služby Azure Storage.

Kromě toho funkce, jako je hierarchický obor názvů , výrazně zlepšují celkový výkon mnoha analytických úloh. Toto zlepšení výkonu znamená, že ke zpracování stejného množství dat potřebujete menší výpočetní výkon, což vede k nižším celkovým nákladům na vlastnictví (TCO) pro komplexní analytickou úlohu.

Jedna služba, několik konceptů

Vzhledem k tomu, že služba Data Lake Storage Gen2 je založená na službě Azure Blob Storage, může několik konceptů popsat stejné sdílené věci.

Následují ekvivalentní entity, jak je popsáno v různých konceptech. Pokud není uvedeno jinak, nejsou tyto entity přímo synonymem:

Koncepce Organizace nejvyšší úrovně Organizace nižší úrovně Kontejner dat
Objekty blob – úložiště objektů pro obecné účely Kontejner Virtuální adresář (jenom sada SDK – neposkytuje atomické manipulace) Objekt blob
Azure Data Lake Storage Gen2 – Analytics Storage Kontejner Adresář Soubor

Podporované funkce služby Blob Storage

Pro váš účet jsou k dispozici funkce služby Blob Storage, jako jsou protokolování diagnostiky, úrovně přístupu a zásady správy životního cyklu služby Blob Storage . Většina funkcí Blob Storage je plně podporovaná, ale některé funkce se podporují jenom na úrovni Preview nebo ještě nejsou podporované.

Informace o tom, jak se jednotlivé funkce Blob Storage podporují s Data Lake Storage Gen2, najdete v tématu Podpora funkcí Blob Storage v účtech Azure Storage.

Podporované integrace služeb Azure

Data Lake Storage Gen2 podporuje několik služeb Azure. Můžete je použít k ingestování dat, provádění analýz a vytváření vizuálních reprezentací. Seznam podporovaných služeb Azure najdete v tématu Služby Azure, které podporují Azure Data Lake Storage Gen2.

Podporované opensourcové platformy

Několik opensourcových platforem podporuje Data Lake Storage Gen2. Úplný seznam najdete v tématu Opensourcové platformy, které podporují Azure Data Lake Storage Gen2.

Viz také