Úvod do Azure Data Lake Storage Gen2Introduction to Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 je sada funkcí vyhrazených pro analýzy velkých objemů dat, která je založená na službě Azure Blob Storage.‎Azure Data Lake Storage Gen2 is a set of capabilities dedicated to big data analytics, built on Azure Blob storage.

Data Lake Storage Gen2 konverguje možnosti Azure Data Lake Storage Gen1 s úložištěm objektů BLOB v Azure.Data Lake Storage Gen2 converges the capabilities of Azure Data Lake Storage Gen1 with Azure Blob storage. Data Lake Storage Gen2 například poskytuje sémantiku systému souborů, zabezpečení na úrovni souborů a škálování.For example, Data Lake Storage Gen2 provides file system semantics, file-level security, and scale. Vzhledem k tomu, že tyto funkce jsou postavené na úložišti objektů blob, získáte také nízké náklady na vrstvené úložiště s vysokou dostupností a možností zotavení po havárii.Because these capabilities are built on Blob storage, you'll also get low-cost, tiered storage, with high availability/disaster recovery capabilities.

Navrženo pro podnikovou analýzu velkých objemů datDesigned for enterprise big data analytics

Data Lake Storage Gen2 vytváří Azure Storage základ pro vytváření laků podnikových dat v Azure.Data Lake Storage Gen2 makes Azure Storage the foundation for building enterprise data lakes on Azure. Tato možnost je navržena od začátku až po obsluhu více petabajty informací a současně udržuje stovky gigabitových přenosů, Data Lake Storage Gen2 umožňuje snadno spravovat obrovské objemy dat.Designed from the start to service multiple petabytes of information while sustaining hundreds of gigabits of throughput, Data Lake Storage Gen2 allows you to easily manage massive amounts of data.

Základní část Data Lake Storage Gen2 je přidání hierarchického oboru názvů do úložiště objektů BLOB.A fundamental part of Data Lake Storage Gen2 is the addition of a hierarchical namespace to Blob storage. Hierarchický obor názvů uspořádává objekty/soubory do hierarchie adresářů pro efektivní přístup k datům.The hierarchical namespace organizes objects/files into a hierarchy of directories for efficient data access. Společná konvence pojmenování objektů úložiště používá k napodobení hierarchické adresářové struktury lomítka v názvu.A common object store naming convention uses slashes in the name to mimic a hierarchical directory structure. Tato struktura se zastará o Data Lake Storage Gen2.This structure becomes real with Data Lake Storage Gen2. Operace jako přejmenování nebo odstranění adresáře se stanou samostatnými atomických operací s metadaty v adresáři.Operations such as renaming or deleting a directory, become single atomic metadata operations on the directory. Není nutné vytvářet výčet a zpracovávat všechny objekty, které sdílejí předponu názvu adresáře.There's no need to enumerate and process all objects that share the name prefix of the directory.

Data Lake Storage Gen2 se vytváří na BLOB Storage a vylepšuje výkon, správu a zabezpečení následujícími způsoby:Data Lake Storage Gen2 builds on Blob storage and enhances performance, management, and security in the following ways:

  • Výkon je optimalizován, protože není nutné kopírovat nebo transformovat data jako předpoklad pro analýzu.Performance is optimized because you do not need to copy or transform data as a prerequisite for analysis. V porovnání s plochým oborem názvů v úložišti objektů BLOB by hierarchický obor názvů významně zlepšit výkon operací správy adresářů, což zvyšuje celkový výkon úloh.Compared to the flat namespace on Blob storage, the hierarchical namespace greatly improves the performance of directory management operations, which improves overall job performance.

  • Správa je jednodušší, protože můžete uspořádat soubory a manipulovat s nimi prostřednictvím adresářů a podadresářů.Management is easier because you can organize and manipulate files through directories and subdirectories.

  • Zabezpečení je vykonatelné, protože můžete definovat oprávnění POSIX pro adresáře nebo jednotlivé soubory.Security is enforceable because you can define POSIX permissions on directories or individual files.

Data Lake Storage Gen2 je taky velmi nákladově efektivní, protože je postavená na Azure Blob Storages nízkými náklady.Also, Data Lake Storage Gen2 is very cost effective because it is built on top of the low-cost Azure Blob storage. Další funkce dále snižují celkové náklady na vlastnictví pro provozování analýz velkých objemů dat v Azure.The additional features further lower the total cost of ownership for running big data analytics on Azure.

Klíčové funkce Data Lake Storage Gen2Key features of Data Lake Storage Gen2

  • Přístup s platformou hadoop: Data Lake Storage Gen2 umožňuje správu a přístup k datům stejně, jako byste použili systém souborů DFS (DISTRIBUTED File System) Hadoop (HDFS).Hadoop compatible access: Data Lake Storage Gen2 allows you to manage and access data just as you would with a Hadoop Distributed File System (HDFS). Nový ovladač ABFS (používaný pro přístup k datům) je k dispozici ve všech Apache Hadoop prostředích.The new ABFS driver (used to access data) is available within all Apache Hadoop environments. Mezi tato prostředí patří Azure HDInsight, Azure Databricksa Azure synapse Analytics.These environments include Azure HDInsight, Azure Databricks, and Azure Synapse Analytics.

  • Nadmnožina oprávnění POSIX: model zabezpečení pro data Lake Gen2 podporuje oprávnění ACL a POSIX spolu s některými dalšími podrobnostmi, které jsou specifické pro data Lake Storage Gen2.A superset of POSIX permissions: The security model for Data Lake Gen2 supports ACL and POSIX permissions along with some extra granularity specific to Data Lake Storage Gen2. Nastavení lze nakonfigurovat prostřednictvím Průzkumník služby Storage nebo prostřednictvím architektury jako podregistr a Spark.Settings may be configured through Storage Explorer or through frameworks like Hive and Spark.

  • Cenově výhodné: Data Lake Storage Gen2 nabízí cenovou kapacitu úložiště a transakce.Cost effective: Data Lake Storage Gen2 offers low-cost storage capacity and transactions. Funkce, jako je životní cyklus služby Azure Blob Storage , optimalizují náklady jako přechody dat během jejího životního cyklu.Features such as Azure Blob storage lifecycle optimize costs as data transitions through its lifecycle.

  • Optimalizovaný ovladač: ovladač ABFS je optimalizován speciálně pro analýzu velkých objemů dat.Optimized driver: The ABFS driver is optimized specifically for big data analytics. Odpovídající rozhraní REST API se procházejí prostřednictvím koncového bodu dfs.core.windows.net .The corresponding REST APIs are surfaced through the endpoint dfs.core.windows.net.

ŠkálovatelnostScalability

Azure Storage jsou škálovatelné podle návrhu bez ohledu na to, jestli máte přístup přes rozhraní Data Lake Storage Gen2 nebo BLOB Storage.Azure Storage is scalable by design whether you access via Data Lake Storage Gen2 or Blob storage interfaces. Může ukládat a obsluhovat spoustu datových Exabyte.It is able to store and serve many exabytes of data. Tato velikost úložiště je dostupná s propustností měřenou v gigabitech za sekundu (GB/s) na vysoké úrovni vstupních/výstupních operací za sekundu (IOPS).This amount of storage is available with throughput measured in gigabits per second (Gbps) at high levels of input/output operations per second (IOPS). Zpracování se provádí při téměř konstantních latencích požadavků, které se měří na úrovni služby, účtu a souboru.Processing is executed at near-constant per-request latencies that are measured at the service, account, and file levels.

Efektivita nákladůCost effectiveness

Vzhledem k tomu, že Data Lake Storage Gen2 je postavená na Azure Blob Storage, kapacita úložiště a náklady na transakce jsou nižší.Because Data Lake Storage Gen2 is built on top of Azure Blob storage, storage capacity and transaction costs are lower. Na rozdíl od jiných služeb cloudového úložiště nemusíte data přesouvat nebo transformovat, než je budete moct analyzovat.Unlike other cloud storage services, you don't have to move or transform your data before you can analyze it. Další informace o cenách najdete v tématu Azure Storage ceny.For more information about pricing, see Azure Storage pricing.

Kromě toho funkce, jako je hierarchický obor názvů , významně zlepšují celkový výkon řady analytických úloh.Additionally, features such as the hierarchical namespace significantly improve the overall performance of many analytics jobs. Toto zlepšení výkonu znamená, že potřebujete méně výpočetní výkon pro zpracování stejného množství dat, což vede ke snížení celkových nákladů na vlastnictví pro ucelenou úlohu analýzy.This improvement in performance means that you require less compute power to process the same amount of data, resulting in a lower total cost of ownership (TCO) for the end-to-end analytics job.

Jedna služba, více konceptůOne service, multiple concepts

Vzhledem k tomu, že Data Lake Storage Gen2 je postavená na Azure Blob Storage, více konceptů může popsat stejné, sdílené věci.Because Data Lake Storage Gen2 is built on top of Azure Blob storage, multiple concepts can describe the same, shared things.

Níže jsou uvedené ekvivalentní entity, jak je popsáno v různých konceptech.The following are the equivalent entities, as described by different concepts. Pokud není uvedeno jinak, jsou tyto entity přímo synonymné:Unless specified otherwise these entities are directly synonymous:

KoncepceConcept Organizace nejvyšší úrovněTop Level Organization Organizace nižší úrovněLower Level Organization Datový kontejnerData Container
Objekty blob – úložiště objektů pro obecné účelyBlobs – General purpose object storage KontejnerContainer Virtuální adresář (pouze sada SDK) – neposkytuje atomickou manipulaciVirtual directory (SDK only – does not provide atomic manipulation) Objekt blobBlob
Azure Data Lake Storage Gen2 – analytické úložištěAzure Data Lake Storage Gen2 – Analytics Storage KontejnerContainer AdresářDirectory SouborFile

Podporované funkce Blob StorageSupported Blob storage features

K vašemu účtu jsou k dispozici funkce služby Blob Storage, jako je protokolování diagnostiky, úrovně přístupua zásady správy životního cyklu BLOB Storage .Blob storage features such as diagnostic logging, access tiers, and Blob Storage lifecycle management policies are available to your account.

Seznam podporovaných funkcí služby Blob Storage najdete v tématu BLOB Storage funkcích dostupných v Azure Data Lake Storage Gen2.For a list of supported Blob storage features, see Blob Storage features available in Azure Data Lake Storage Gen2.

Podporované integrace služeb AzureSupported Azure service integrations

Data Lake Storage Gen2 podporuje několik služeb Azure.Data Lake Storage gen2 supports several Azure services. Můžete je použít k ingestování dat, provádění analýz a vytváření vizuální reprezentace.You can use them to ingest data, perform analytics, and create visual representations. Seznam podporovaných služeb Azure najdete v tématu služby Azure, které podporují Azure Data Lake Storage Gen2.For a list of supported Azure services, see Azure services that support Azure Data Lake Storage Gen2.

Podporované opensourcové platformySupported open source platforms

Data Lake Storage Gen2 podporuje několik Open Source platforem.Several open source platforms support Data Lake Storage Gen2. Úplný seznam najdete v tématu Open Source Platforms, které podporují Azure Data Lake Storage Gen2.For a complete list, see Open source platforms that support Azure Data Lake Storage Gen2.

Viz takéSee also