Introduktion till Azure Data Lake Storage Gen2Introduction to Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 är en uppsättning funktioner som är avsedda för stor data analys och bygger på Azure Blob Storage.‎Azure Data Lake Storage Gen2 is a set of capabilities dedicated to big data analytics, built on Azure Blob storage. Data Lake Storage Gen2 är resultatet av att konvergera funktionerna i våra två befintliga lagrings tjänster, Azure Blob Storage och Azure Data Lake Storage Gen1.Data Lake Storage Gen2 is the result of converging the capabilities of our two existing storage services, Azure Blob storage and Azure Data Lake Storage Gen1. Funktioner från Azure Data Lake Storage gen1, till exempel semantiska fil system, katalog-och fil nivå säkerhet och skalning kombineras med låg kostnad, nivå lagring, hög tillgänglighet/haveri beredskap från Azure Blob Storage.Features from Azure Data Lake Storage Gen1, such as file system semantics, directory, and file level security and scale are combined with low-cost, tiered storage, high availability/disaster recovery capabilities from Azure Blob storage.

Utformad för företags Big data AnalyticsDesigned for enterprise big data analytics

Data Lake Storage Gen2 gör Azure Storage grunden för att skapa företags data sjöar på Azure.Data Lake Storage Gen2 makes Azure Storage the foundation for building enterprise data lakes on Azure. Data Lake Storage Gen2 är utformad från start-till-tjänst-flera petabyte med information medan hundratals Gigabit av data flödet används, så att du enkelt kan hantera enorma mängder data.Designed from the start to service multiple petabytes of information while sustaining hundreds of gigabits of throughput, Data Lake Storage Gen2 allows you to easily manage massive amounts of data.

En grundläggande del av Data Lake Storage Gen2 är att lägga till ett hierarkiskt namn område till Blob Storage.A fundamental part of Data Lake Storage Gen2 is the addition of a hierarchical namespace to Blob storage. Det hierarkiska namn området ordnar objekt/filer i en hierarki med kataloger för effektiv data åtkomst.The hierarchical namespace organizes objects/files into a hierarchy of directories for efficient data access. En vanlig namngivnings konvention för objekt lagring använder snedstreck i namnet för att imitera en hierarkisk katalog struktur.A common object store naming convention uses slashes in the name to mimic a hierarchical directory structure. Den här strukturen blir riktig med Data Lake Storage Gen2.This structure becomes real with Data Lake Storage Gen2. Åtgärder som att byta namn på eller ta bort en katalog blir enkla atomiska metadata-åtgärder i katalogen i stället för att räkna upp och bearbeta alla objekt som delar namn prefixet för katalogen.Operations such as renaming or deleting a directory become single atomic metadata operations on the directory rather than enumerating and processing all objects that share the name prefix of the directory.

Tidigare var molnbaserad analys en kompromiss i områden med prestanda, hantering och säkerhet.In the past, cloud-based analytics had to compromise in areas of performance, management, and security. Data Lake Storage Gen2 hanterar var och en av dessa aspekter på följande sätt:Data Lake Storage Gen2 addresses each of these aspects in the following ways:

  • Prestanda optimeras eftersom du inte behöver kopiera eller transformera data som ett krav för analys.Performance is optimized because you do not need to copy or transform data as a prerequisite for analysis. Det hierarkiska namn området ger avsevärt bättre prestanda för katalog hanterings åtgärder, vilket förbättrar jobbets övergripande prestanda.The hierarchical namespace greatly improves the performance of directory management operations, which improves overall job performance.

  • Det är enklare att Hantera hantering eftersom du kan organisera och manipulera filer via kataloger och under kataloger.Management is easier because you can organize and manipulate files through directories and subdirectories.

  • Säkerhet är tvingande eftersom du kan definiera POSIX-behörigheter för kataloger eller enskilda filer.Security is enforceable because you can define POSIX permissions on directories or individual files.

  • Kostnads effektivitet är möjligt eftersom data Lake Storage Gen2 bygger vidare på Azure Blob Storagemed låg kostnad.Cost effectiveness is made possible as Data Lake Storage Gen2 is built on top of the low-cost Azure Blob storage. De ytterligare funktionerna sänker längre den totala ägande kostnaden för att köra stor data analys på Azure.The additional features further lower the total cost of ownership for running big data analytics on Azure.

Viktiga funktioner i Data Lake Storage Gen2Key features of Data Lake Storage Gen2

  • Hadoop-kompatibel åtkomst: data Lake Storage Gen2 gör att du kan hantera och komma åt data precis som med en Hadoop Distributed File System (HDFS).Hadoop compatible access: Data Lake Storage Gen2 allows you to manage and access data just as you would with a Hadoop Distributed File System (HDFS). Den nya ABFS-drivrutinen är tillgänglig i alla Apache Hadoop miljöer, inklusive Azure HDInsight , Azure Databricksoch SQL Data Warehouse för att komma åt data som lagras i data Lake Storage Gen2.The new ABFS driver is available within all Apache Hadoop environments, including Azure HDInsight, Azure Databricks, and SQL Data Warehouse to access data stored in Data Lake Storage Gen2.

  • En supermängd av POSIX-behörigheter: säkerhets modellen för data Lake Gen2 stöder ACL-och POSIX-behörigheter tillsammans med viss extra detaljerad information som är speciell för data Lake Storage Gen2.A superset of POSIX permissions: The security model for Data Lake Gen2 supports ACL and POSIX permissions along with some extra granularity specific to Data Lake Storage Gen2. Inställningarna kan konfigureras via Storage Explorer eller genom ramverk som Hive och Spark.Settings may be configured through Storage Explorer or through frameworks like Hive and Spark.

  • Kostnads effektiv: data Lake Storage Gen2 erbjuder lagrings kapacitet och transaktioner med låg kostnad.Cost effective: Data Lake Storage Gen2 offers low-cost storage capacity and transactions. Som data över gångar via hela livs cykeln, ändrar fakturerings taxan kostnaderna till ett minimum via inbyggda funktioner, till exempel Azure Blob Storage livs cykel.As data transitions through its complete lifecycle, billing rates change keeping costs to a minimum via built-in features such as Azure Blob storage lifecycle.

  • Optimerad driv rutin: ABFS-drivrutinen har optimerats specifikt för stor data analys.Optimized driver: The ABFS driver is optimized specifically for big data analytics. Motsvarande REST-API: er finns i slut punkts dfs.core.windows.net.The corresponding REST APIs are surfaced through the endpoint dfs.core.windows.net.

SkalbarhetScalability

Azure Storage är skalbart genom att designa om du kommer åt via Data Lake Storage Gen2-eller Blob Storage-gränssnitt.Azure Storage is scalable by design whether you access via Data Lake Storage Gen2 or Blob storage interfaces. Den kan lagra och betjäna många exabyte data.It is able to store and serve many exabytes of data. Den här mängden lagring är tillgänglig med data flöde mätt i gigabit per sekund (Gbit/s) vid höga nivåer av in-/utdata-åtgärder per sekund (IOPS).This amount of storage is available with throughput measured in gigabits per second (Gbps) at high levels of input/output operations per second (IOPS). Efter beständighet utförs bearbetningen med nära konstant svars tid per begäran som mäts på tjänst-, konto-och fil nivåerna.Beyond just persistence, processing is executed at near-constant per-request latencies that are measured at the service, account, and file levels.

Kostnads effektivitetCost effectiveness

En av de många fördelarna med att skapa Data Lake Storage Gen2 ovanpå Azure Blob Storage är den låga kostnaden för lagrings kapacitet och transaktioner.One of the many benefits of building Data Lake Storage Gen2 on top of Azure Blob storage is the low cost of storage capacity and transactions. Till skillnad från andra moln lagrings tjänster behöver inte data som lagrats i Data Lake Storage Gen2 flyttas eller omvandlas innan analysen kan utföras.Unlike other cloud storage services, data stored in Data Lake Storage Gen2 is not required to be moved or transformed prior to performing analysis. Mer information om priser finns i Azure Storage prissättning.For more information about pricing, see Azure Storage pricing.

Dessutom förbättrar funktioner som det hierarkiska namn området avsevärt den övergripande prestandan för många analys jobb.Additionally, features such as the hierarchical namespace significantly improve the overall performance of many analytics jobs. Den här förbättringen av prestanda innebär att du behöver mindre beräknings kraft för att bearbeta samma data mängd, vilket resulterar i en lägre totalkostnad (TCO) för det slutliga analys jobbet.This improvement in performance means that you require less compute power to process the same amount of data, resulting in a lower total cost of ownership (TCO) for the end-to-end analytics job.

En tjänst, flera konceptOne service, multiple concepts

Data Lake Storage Gen2 är en ytterligare funktion för stor data analys som bygger på Azure Blob Storage.Data Lake Storage Gen2 is an additional capability for big data analytics, built on top of Azure Blob storage. Även om det finns många fördelar med att dra nytta av befintliga plattforms komponenter i blobbar för att skapa och använda data sjöar för analys, leder det till flera koncept som beskriver samma delade saker.While there are many benefits in leveraging existing platform components of Blobs to create and operate data lakes for analytics, it does lead to multiple concepts describing the same, shared things.

Följande är motsvarande entiteter, enligt beskrivningen i olika koncept.The following are the equivalent entities, as described by different concepts. Om inget annat anges är dessa entiteter direkt synonyma:Unless specified otherwise these entities are directly synonymous:

BegreppConcept Organisation på högsta nivåTop Level Organization Organisation på lägre nivåLower Level Organization Data behållareData Container
Blobbar – lagring av generell användnings objektBlobs – General purpose object storage ContainerContainer Virtuell katalog (endast SDK – ger inte atomiska modifieringar)Virtual directory (SDK only – does not provide atomic manipulation) BlobBlob
Azure Data Lake Storage Gen2 – Analytics StorageAzure Data Lake Storage Gen2 – Analytics Storage ContainerContainer KatalogDirectory FilFile

Plattformar som stöds med öppen källkodSupported open source platforms

Flera plattformar med öppen källkod har stöd för Data Lake Storage Gen2.Several open source platforms support Data Lake Storage Gen2. Dessa plattformar visas i följande tabell.Those platforms appear in the following table.

Anteckning

Endast de versioner som visas i den här tabellen stöds.Only the versions that appear in this table are supported.

PlattformPlatform Version (er) som stödsSupported Version(s) Mer informationMore Information
HDInsightHDInsight 3.6 +3.6+ Vilka Apache Hadoops komponenter och versioner är tillgängliga med HDInsight?What are the Apache Hadoop components and versions available with HDInsight?
HadoopHadoop 3,2 +3.2+ Arkiv för Apache Hadoop-versionerApache Hadoop releases archive
ClouderaCloudera 6.1 +6.1+ Viktig information om Cloudera Enterprise 6. xCloudera Enterprise 6.x release notes
Azure DatabricksAzure Databricks 5.1 +5.1+ Databricks Runtime versionerDatabricks Runtime versions
HortonworksHortonworks 3.1. x + +3.1.x++ Konfigurera åtkomst till moln dataConfiguring cloud data access

Azure-tjänster som stödsSupported Azure services

Data Lake Storage Gen2 stöder flera Azure-tjänster som du kan använda för att mata in data, utföra analyser och skapa visuella representationer.Data Lake Storage gen2 supports several Azure services that you can use to ingest data, perform analytics, and create visual representations. En lista över Azure-tjänster som stöds finns i integrera Azure Data Lake Storage med Azure-tjänster.For a list of supported Azure services, see Integrate Azure Data Lake Storage with Azure services.

Nästa stegNext steps

I följande artiklar beskrivs några av de viktigaste begreppen i Data Lake Storage Gen2 och information om hur du lagrar, använder, hanterar och får insikter från dina data:The following articles describe some of the main concepts of Data Lake Storage Gen2 and detail how to store, access, manage, and gain insights from your data: