Introduktion till Azure Data Lake Storage Gen2
Azure Data Lake Storage Gen2 är en uppsättning funktioner för analys av stordata som bygger på Azure Blob Storage.
Data Lake Storage Gen2 konvergerar funktionerna i Azure Data Lake Storage Gen1 med Azure Blob Storage. Data Lake Storage Gen2 tillhandahåller till exempel filsystemsemantik, säkerhet på filnivå och skalning. Eftersom de här funktionerna bygger på Blob Storage får du även låg kostnad, nivåindelad lagring med funktioner för hög tillgänglighet/haveriberedskap.
Utformad för stordataanalys för företag
Data Lake Storage Gen2 är Azure Storage grunden för att skapa företagsdatasjöar i Azure. Data Lake Storage Gen2 har utformats från början till att hantera flera petabyte med information samtidigt som du hanterar hundratals gigabits dataflöde. Med Data Lake Storage Gen2 kan du enkelt hantera enorma mängder data.
En grundläggande del av Data Lake Storage Gen2 är att lägga till en hierarkisk namnrymd i Blob Storage. Den hierarkiska namnrymden organiserar objekt/filer i en kataloghierarki för effektiv dataåtkomst. En vanlig namngivningskonvention för objektarkiv använder snedstreck i namnet för att efterlikna en hierarkisk katalogstruktur. Den här strukturen blir verklig med Data Lake Storage Gen2. Åtgärder som att byta namn på eller ta bort en katalog blir enstaka atomiska metadataåtgärder i katalogen. Du behöver inte räkna upp och bearbeta alla objekt som delar katalogens namnprefix.
Data Lake Storage Gen2 bygger på Blob Storage och förbättrar prestanda, hantering och säkerhet på följande sätt:
Prestanda optimeras eftersom du inte behöver kopiera eller transformera data som en förutsättning för analys. Jämfört med den platta namnrymden i Blob Storage, ger den hierarkiska namnrymden avsevärt bättre prestanda för kataloghanteringsåtgärder, vilket förbättrar den övergripande jobbprestandan.
Hanteringen är enklare eftersom du kan organisera och ändra filer via kataloger och underkataloger.
Säkerheten kan tillämpas eftersom du kan definiera POSIX-behörigheter för kataloger eller enskilda filer.
Dessutom är Data Lake Storage Gen2 mycket kostnadseffektivt eftersom det bygger på Azure Blob-Storage. De ytterligare funktionerna sänker ytterligare den totala ägandekostnaden för att köra stordataanalys i Azure.
Viktiga funktioner i Data Lake Storage Gen2
Hadoop-kompatibel åtkomst: Med Data Lake Storage Gen2 kan du hantera och komma åt data precis som med en Hadoop Distributed File System (HDFS). Den nya ABFS-drivrutinen (används för att komma åt data) är tillgänglig i alla Apache Hadoop-miljöer. Dessa miljöer omfattar Azure HDInsight, Azure Databricksoch Azure Synapse Analytics.
En supermängd av POSIX-behörigheter: Säkerhetsmodellen för Data Lake Gen2 stöder ACL- och POSIX-behörigheter samt viss extra kornighet som är specifik för Data Lake Storage Gen2. Inställningar kan konfigureras via Storage Explorer eller via ramverk som Hive och Spark.
Kostnadseffektivt: Data Lake Storage Gen2 erbjuder lagringskapacitet och transaktioner till låg kostnad. Funktioner som Azure Blob Storage livscykel optimerar kostnader när data övergår genom livscykeln.
Optimerad drivrutin: ABFS-drivrutinen är särskilt optimerad för stordataanalys. Motsvarande REST-API:er visas via slutpunkten
dfs.core.windows.net.
Skalbarhet
Azure Storage är skalbart som design oavsett om du kommer åt via Data Lake Storage Gen2- eller Blob Storage-gränssnitt. Den kan lagra och hantera många exabyte med data. Den här mängden lagringsutrymme är tillgängligt med dataflöde mätt i gigabit per sekund (Gbit/s) med höga nivåer av in- och utdataåtgärder per sekund (IOPS). Bearbetningen utförs med nästan konstanta svarstider per begäran som mäts på tjänst-, konto- och filnivå.
Kostnadseffektivitet
Eftersom Data Lake Storage Gen2 bygger på Azure Blob Storage är kostnaderna för lagringskapacitet och transaktioner lägre. Till skillnad från andra molnlagringstjänster behöver du inte flytta eller transformera dina data innan du kan analysera dem. Mer information om priser finns i Azure Storage priser.
Dessutom förbättrar funktioner som den hierarkiska namnrymden avsevärt den övergripande prestandan för många analysjobb. Den här prestandaförbättringen innebär att du behöver mindre beräkningskraft för att bearbeta samma mängd data, vilket resulterar i en lägre total ägandekostnad (TCO) för analysjobbet från slutet till slut.
En tjänst, flera begrepp
Eftersom Data Lake Storage Gen2 bygger på Azure Blob Storage kan flera begrepp beskriva samma, delade saker.
Följande är motsvarande entiteter, enligt beskrivningen av olika begrepp. Om inget annat anges är dessa entiteter direkt synonyma:
| Koncept | Organisation på toppnivå | Organisation på lägre nivå | Datacontainer |
|---|---|---|---|
| Blobar – allmän objektlagring | Container | Virtuell katalog (endast SDK – ger inte atomisk manipulering) | Blob |
| Azure Data Lake Storage Gen2 – Storage | Container | Katalog | Fil |
Blob-Storage funktioner som stöds
Blob Storage funktioner som diagnostisk loggning,åtkomstnivåer och Blob Storage för livscykelhantering är tillgängliga för ditt konto. De flesta Storage blobbfunktioner stöds fullt ut, men vissa funktioner stöds endast på förhandsversionsnivå eller stöds inte ännu.
Information om hur varje Blob Storage-funktion stöds med Data Lake Storage Gen2 finns i Stöd för Blob Storage-funktioner i Azure Storage-konton.
Azure-tjänstintegreringar som stöds
Data Lake Storage gen2 stöder flera Azure-tjänster. Du kan använda dem för att mata in data, utföra analyser och skapa visuella representationer. En lista över Azure-tjänster som stöds finns i Azure-tjänster som stöder Azure Data Lake Storage Gen2.
Plattformar för öppen källkod som stöds
Flera plattformar med öppen källkod stöder Data Lake Storage Gen2. En fullständig lista finns i Plattformar med öppen källkod som stöder Azure Data Lake Storage Gen2.