Inleiding in Azure Data Lake Storage Gen2
Azure Data Lake Storage Gen2 is een set mogelijkheden die is toegewezen aan big data analytics, gebouwd op Azure Blob Storage.
Data Lake Storage Gen2 convergeert de mogelijkheden van Azure Data Lake Storage Gen1 met Azure Blob Storage. Data Lake Storage Gen2 biedt bijvoorbeeld semantiek van bestandssystemen, beveiliging op bestandsniveau en schaal. Omdat deze mogelijkheden zijn gebouwd op Blob Storage, krijgt u ook gelaagde opslag met mogelijkheden tot hoge beschikbaarheid en herstel na een noodgeval, tegen een scherpe prijs.
Ontworpen voor big data-analyse door grote ondernemingen
Data Lake Storage Gen2 maakt van Azure Storage de basis voor het bouwen van zakelijke data lakes op Azure. Data Lake Storage Gen2 is vanaf het begin ontworpen om meerdere petabytes aan gegevens te kunnen bieden met honderden gigabits aan doorvoer en stelt u in staat om eenvoudig enorme hoeveelheden gegevens te beheren.
De toevoeging van een hiërarchische naamruimte aan Blob Storage vormt een fundamenteel onderdeel van Data Lake Storage Gen2. Met de hiërarchische naamruimte worden objecten/bestanden georganiseerd in een hiërarchie met mappen voor efficiënte toegang tot de gegevens. In een gewone naamconventie voor objectopslag wordt gebruik gemaakt van slashes om een hiërarchische mapstructuur na te bootsen. Deze structuur wordt echt in Data Lake Storage Gen2. Bewerkingen (zoals het wijzigen van een naam of het verwijderen van een map) worden één atomische bewerking van metagegevens in de map. Het is niet nodig om alle objecten te inventariseren en te verwerken die het naamvoorvoegsel van de map delen.
Data Lake Storage Gen2 bouwt voort op Blob Storage en verbetert de prestaties, het beheer en de beveiliging op de volgende manieren:
De prestaties worden geoptimaliseerd omdat u geen gegevens hoeft te kopiëren of transformeren als voorwaarde voor analyse. In vergelijking met de ongestructureerde naamruimte in Blob Storage verbetert de hiërarchische naamruimte de prestaties tijdens het beheren van de structuur aanzienlijk, waardoor de algehele prestaties worden verbeterd.
Het beheer is eenvoudiger omdat u bestanden kunt ordenen en bewerken met behulp van mappen en submappen.
De beveiliging is afdwingbaar omdat u POSIX-machtigingen kunt definiëren voor structuren of afzonderlijke bestanden.
Data Lake Storage Gen2 is ook zeer rendabel omdat het is gebouwd op de goedkope Azure Blob Storage. De extra functies verlagen de totale beheerkosten voor het uitvoeren van big data-analyses in Azure nog verder.
Belangrijkste functies van Data Lake Storage Gen2
Hadoop-compatibele toegang: Met Data Lake Storage Gen2 kunt u gegevens beheren en openen zoals u zou doen met een Hadoop Distributed File System (HDFS). Het nieuwe ABFS-stuurprogramma (gebruikt voor toegang tot gegevens) is beschikbaar in alle Apache Hadoop-omgevingen. Deze omgevingen bevatten Azure HDInsight , Azure Databricks en Azure Synapse Analytics.
Een superset posix-machtigingen: Het beveiligingsmodel voor Data Lake Gen2 ondersteunt ACL- en POSIX-machtigingen, samen met extra granulariteit die specifiek is voor Data Lake Storage Gen2. Instellingen kunnen worden geconfigureerd via Storage Explorer of door middel van frameworks zoals Hive en Spark.
Rendabel: Data Lake Storage Gen2 biedt voordelige opslagcapaciteit en transacties. Functies zoals De levenscyclus van Azure Blob Storage kosten optimaliseren naarmate gegevens gedurende de levenscyclus worden overgeslagen.
Geoptimaliseerd stuurprogramma: Het ABFS-stuurprogramma is specifiek geoptimaliseerd voor big data analyse. De bijbehorende REST API's worden aan het oppervlak gebracht via het eindpunt
dfs.core.windows.net.
Schaalbaarheid
Azure Storage is inherent schaalbaar - of u nu toegang hebt via Data Lake Storage Gen2 of via Blob Storage-interfaces. De service kan veel exabytes aan gegevens opslaan en verwerken. Deze hoeveelheid opslagruimte is beschikbaar met een doorvoer in gigabits per seconde (Gbps) bij hoge aantallen invoer-/uitvoerbewerkingen per seconde (IOPS). De verwerking wordt uitgevoerd op bijna constante latenties per aanvraag, die worden gemeten op service-, account- en bestandsniveaus.
Voordelig
Omdat Data Lake Storage Gen2 is gebouwd op Azure Blob Storage, zijn de opslagcapaciteit en transactiekosten lager. In tegenstelling tot bij andere cloudopslagservices, hoeft u uw gegevens niet te verplaatsen of te transformeren voordat u deze kunt analyseren. Zie de Prijzen voor Azure Storage voor meer informatie over prijzen.
Daarnaast kunnen functies, zoals de hiërarchische naamruimte, de algehele prestaties van veel analysetaken aanzienlijk verbeteren. Door deze prestatieverbetering hebt u minder rekenkracht nodig om dezelfde hoeveelheid gegevens te verwerken, wat resulteert in lagere totale beheerkosten voor de analysetaak van begin tot eind.
Eén service, meerdere concepten
Omdat Data Lake Storage Gen2 is gebouwd op Azure Blob Storage, kunnen meerdere concepten dezelfde, gedeelde dingen beschrijven.
Hieronder ziet u de equivalente entiteiten, zoals beschreven in verschillende concepten. Tenzij anders aangegeven, zijn deze entiteiten direct synoniem:
| Concept | Organisatie op het hoogste niveau | Organisatie op lager niveau | Gegevenscontainer |
|---|---|---|---|
| Blobs : objectopslag voor algemeen gebruik | Container | Virtuele map (alleen SDK- biedt geen atomische manipulatie) | Blob |
| Azure Data Lake Storage Gen2 - Analyse Storage | Container | Directory | File |
Ondersteunde functies Storage Blob-opslag
Blob Storage functies zoals diagnostischelogboekregistratie, toegangslagenen beleidsregels voor levenscyclusbeheer Storage Blob Storage zijn beschikbaar voor uw account. De meeste blob Storage functies worden volledig ondersteund, maar sommige functies worden alleen ondersteund op preview-niveau of nog niet.
Zie Ondersteuning voor Blob Storage-functies in Azure Storage-accountsom te zien hoe elke Blob Storage-functie wordt ondersteund met Data Lake Storage Gen2.
Ondersteunde integraties met Azure-services
Data Lake Storage Gen2 ondersteunt verschillende Azure-Services. U kunt ze gebruiken om gegevens op te nemen, analyses uit te voeren en visuele weergaven te maken. Zie Azure-services die ondersteuning bieden voor Azure Data Lake Storage Gen2 voor een lijst met ondersteunde Azure-services.
Ondersteunde open source-platforms
Verschillende open source-platformen ondersteunen Data Lake Storage Gen2. Zie Open source-platformen die ondersteuning bieden voor Azure Data Lake Storage Gen2 voor een volledig overzicht.