Share via


Overzicht van Azure Data Lake Storage Gen2 in HDInsight

Azure Data Lake Storage Gen2 neemt kernfuncties van Azure Data Lake Storage Gen1 en integreert deze in Azure Blob Storage. Deze functies omvatten een bestandssysteem dat compatibel is met Hadoop, Microsoft Entra ID en OP POSIX gebaseerde toegangsbeheerlijsten (ACL's). Met deze combinatie kunt u profiteren van de prestaties van Azure Data Lake Storage Gen1. Gebruik ook de lagen en het levenscyclusbeheer van gegevens van Blob Storage.

Zie Inleiding tot Azure Data Lake Storage Gen2 voor meer informatie over Azure Data Lake Storage Gen2.

Kernfunctionaliteit van Azure Data Lake Storage Gen2

  • Toegang die compatibel is met Hadoop: In Azure Data Lake Storage Gen2 kunt u gegevens op dezelfde wijze beheren en openen als met een Hadoop Distributed File System (HDFS). Het ABFS-stuurprogramma (Azure Blob File System) is beschikbaar in alle Apache Hadoop-omgevingen, waaronder Azure HDInsight en Azure Databricks. Gebruik ABFS voor toegang tot gegevens die zijn opgeslagen in Data Lake Storage Gen2.

  • Een superset van POSIX-machtigingen: het beveiligingsmodel voor Data Lake Gen2 ondersteunt ACL- en POSIX-machtigingen, samen met enkele extra granulariteit die specifiek is voor Data Lake Storage Gen2. Instellingen kan worden geconfigureerd via beheerhulpprogramma's of frameworks zoals Apache Hive en Apache Spark.

  • Kosteneffectiviteit: Data Lake Storage Gen2 biedt voordelige opslagcapaciteit en transacties. Levenscycluscycli van Azure Blob Storage helpen de kosten te verlagen door de factureringstarieven aan te passen wanneer gegevens door de levenscyclus worden verplaatst.

  • Compatibiliteit met Blob Storage-hulpprogramma's, frameworks en apps: Data Lake Storage Gen2 blijft werken met een breed scala aan hulpprogramma's, frameworks en toepassingen voor Blob Storage.

  • Geoptimaliseerd stuurprogramma: het ABFS-stuurprogramma is specifiek geoptimaliseerd voor big data-analyses. De bijbehorende REST API's worden weergegeven via het DFS-eindpunt (Distributed File System), dfs.core.windows.net.

Wat is er nieuw voor Azure Data Lake Storage Gen 2

Beheerde identiteiten voor beveiligde bestandstoegang

Azure HDInsight maakt gebruik van beheerde identiteiten om clustertoegang tot bestanden in Azure Data Lake Storage Gen2 te beveiligen. Beheerde identiteiten zijn een functie van Microsoft Entra-id die Azure-services biedt met een set automatisch beheerde referenties. Deze referenties kunnen worden gebruikt voor verificatie bij elke service die Ondersteuning biedt voor Active Directory-verificatie. Als u beheerde identiteiten gebruikt, hoeft u geen referenties op te slaan in code- of configuratiebestanden.

Zie Beheerde identiteiten voor Azure-resources voor meer informatie.

Stuurprogramma voor Azure Blob File System

Apache Hadoop-toepassingen verwachten systeemeigen gegevens te lezen en te schrijven uit lokale schijfopslag. Met een Hadoop-bestandssysteemstuurprogramma zoals ABFS kunnen Hadoop-toepassingen werken met cloudopslag. Werkt door reguliere Hadoop-bestandssysteembewerkingen te emuleren. Het stuurprogramma converteert deze opdrachten die van de toepassing zijn ontvangen naar bewerkingen die het werkelijke cloudopslagplatform begrijpt.

Voorheen heeft het Hadoop-bestandssysteemstuurprogramma alle bestandssysteembewerkingen geconverteerd naar Azure Storage REST API-aanroepen aan de clientzijde. En vervolgens de REST API aangeroepen. Deze conversie aan de clientzijde heeft echter geresulteerd in meerdere REST API-aanroepen voor één bestandssysteembewerking, zoals de hernoeming van een bestand. ABFS heeft de logica van het Hadoop-bestandssysteem van de clientzijde naar de serverzijde verplaatst. De Azure Data Lake Storage Gen2-API wordt nu parallel uitgevoerd met de Blob-API. Deze migratie verbetert de prestaties omdat nu algemene Hadoop-bestandssysteembewerkingen kunnen worden uitgevoerd met één REST API-aanroep.

Zie het Stuurprogramma azure Blob Filesystem (ABFS): een toegewezen Azure Storage-stuurprogramma voor Hadoop voor meer informatie.

URI-schema voor Azure Data Lake Storage Gen 2

Azure Data Lake Storage Gen2 maakt gebruik van een nieuw URI-schema voor toegang tot bestanden in Azure Storage vanuit HDInsight:

abfs://<FILE_SYSTEM_NAME>@<ACCOUNT_NAME>.dfs.core.windows.net/<PATH>

Het URI-schema biedt versleutelde SSL-toegang.

<FILE_SYSTEM_NAME> identificeert het pad van het bestandssysteem Data Lake Storage Gen2.

<ACCOUNT_NAME> identificeert de naam van het Azure Storage-account. Een FQDN (Fully Qualified Domain Name) is vereist.

<PATH> is de naam van het HDFS-pad van het bestand of de map.

Als waarden voor <FILE_SYSTEM_NAME> en <ACCOUNT_NAME> niet zijn opgegeven, wordt het standaardbestandssysteem gebruikt. Gebruik voor de bestanden in het standaardbestandssysteem een relatief pad of een absoluut pad. Het bestand dat bij HDInsight-clusters wordt geleverd, hadoop-mapreduce-examples.jar kan bijvoorbeeld worden verwezen met behulp van een van de volgende paden:

abfs://myfilesystempath@myaccount.dfs.core.windows.net/example/jars/hadoop-mapreduce-examples.jar
abfs:///example/jars/hadoop-mapreduce-examples.jar /example/jars/hadoop-mapreduce-examples.jar

Notitie

De bestandsnaam bevindt zich hadoop-examples.jar in HDInsight-versies 2.1- en 1.6-clusters. Wanneer u met bestanden buiten HDInsight werkt, zult u merken dat de meeste hulpprogramma's de ABFS-indeling niet herkennen, maar in plaats daarvan een basispadindeling verwachten, zoals example/jars/hadoop-mapreduce-examples.jar.

Zie De URI van Azure Data Lake Storage Gen2 gebruiken voor meer informatie.

Volgende stappen