Azure Blob filesystem-drivrutinen (ABFS): en dedikerad Azure Storage driv rutin för Hadoop

En av de primära åtkomst metoderna för data i Azure Data Lake Storage Gen2 är via Hadoop-filsystem. Data Lake Storage Gen2 ger användare av Azure Blob Storage åtkomst till en ny driv rutin, Azure Blob-filsystemets driv rutin eller ABFS . ABFS är en del av Apache Hadoop och ingår i många av de kommersiella distributionerna av Hadoop. Med den här driv rutinen kan många program och ramverk komma åt data i Azure Blob Storage utan kod som uttryckligen refererar till Data Lake Storage Gen2.

Tidigare funktion: Windows Azure Storage Blob-drivrutinen

Windows Azure Storage Blob driv rutinen eller WASB-drivrutinen tillhandahöll det ursprungliga stödet för Azure Blob Storage. Den här driv rutinen utförde den komplexa uppgiften att mappa fil systemets semantik (vilket krävs av Hadoop-filsystem-gränssnittet) till det objekt lagrings gränssnitt som exponeras av Azure Blob Storage. Den här driv rutinen fortsätter att stödja den här modellen, vilket ger hög prestanda åtkomst till data som lagras i blobbar, men som innehåller en betydande mängd kod som utför den här mappningen, vilket gör det svårt att underhålla. Dessutom kräver vissa åtgärder som filesystem. Rename () och filesystem. Delete () som tillämpas på kataloger att driv rutinen kan utföra ett stort antal åtgärder (på grund av att objekt inte innehåller stöd för kataloger) som ofta leder till försämrade prestanda. ABFS-drivrutinen har utformats för att lösa de olika bristerna i WASB.

Azure Blob File System-drivrutinen

Azure Data Lake Storage REST-gränssnittet har utformats för att stödja semantiska fil system över Azure Blob Storage. Eftersom Hadoop-filsystem också är utformat för att stödja samma semantik finns det inget krav på en komplex mappning i driv rutinen. Därför är Azure Blob-filsystemets driv rutin (eller ABFS) en klient-Shim för REST API.

Det finns dock vissa funktioner som driv rutinen fortfarande måste utföra:

URI-schema för referens data

ABFS-drivrutinen är konsekvent med andra fil Systems implementeringar i Hadoop och definierar det egna URI-schemat så att resurser (kataloger och filer) kan särskiljas tydligt. URI-schemat dokumenteras i använd Azure Data Lake Storage Gen2-URI. URI-strukturen är: abfs[s]://file_system@account_name.dfs.core.windows.net/<path>/<path>/<file_name>

Med hjälp av ovanstående URI-format kan du använda vanliga Hadoop-verktyg och ramverk för att referera till dessa resurser:

hdfs dfs -mkdir -p abfs://fileanalysis@myanalytics.dfs.core.windows.net/tutorials/flightdelays/data
hdfs dfs -put flight_delays.csv abfs://fileanalysis@myanalytics.dfs.core.windows.net/tutorials/flightdelays/data/

Internt översätter ABFS-drivrutinen resurserna som anges i URI: n till filer och kataloger och anropar Azure Data Lake Storage REST API med dessa referenser.

Autentisering

ABFS-drivrutinen stöder två typer av autentisering så att Hadoop-programmet kan komma åt resurser som finns i ett Data Lake Storage Gen2 kompatibelt konto. Fullständig information om tillgängliga autentiseringsscheman finns i säkerhets guiden för Azure Storage. De är:

  • Delad nyckel: Detta gör det möjligt för användare att få åtkomst till alla resurser i kontot. Nyckeln krypteras och lagras i Hadoop-konfigurationen.

  • Azure Active Directory OAuth Bearer-token: Azure AD Bearer-token förvärvas och uppdateras av driv rutinen med antingen identiteten för slutanvändaren eller ett konfigurerat huvud namn för tjänsten. Med hjälp av den här autentiseringsmetoden auktoriseras all åtkomst per anrop med den identitet som är kopplad till den angivna token och utvärderas mot den tilldelade POSIX-Access Control listan (ACL).

    Anteckning

    Azure Data Lake Storage Gen2 stöder endast Azure AD v 1.0-slut punkter.

Konfiguration

All konfiguration för ABFS-drivrutinen lagras i core-site.xml konfigurations filen. På Hadoop-distributioner med Ambarikan konfigurationen också hanteras med hjälp av webb portalen eller Ambari REST API.

Information om alla konfigurations poster som stöds anges i den officiella Hadoop-dokumentationen.

Hadoop-dokumentation

ABFS-drivrutinen är fullständigt dokumenterad i den officiella Hadoop-dokumentationen

Nästa steg