نظرة عامة على Azure Data Lake Storage Gen2 في HDInsight

يحصل Azure Data Lake Storage Gen2 على الميزات الأساسية من Azure Data Lake Storage Gen1 ويدمجها في موقع تخزين Azure Blob. تتضمن هذه الميزات نظام ملفات متوافق مع Hadoop ومعرف Microsoft Entra وقوائم التحكم في الوصول المستندة إلى POSIX (ACLs). يسمح هذا المزيج لك بالاستفادة من أداءAzure Data Lake Storage Gen1. أثناء استخدام ترتيب البيانات في طبقات وإدارة دورة حياة البيانات لموقع تخزين Blob.

للحصول على مزيدٍ من المعلومات عن Azure Data Lake Storage Gen2، راجع مقدمة إلى Azure Data Lake Storage Gen2.

وظائف Azure Data Lake Storage Gen2 الأساسية

  • الوصول المتوافق مع Hadoop:في Azure Data Lake Storage Gen2، يمكنك إدارة البيانات والوصول إليها كما تريد من خلال نظام الملفات الموزعة لـ Hadoop (HDFS). يتوفر برنامج تشغيل Azure Blob File System (ABFS) ضمن جميع بيئات Apache Hadoop، بما في ذلك Azure HDInsight وAzure Databricks. استخدم ABFS للوصول إلى البيانات المخزنة في Data Lake Storage Gen2.

  • مجموعة فائقة من أذونات POSIX: يدعم نموذج أمان Data Lake Gen2 قائمة التحكم بالوصول وPOSIX بالإضافة إلى مزيد من النقاوة التي يتمتع بها Data Lake Storage Gen2. يمكن تكوين الإعدادات من خلال أدوات المسؤول أو أطر العمل مثل Apache Hive وApache Spark.

  • فعال من حيث التكلفة: يوفر Data Lake Storage Gen2 سعة تخزين ومعاملات منخفضة التكلفة. تساعد دورات حياة تخزين Blob على خفض التكاليف عن طريق ضبط معدلات الفوترة أثناء انتقال البيانات خلال دورة حياتها.

  • التوافق مع أدوات تخزين Blob، وأطر العمل، والتطبيقات: تستمر Data Lake Storage Gen2 في العمل مع مجموعة واسعة من الأدوات، وأطر العمل، والتطبيقات لتخزين Blob.

  • المحرك الأمثل: محرك تشغيل ABFS هو الأمثل خصوصاً لتحليل البيانات الضخمة. يتم ظهور واجهات برمجة تطبيقات REST المطابقة من خلال نقطة نهاية نظام الملفات الموزعة (DFS)، dfs.core.windows.net.

الجديد في Azure Data Lake Storage Gen 2

إدارة الهويات المُدارة لوصول الملفات الآمن

يستخدم Azure HDInsight الهويات المدارة لتأمين وصول نظام المجموعة الآمن إلى الملفات في Azure Data Lake Storage Gen2. الهويات المدارة هي ميزة من ميزات معرف Microsoft Entra التي توفر خدمات Azure بمجموعة من بيانات الاعتماد المدارة تلقائيا. يمكن استخدام بيانات الاعتماد هذه للمصادقة على أي خدمة تدعم مصادقة خدمات مجال Active Directory. لا يتطلب استخدام الهويات المُدارة تخزين بيانات الاعتماد في ملفات التعليمات البرمجية أو التكوين.

لمزيدٍ من المعلومات، انظر الهويات المُدارة لموارد Azure.

برنامج تشغيل Azure Blob File System

من المتوقع أن تقوم تطبيقات Apache Hadoop بشكل أساسي بقراءة وكتابة البيانات من تخزين القرص المحلي. يمكّن برنامج تشغيل نظام ملفات Hadoop مثل ABFS تطبيقات Hadoop من العمل مع التخزين السحابي. يعمل عن طريق محاكاة عمليات نظام ملفات Hadoop العادية. يقوم برنامج التشغيل بتحويل تلك الأوامر المتلقاة من التطبيق إلى عمليات يفهمها النظام الأساسي الفعلي للتخزين السحابي.

سابقاً، قد حوّل برنامج تشغيل نظام الملفات Hadoop جميع عمليات نظام الملفات إلى استدعاءات واجهة برمجة تطبيقات Azure Storage REST من جانب العميل. ثم تم استدعاء واجهة برمجة تطبيقات REST. ومع ذلك أدت هذه التحويلات من جانب العميل إلى العديد من استدعاءات واجهة برمجة تطبيقات REST لعملية نظام الملفات الفردية مثل إعادة تسمية أحد الملفات. قد نقل ABFS منطق نظام ملفات Hadoop من جانب العميل إلى جانب الخادم. يتم الآن تشغيل واجهة برمجة تطبيقات Azure Data Lake Storage Gen2 بشكل متوازٍ مع واجهة برمجة تطبيقات Blob. يُحسن هذا الترحيل الأداء نظراً لأنه يمكن تنفيذ عمليات نظام الملفات Hadoop الشائعة الآن مع استدعاء واجهة برمجة تطبيقات REST واحد.

لمزيد من المعلومات، راجع برنامج تشغيل Azure Blob Filesystem (ABFS): وهو برنامج تشغيل تخزين Azure المخصص لـ Hadoop.

نظام URI لـ Azure Data Lake Storage Gen 2

يستخدم Azure Data Lake Storage Gen2 نظام URI جديد للوصول إلى الملفات في تخزين Azure من HDInsight:

abfs://<FILE_SYSTEM_NAME>@<ACCOUNT_NAME>.dfs.core.windows.net/<PATH>

يوفر نظام URI الوصول المشفر بـ SSL.

<FILE_SYSTEM_NAME> يحدد مسار نظام الملفات Data Lake Storage Gen2.

<ACCOUNT_NAME> يحدد اسم حساب تخزين Azure. اسم المجال المؤهل بالكامل (FQDN) مطلوب.

<PATH> هو اسم مسار HDFS للملف أو الدليل.

إذا لم يتم تحديد قيم <FILE_SYSTEM_NAME> و<ACCOUNT_NAME>، يتم استخدام نظام الملفات الافتراضي. بالنسبة للملفات الموجودة على نظام الملفات الافتراضي، استخدم مساراً نسبياً أو مساراً مطلقاً. على سبيل المثال، يمكن الإشارة إلى الملف hadoop-mapreduce-examples.jar الذي يأتي مع أنظمة مجموعات HDInsight باستخدام أحد المسارات التالية:

abfs://myfilesystempath@myaccount.dfs.core.windows.net/example/jars/hadoop-mapreduce-examples.jar
abfs:///example/jars/hadoop-mapreduce-examples.jar /example/jars/hadoop-mapreduce-examples.jar

إشعار

اسم الملف هو hadoop-examples.jar في أنظمة مجموعات HDInsight للإصدارات 2.1 و1.6. عندما تعمل مع ملفات خارج HDInsight، ستجد أن معظم الأدوات المساعدة لا تتعرف على تنسيق ABFS ولكن بدلاً من ذلك ستجد تنسيق مسار أساسي، مثل example/jars/hadoop-mapreduce-examples.jar.

لمزيد من المعلومات، راجع استخدام Azure Data Lake Storage Gen2 URI.

الخطوات التالية