برنامج تشغيل الجهاز لنظام ملفات الكائن الثنائي كبير الحجم لـAzure (ABFS)، وهو برنامج تشغيل الجهاز مخصص لتخزين Azure لـHadoop

واحدة من أساليب الوصول الأساسية للبيانات في Azure Data Lake Storage Gen2 هي عبر نظام ملفات Hadoop. يسمح Data Lake Storage Gen2 لمستخدمي الكائن الثنائي كبير الحجم من Azure بالوصول إلى برنامج تشغيل أجهزة جديد، وهو نظام برنامج تشغيل أجهزة أو ABFS للملفات من الكائن الثنائي كبير الحجم Azure. ABFS جزء من Apache Hadoop، ويتم تضمينه في العديد من التوزيعات التجارية لـ Hadoop. بواسطة برنامج تشغيل ABFS، يمكن للعديد من التطبيقات وأطر العمل الوصول إلى البيانات في Azure Blob Storage دون أي تعليمة برمجية تشير صراحة إلى Data Lake Storage Gen2.

القدرة المسبقة: برنامج تشغيل الجهاز للكائن الثنائي كبير الحجم لتخزين Windows Azure

يوفر برنامج تشغيل الجهاز للكائن الثنائي كبير الحجم لتخزين Azure Windows أو برنامج تشغيل WASB الدعم الأصلي لتخزين الكائن الثنائي كبير الحجم لـAzure قام برنامج تشغيل الجهاز هذا بتنفيذ المهمة المعقدة المتمثلة في تعيين دلالات نظام الملفات (كما هو مطلوب من قبل واجهة نظام الملفات Hadoop) إلى واجهة نمط مخزن العناصر التي تم كشفها بواسطة تخزين الكائن الثنائي كبير الحجم لـAzure. يستمر برنامج تشغيل الجهاز هذا في دعم هذا النموذج، مما يوفر وصولًا عالي الأداء إلى البيانات المخزنة في الكائنات الثنائية كبيرة الحجم، ولكنه يحتوي على كمية كبيرة من التعليمات البرمجية التي تقوم بإجراء هذا التعيين، مما يجعل من الصعب الحفاظ عليها. بالإضافة إلى ذلك، تتطلب بعض العمليات مثل FileSystem.rename() و FileSystem.delete() عند تطبيقها على الدلائل من برنامج تشغيل الجهاز تنفيذ عدد كبير من العمليات (بسبب عدم دعم مخازن العناصر للدلائل) مما يؤدي غالبا إلى تدهور الأداء. تم تصميم برنامج تشغيل الجهاز ABFS للتغلب على أوجه القصور المتأصلة في WASB.

برنامج تشغيل الجهاز لنظام ملفات الكائن الثنائي كبير الحجم لـAzure .

تم تصميم واجهة Azure Data Lake Storage REST لدعم دلالات نظام الملفات عبر تخزين الكائن الثنائي كبير الحجم لـAzure . نظرا لأن نظام ملفات Hadoop مصمم أيضا لدعم الدلالات نفسها، فلا يوجد أي متطلبات لتعيين معقد في برنامج التشغيل. وبالتالي، فإن برنامج تشغيل الجهاز لنظام ملفات الكائن الثنائي كبير الحجم Azure (أو ABFS) هو مجرد شيم عميل لواجهة برمجة تطبيقات REST.

ومع ذلك، هناك بعض الوظائف التي لا يزال يتعين على برنامج تشغيل الجهاز تنفيذها:

مخطط URI المخصص للإشارة إلى البيانات

بما يتفق مع تطبيقات نظام الملفات الأخرى داخل Hadoop، يحدد برنامج تشغيل ABFS نظام URI الخاص به بحيث يمكن معالجة الموارد (الدلائل والملفات) بشكل واضح. تم توثيق نظام مخطط URI في استخدام Azure Data Lake Storage Gen2 URI. هيكل URI هو عبارة عن: abfs[s]://file_system@account_name.dfs.core.windows.net/<path>/<path>/<file_name>

باستخدام تنسيق URI هذا، يمكن استخدام أدوات وأطر عمل Hadoop القياسية للإشارة إلى هذه الموارد:

hdfs dfs -mkdir -p abfs://fileanalysis@myanalytics.dfs.core.windows.net/tutorials/flightdelays/data
hdfs dfs -put flight_delays.csv abfs://fileanalysis@myanalytics.dfs.core.windows.net/tutorials/flightdelays/data/

داخليًا، يقوم برنامج تشغيل الجهاز لـABFS بترجمة المورد (الموارد) المحدد في عنوان URI إلى الملفات والدلائل وإجراء مكالمات إلى واجهة برمجة تطبيقات REST Azure Data Lake Storage مع تلك المراجع.

المصادقة

يدعم برنامج تشغيل الجهاز لـ ABFS شكلين من أشكال المصادقة بحيث يمكن لتطبيق Hadoop الوصول بأمان إلى الموارد الموجودة داخل حساب قادر على Data Lake Storage Gen2. يتم توفير التفاصيل الكاملة لأنظمة المصادقة المتوفرة في دليل أمان تخزين Azure. وهي:

  • مفتاح المشاركة: يسمح هذا للمستخدمين بالوصول إلى جميع الموارد في الحساب. يتعين تشفير المفتاح وتخزينه في تكوين Hadoop.

  • Microsoft Entra ID OAuth Bearer Token: يتم الحصول على الرموز المميزة لحامل Microsoft Entra وتحديثها بواسطة برنامج التشغيل باستخدام هوية المستخدم النهائي أو كيان الخدمة المكون. من خلال استخدام نموذج المصادقة هذا، يتم تفويض كل الوصول على أساس كل مكالمة باستخدام الهوية المرتبطة بالرمز المميز المرفق ويتم تقييمها مقابل قائمة التحكم في الوصول POSIX (ACL) المعينة.

    إشعار

    Azure Data Lake Storage Gen2 يعمل على دعم نقاط نهاية Azure AD v1.0 فقط.

التكوين

يتم تخزين كافة التكوينات لبرنامج تشغيل الجهاز لـABFS في core-site.xml ملف التكوين. في توزيعات Hadoop التي تضم Ambari ، يعمل أيضًا على إدارة التكوين باستخدام بوابة الويب أو واجهة برمجة تطبيقات Ambari REST.

يعمل على تحديد تفاصيل جميع إدخالات التكوين المدعومة في وثائق Hadoop الرسمية.

وثائق Hadoop

تم توثيق برنامج تشغيل الجهاز لـABFS بالكامل في وثائق Hadoop الرسمية

الخطوات التالية