إنشاء مجموعات HDInsight باستخدام Azure Data Lake Storage Gen1 باستخدام مدخل Azure
تعرف على كيفية استخدام مدخل Azure لإنشاء مجموعة HDInsight باستخدام Azure Data Lake Storage Gen1 كوحدة تخزين افتراضية أو وحدة تخزين إضافية. على الرغم من أن التخزين الإضافي اختياري لمجموعة HDInsight، فمن المستحسن تخزين بيانات نشاطك التجاري في حسابات التخزين الإضافية.
المتطلبات الأساسية
قبل البدء، تأكد من أنك استوفيت المتطلبات التالية:
- اشتراك Azure. انتقل إلى الحصول على الإصدار التجريبي المجاني من Azure.
- حساب Gen1 Azure Data Lake Storage. اتبع الإرشادات الواردة من بدء استخدام Azure Data Lake Storage Gen1 باستخدام مدخل Azure. يجب عليك أيضا إنشاء مجلد جذر على الحساب. في هذه المقالة، يتم استخدام مجلد جذر يسمى /clusters .
- A Azure Active Directory service principal. يوفر هذا الدليل الإرشادي إرشادات حول كيفية إنشاء مبدأ خدمة في Azure Active Directory (Azure AD). ومع ذلك، لإنشاء أصل خدمة، يجب أن تكون مسؤول Azure AD. إذا كنت مسؤولا، يمكنك تخطي هذا الشرط الأساسي والمتابعة.
ملاحظة
يمكنك إنشاء مدير خدمة فقط إذا كنت مسؤول Azure AD. يجب على مسؤول Azure AD إنشاء مبدأ خدمة قبل أن تتمكن من إنشاء مجموعة HDInsight مع Data Lake Storage Gen1. أيضا، يجب إنشاء أصل الخدمة باستخدام شهادة، كما هو موضح في إنشاء أصل خدمة مع شهادة.
إنشاء مجموعة HDInsight
في هذا القسم، يمكنك إنشاء مجموعة HDInsight مع Data Lake Storage Gen1 كمساحة تخزين افتراضية أو إضافية. تركز هذه المقالة فقط على جزء تكوين Data Lake Storage Gen1. للحصول على معلومات وإجراءات إنشاء الكتلة العامة، راجع إنشاء مجموعات Hadoop في HDInsight.
إنشاء مجموعة مع Data Lake Storage Gen1 كمساحة تخزين افتراضية
لإنشاء مجموعة HDInsight مع Data Lake Storage Gen1 كحساب تخزين افتراضي:
تسجيل الدخول إلى مدخل Microsoft Azure.
اتبع إنشاء مجموعات للحصول على معلومات عامة حول إنشاء مجموعات HDInsight.
على شفرة التخزين، ضمن نوع التخزين الأساسي، حدد Azure Data Lake Storage Gen1، ثم أدخل المعلومات التالية:

- تحديد حساب متجر بحيرة البيانات: حدد حساب Data Lake Storage Gen1 حالي. مطلوب حساب Data Lake Storage Gen1 موجود. راجع المتطلبات الأساسية.
- مسار الجذر: أدخل مسارا حيث سيتم تخزين الملفات الخاصة بنظام المجموعة. في لقطة الشاشة، يكون /clusters/myhdiadlcluster/، حيث يجب أن يكون المجلد /clusters موجودا، ويقوم Portal بإنشاء مجلد myhdicluster. myhdicluster هو اسم المجموعة.
- الوصول إلى مخزن بحيرة البيانات: تكوين الوصول بين حساب Data Lake Storage Gen1 ومجموعة HDInsight. للحصول على التعليمات، راجع تكوين الوصول Data Lake Storage Gen1.
- حسابات التخزين الإضافية: أضف حسابات تخزين Azure كحسابات تخزين إضافية للمجموعة. لإضافة حسابات Data Lake Storage Gen1 إضافية يتم ذلك عن طريق منح أذونات المجموعة على البيانات في حسابات أكثر Data Lake Storage Gen1 أثناء تكوين حساب Data Lake Storage Gen1 كنوع التخزين الأساسي. راجع تكوين الوصول Data Lake Storage Gen1.
في الوصول إلى مخزن بحيرة البيانات، انقر فوق تحديد، ثم تابع إنشاء نظام المجموعة كما هو موضح في إنشاء مجموعات Hadoop في HDInsight.
إنشاء مجموعة تحتوي على Data Lake Storage Gen1 كمساحة تخزين إضافية
تقوم الإرشادات التالية بإنشاء مجموعة HDInsight مع حساب تخزين Azure Blob كوحدة تخزين افتراضية، وحساب تخزين مع Data Lake Storage Gen1 كمساحة تخزين إضافية.
لإنشاء مجموعة HDInsight مع Data Lake Storage Gen1 كحساب تخزين إضافي:
تسجيل الدخول إلى مدخل Microsoft Azure.
اتبع إنشاء مجموعات للحصول على معلومات عامة حول إنشاء مجموعات HDInsight.
على شفرة التخزين ، ضمن نوع التخزين الأساسي، حدد تخزين Azure، ثم أدخل المعلومات التالية:

طريقة التحديد - لتحديد حساب تخزين يشكل جزءا من اشتراكك في Azure، حدد اشتراكاتي، ثم حدد حساب التخزين. لتحديد حساب تخزين خارج اشتراكك في Azure، حدد مفتاح الوصول، ثم قم بتوفير المعلومات الخاصة بحساب التخزين الخارجي.
الحاوية الافتراضية - استخدم إما القيمة الافتراضية أو حدد اسمك الخاص.
حسابات التخزين الإضافية - أضف المزيد من حسابات تخزين Azure كمساحة تخزين إضافية.
الوصول إلى مخزن بحيرة البيانات - تكوين الوصول بين حساب Data Lake Storage Gen1 ومجموعة HDInsight. للحصول على الإرشادات، راجع تكوين الوصول Data Lake Storage Gen1.
تكوين الوصول إلى Azure Data Lake Storage Gen1
في هذا القسم، يمكنك تكوين الوصول Data Lake Storage Gen1 من مجموعات HDInsight باستخدام مبدأ خدمة Azure Active Directory.
تحديد أصل الخدمة
من مدخل Azure، يمكنك إما استخدام أصل خدمة موجود أو إنشاء خدمة جديدة.
لإنشاء أصل خدمة من مدخل Azure:
- راجع إنشاء أساس الخدمة والشهادات باستخدام Azure Active Directory.
لاستخدام أصل خدمة موجود من مدخل Azure:
يجب أن يكون لدى مدير الخدمة أذونات المالك على حساب التخزين. راجع إعداد الأذونات لمدير الخدمة ليكون مالكا على حساب التخزين.
حدد الوصول إلى متجر بحيرة البيانات.
على شفرة الوصول Data Lake Storage Gen1، حدد استخدام موجود.
حدد أصل الخدمة، ثم حدد أصل خدمة.
Upload الشهادة (ملف .pfx) المقترنة بمبدأ الخدمة المحدد، ثم أدخل كلمة مرور الشهادة.

حدد Access لتكوين الوصول إلى المجلد. راجع تكوين أذونات الملف.
إعداد أذونات لمدير الخدمة ليكون مالكا على حساب التخزين
- على الشفرة النصلية للتحكم في الوصول (IAM) لحساب التخزين انقر فوق إضافة تعيين دور.
- في شفرة إضافة تعيين دور، حدد الدور ك "مالك"، وحدد SPN وانقر فوق حفظ.
تكوين أذونات الملفات
يختلف التكوين بناء على ما إذا كان الحساب يستخدم كمساحة تخزين افتراضية أو حساب تخزين إضافي:
يستخدم كوحدة تخزين افتراضية
- إذن على مستوى الجذر لحساب Data Lake Storage Gen1
- إذن على مستوى الجذر لتخزين مجموعة HDInsight. على سبيل المثال، المجلد /clusters المستخدم سابقا في البرنامج التعليمي.
استخدامه كمساحة تخزين إضافية
- إذن في المجلدات التي تحتاج فيها إلى الوصول إلى الملفات.
لتعيين إذن في حساب التخزين مع Data Lake Storage Gen1 على مستوى الجذر:
على شفرة الوصول Data Lake Storage Gen1، حدد الوصول. يتم فتح شفرة أذونات تحديد الملف . يسرد جميع حسابات التخزين في اشتراكك.
مرر مؤشر الماوس (لا تنقر) فوق اسم الحساب الذي يحتوي على Data Lake Storage Gen1 لجعل خانة الاختيار مرئية، ثم حدد خانة الاختيار.

بشكل افتراضي، يتم تحديد كل من القراءةوالكتابةوالتنفيذ .
انقر على تحديد في أسفل الصفحة.
حدد تشغيل لتعيين إذن.
حدد Done.
لتعيين إذن على مستوى جذر كتلة HDInsight:
- على شفرة الوصول Data Lake Storage Gen1، حدد الوصول. يتم فتح شفرة أذونات تحديد الملف . يسرد جميع حسابات التخزين مع Data Lake Storage Gen1 في اشتراكك.
- من شفرة تحديد أذونات الملف، حدد حساب التخزين Data Lake Storage Gen1 الاسم لإظهار محتواه.
- حدد جذر تخزين مجموعة HDInsight عن طريق تحديد خانة الاختيار الموجودة على يمين المجلد. وفقا للقطة الشاشة السابقة، فإن جذر تخزين الكتلة هو المجلد /clusters الذي حددته أثناء تحديد Data Lake Storage Gen1 كوحدة تخزين افتراضية.
- قم بتعيين الأذونات على المجلد. بشكل افتراضي، يتم تحديد كل من القراءة والكتابة والتنفيذ.
- انقر على تحديد في أسفل الصفحة.
- حدد تشغيل.
- حدد Done.
إذا كنت تستخدم Data Lake Storage Gen1 كمساحة تخزين إضافية، فيجب تعيين إذن فقط للمجلدات التي تريد الوصول إليها من مجموعة HDInsight. على سبيل المثال، في لقطة الشاشة أدناه، يمكنك توفير الوصول فقط إلى مجلد mynewfolder في حساب تخزين مع Data Lake Storage Gen1.

التحقق من إعداد نظام المجموعة
بعد اكتمال إعداد نظام المجموعة، على شفرة نظام المجموعة، تحقق من النتائج عن طريق القيام بإحدى الخطوتين التاليتين أو كلتيهما:
للتحقق من أن مساحة التخزين المقترنة للمجموعة هي الحساب الذي يحتوي على Data Lake Storage Gen1 الذي حددته، حدد حسابات التخزين في الجزء الأيمن.

للتحقق من أن أصل الخدمة مقترن بشكل صحيح بمجموعة HDInsight، حدد Data Lake Storage Gen1 الوصول في الجزء الأيمن.

أمثلة
بعد إعداد المجموعة باستخدام Data Lake Storage Gen1 كوحدة تخزين خاصة بك، راجع هذه الأمثلة حول كيفية استخدام مجموعة HDInsight لتحليل البيانات المخزنة في Data Lake Storage Gen1.
تشغيل استعلام خلية مقابل البيانات الموجودة في Data Lake Storage Gen1 (كوحدة تخزين أساسية)
لتشغيل استعلام Hive، استخدم واجهة طرق عرض Hive في مدخل Ambari. للحصول على إرشادات حول كيفية استخدام طرق عرض Ambari Hive، راجع استخدام طريقة عرض Hive مع Hadoop في HDInsight.
عند العمل مع البيانات في Data Lake Storage Gen1، هناك بعض السلاسل التي يجب تغييرها.
إذا كنت تستخدم، على سبيل المثال، الكتلة التي قمت بإنشائها باستخدام Data Lake Storage Gen1 كوحدة تخزين أساسية، فإن المسار إلى البيانات هو: adl://< data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file. يبدو استعلام خلية لإنشاء جدول من عينة بيانات مخزنة في Data Lake Storage Gen1 العبارة التالية:
CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'
اوصاف:
adl://hdiadlsg1storage.azuredatalakestore.net/هو جذر الحساب مع Data Lake Storage Gen1./clusters/myhdiadlclusterهو جذر بيانات المجموعة التي قمت بتحديدها أثناء إنشاء المجموعة./HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/هو موقع نموذج الملف الذي استخدمته في الاستعلام.
تشغيل استعلام خلية مقابل البيانات الموجودة في Data Lake Storage Gen1 (كمساحة تخزين إضافية)
إذا كانت الكتلة التي قمت بإنشائها تستخدم مساحة تخزين Blob كوحدة تخزين افتراضية، فلن يتم تضمين بيانات العينة في حساب التخزين الذي يحتوي على Data Lake Storage Gen1 يتم استخدامه كمساحة تخزين إضافية. في مثل هذه الحالة، قم أولا بنقل البيانات من تخزين Blob إلى حساب التخزين مع Data Lake Storage Gen1، ثم قم بتشغيل الاستعلامات كما هو موضح في المثال السابق.
للحصول على معلومات حول كيفية نسخ البيانات من وحدة تخزين Blob إلى حساب تخزين مع Data Lake Storage Gen1، راجع المقالات التالية:
- استخدم Distcp لنسخ البيانات بين تخزين Azure Blob والتخزين Data Lake Storage Gen1
- استخدم AdlCopy لنسخ البيانات من تخزين Azure Blob إلى Data Lake Storage Gen1
استخدام Data Lake Storage Gen1 مع مجموعة Spark
يمكنك استخدام مجموعة Spark لتشغيل مهام Spark على البيانات المخزنة في Data Lake Storage Gen1. لمزيد من المعلومات، راجع استخدام مجموعة HDInsight Spark لتحليل البيانات في Data Lake Storage Gen1.
استخدام Data Lake Storage Gen1 في طبولوجيا العاصفة
يمكنك استخدام حساب التخزين مع Data Lake Storage Gen1 لكتابة البيانات من طبولوجيا Storm. للحصول على إرشادات حول كيفية تحقيق هذا السيناريو، راجع استخدام Azure Data Lake Storage Gen1 مع Apache Storm مع HDInsight.