التشغيل السريع: إنشاء مجموعة Apache Hadoop في Azure HDInsight باستخدام مدخل Microsoft Azure

في هذه المقالة، تتعلم كيفية إنشاء مجموعات Apache Hadoop في HDInsight باستخدام مدخل Microsoft Azure، ثم تشغيل وظائف Apache Hive في HDInsight. معظم وظائف Hadoop هي وظائف دفعية. إنشاء كتلة تشغيل بعض مهام ثم قم بحذف المجموعة. في هذه المقالة، يمكنك تنفيذ جميع المهام الثلاث. للاطلاع على شرح متعمق للتكوينات المتوفرة، يرجى الاطلاع على إعداد نظام المجموعات المترابطة في HDInsight. للاطلاع على معلومات إضافية بخصوص استخدام البوابة في إنشاء نظام مجموعات، يرجى الاطلاع على Create clusters in the portal.

في هذا التشغيل السريع، يمكنك استخدام مدخل Microsoft Azure لإنشاء بوابة تطبيق. يمكنك أيضا إنشاء كتلة باستخدام Azure Resource Manager template.

يأتي HDInsight حالياً مع سبعة أنواع مختلفة من أنظمة المجموعات. يدعم كل نوع من أنظمة المجموعات مجموعة مختلفة من المكونات. تدعم جميع أنواع المجموعات أنظمة Hive. للحصول على قائمة بالمكونات المدعومة في HDInsight، اطلع على ما الجديد في إصدارات نظام المجموعة Apache Hadoop المُقدمة من HDInsight؟

في حال لم يكن لديك اشتراك Azure، فأنشئ حساباً مجانيّاً قبل البدء.

إنشاء مجموعة Apache Hadoop

في هذا المقطع، يمكنك إنشاء مجموعة Hadoop في HDInsight باستخدام مدخل Microsoft Azure.

  1. قم بتسجيل الدخول إلى بوابة Azure.

  2. في القائمة اليمنى، تحديد + إنشاء مورد.

    Create a resource HDInsight cluster.

  3. تحديد التحليلات>Azure HDInsight للانتقال إلى صفحة إنشاء نظام مجموعة HDInsight.

  4. في علامة التبويب Basics، وفر المعلومات التالية:

    الخاصية ‏‏الوصف
    الاشتراك من القائمة المنسدلة، قم بتحديد اشتراك Azure المستخدم في نظام المجموعة.
    مجموعة الموارد من القائمة المنسدلة، حدد مجموعة الموارد الموجودة، أو تحديد إنشاء جديد.
    اسم شبكة نظام المجموعة أدخل اسمًا فريدًا عالميًا. يمكن أن يتكون الاسم من 59 حرفاً شاملاً الأحرف، والأرقام، والشرطات. لا يمكن أن تكون الأحرف الأولى والأخيرة من الاسم شرطات.
    المنطقة من القائمة المنسدلة، حدد المنطقة التي أنشئت فيها المجموعة. اختر منطقة قريبة لك لأداء أفضل.
    نوع شبكة نظام المجموعة حدد Select cluster type. ثم حدد Hadoop كنوع المجموعة.
    إصدار من القائمة المنسدلة، حدد version. استخدم الإصدار الافتراضي إذا كنت لا تعرف ما الذي تختاره.
    تسجيل دخول نظام المجموعة بالاسم وكلمة السر اسم تسجيل الدخول الافتراضي هو المسؤول. يجب أن يكون طول كلمة المرور 10 أحرف على الأقل ويجب أن تحتوي على رقم واحد على الأقل، وأحرف كبيرة واحدة، وحرف صغير واحد، وحرف واحد غير أبجدي رقمي (باستثناء الأحرف ' ` "). تأكد منعدم تقديمكلمات مرور شائعة مثل «Pass@word1».
    اسم مستخدم Shell (SSH) الآمن. اسم المستخدم الافتراضي هو sshuser. يمكنك توفير اسم آخر لاسم المستخدم SSH.
    استخدام كلمة مرور نظام المجموعة لتسجيل الدخول إلى SSH حدد خانة الاختيار هذه لاستخدام نفس كلمة المرور الخاصة بمستخدم SSH مثل تلك التي قمت بتوفيرها لمستخدم تسجيل الدخول إلى نظام المجموعة.

    HDInsight Linux get started provide cluster basic values.

    حدد علامة التبويب التالي: تخزين >> للتقدم إلى إعدادات التخزين.

  5. من علامة تبويب التخزين، بتوفير القيم التالية:

    الخاصية ‏‏الوصف
    نوع التخزين الأساسي استخدم القيمة الافتراضيةAzure Storage.
    أسلوب التحديد استخدم القيمة الافتراضية Select from list.
    حساب التخزين الأساسي استخدم القائمة المنسدلة لتحديد حساب تخزين موجود، أو تحديد Create new. إذا قمت بإنشاء حساب جديد، يجب أن يكون الاسم بين 3 و24 حرفاً في الطول، ويمكن أن يتضمن أرقا وأحرف صغيرة فقط
    الحاوية استخدم القيمة التي يتم ملؤها تلقائياً.

    HDInsight Linux get started provide cluster storage values.

    يحتوي كل مجموعة على Azure Storageأو Azure Data Lake Storage Gen1أو Azure Data Lake Storage Gen2 dependency. يشار إليه باسم حساب التخزين الافتراضي. ويجب أن تكون مجموعة HDInsight وحساب التخزين الافتراضي الخاص بها ملونة في نفس منطقة Azure. حذف الكتل لا يؤدي إلى حذف حساب التخزين.

    حدد علامة التبويب Review + create.

  6. من علامة التبويب Review + create تحقق من القيم التي حددتها في الخطوات السابقة.

    Screenshot showing HDInsight Linux get started cluster summary.

  7. حدد إنشاء. يستغرق إنشاء نظام المجموعة نحو 20 دقيقة.

    بمجرد إنشاء المجموعة، سترى صفحة overview على المجموعة في مدخل Microsoft Azure.

    Screenshot showing HDInsight Linux get started cluster settings.

إجراء استعلامات Apache Hive

Apache Hive هو العنصر الأكثر شعبية المستخدمة في HDInsight. هناك العديد من الطرق لتشغيل وظائف Hive في HDInsight. في التشغيل السريع، يمكنك استخدام طريقة عرض Ambari Hive من المدخل. للحصول على طرق أخرى لتقديم وظائف الخلية، راجع Use Hive in HDInsight.

إشعار

Apache Hive View غير متوفر في HDInsight 4.0.

  1. لفتح Ambari، من لقطة الشاشة السابقة، حدد Cluster Dashboard. يمكنك أيضاً البحثhttps://ClusterName.azurehdinsight.net عن مكان ClusterName نظام المجموعة الذي قمت بإنشائه في القسم السابق.

    Screenshot showing HDInsight Linux get started cluster dashboard.

  2. أدخل اسم المستخدم وكلمة المرور Hadoop التي قمت بتحديدها أثناء إنشاء المجموعة. اسم المستخدم الافتراضي هو admin.

  3. فتح Hive View كما هو موضح في لقطة الشاشة التالية:

    Selecting Hive View from Ambari.

  4. في علامة التبويب QUERY لصق عبارات HiveQL التالية في ورقة العمل:

    SHOW TABLES;
    

    HDInsight Hive View Query Editor.

  5. حدد التنفيذ. تظهر علامة تبويب RESULTS أسفل علامة التبويب QUERY وتعرض معلومات حول الوظيفة.

    بمجرد انتهاء الاستعلام، تعرض علامة التبويب QUERY نتائج العملية. سترى جدول واحد يسمى hivesampletable. يأتي جدول Hive النموذجي هذا مع جميع مجموعات HDInsight.

    HDInsight Apache Hive view results.

  6. كرر الخطوة 4 والخطوة 5 لتشغيل الاستعلام التالي:

    SELECT * FROM hivesampletable;
    
  7. يمكنك أيضا حفظ نتائج الاستعلام. حدد زر القائمة على اليمين، وحدد ما إذا كنت تريد تنزيل النتائج كملف CSV أو تخزينها في حساب التخزين المقترن بالمجموعة.

    Save result of Apache Hive query.

بعد الانتهاء من مهمة Hive يمكنك تصدير النتائج إلى قاعدة بيانات azure SQL أو قاعدة بيانات SQL Server،يمكنك أيضا تصور النتائج باستخدام Excel. لمزيد من المعلومات حول استخدام Hive في HDInsight، راجع Use Apache Hive and HiveQL with Apache Hadoop in HDInsight to analyze a sample Apache log4j file.

تنظيف الموارد

بعد إكمال التشغيل السريع، قد تحتاج إلى حذف المجموعة. من خلال HDInsight، يتم تخزين البيانات الخاصة بك في Azure Storage؛ لذا يمكنك حذف المجموعة بأمان عندما لا تكون قيد الاستخدام. كما يتم تحصيل رسوم منك مقابل مجموعة HDInsight، حتى عندما لا تكون قيد الاستخدام. نظراً لأن رسوم نظام المجموعة تزيد عدة مرات عن رسوم التخزين، فمن المنطقي اقتصادياً حذف أنظمة المجموعات عندما لا تكون قيد الاستخدام.

إشعار

إذا كنت تنتقل فوراً إلى المقال التالي لمعرفة كيفية تشغيل عمليات ETL باستخدام Hadoop على HDInsight، فقد ترغب في استمرار تشغيل نظام المجموعة. هذا لأنه في البرنامج التعليمي يجب عليك إنشاء نظام مجموعة Hadoop مرة أخرى. ومع ذلك، إذا كنت لن تنتقل إلى المقال التالي على الفور، فإنه يجب عليك حذف نظام المجموعة الآن.

لحذف نظام المجموعة و/أو حساب التخزين الافتراضي

  1. العودة إلى علامة التبويب المستعرض حيث لديك مدخل Microsoft Azure. يجب أن تكون على صفحة overview على المجموعة. إذا كنت تريد فقط حذف نظام المجموعة وأن تحتفظ بحساب التخزين الافتراضي، حدد Delete.

    Azure HDInsight delete cluster.

  2. إذا كنت تريد حذف نظام المجموعة وكذلك حساب التخزين الافتراضي، حدد اسم مجموعة الموارد (المميز في لقطة الشاشة السابقة) لفتح صفحة مجموعة الموارد.

  3. حدد Delete resource group لحذف مجموعة الموارد، التي تحتوي على نظام المجموعة وحساب التخزين الافتراضي. ملاحظة حذف مجموعة الموارد يؤدي إلى حذف حساب التخزين. إذا كنت تريد الاحتفاظ بحساب التخزين، حدد حذف نظام المجموعة فقط.

الخطوات التالية

في هذا التشغيل السريع، تعلمت كيفية إنشاء مجموعة HDInsight المستندة إلى Linux باستخدام قالب Resource Manager، وكيفية تنفيذ استعلامات Hive الأساسية. في المقالة التالية، تتعلم كيفية إجراء عملية استخراج (ETL) وتحويله وتحميله باستخدام Hadoop على HDInsight.