إعداد مجموعات في HDInsight باستخدام Apache Hadoop وApache Spark وApache Kafka والمزيد

تعرف على كيفية إعداد وتكوين Apache Hadoop أو Apache Spark أو Apache Kafka أو Interactive Query أو Apache HBase في HDInsight. تعرف أيضاً على كيفية تخصيص المجموعات وإضافة الأمان من خلال ضمها إلى مجال.

تتكون مجموعة Hadoop من عدة أجهزة ظاهرية (عقد) تُستخدم لمعالجة المهام الموزعة. يعالج Azure HDInsight تفاصيل تنفيذ التثبيت والتكوين للعقد الفردية، لذلك عليك فقط توفير معلومات التكوين العامة.

هام

تبدأ فوترة نظام المجموعة HDInsight بمجرد إنشاء مجموعة، وتتوقف عند حذف المجموعة. يتم احتساب الفوترة بالتناسب لكل دقيقة؛ لذلك يجب عليك دائمًا حذف مجموعتك عندما لا تكون قيد الاستخدام. تعرف على كيفية حذف مجموعة.

إذا كنت تستخدم نظام مجموعات متعددة معاً، فستحتاج إلى إنشاء شبكة ظاهرية، وإذا كنت تستخدم نظام مجموعة Spark، فستحتاج أيضاً إلى استخدام موصل Apache Hive Warehouse Connector. لمزيد من المعلومات، راجع تخطيط شبكة ظاهرية لـ Azure HDInsightوتكامل Apache Spark وApache Hive مع Apache Hive Warehouse Connector.

طرق إعداد نظام المجموعة

يوضح الجدول التالي الطرق المختلفة التي يمكنك استخدامها لإعداد مجموعة HDInsight.

إنشاء شبكة نظام المجموعة باستخدام مستعرض الويب سطر الأوامر واجهة برمجة تطبيقات REST SDK
مدخل Microsoft Azure      
Azure Data Factory
Azure CLI      
Azure PowerShell      
حليقه    
قوالب Azure Resource Manager      

ترشدك هذه المقالة خلال الإعداد في مدخل Microsoft Azure، حيث يمكنك إنشاء مجموعة HDInsight.

أساسيات

خيارات إنشاء HDInsight سريعة مخصصة.

تفاصيل المشروع

يساعدكAzure Resource Manager في العمل مع الموارد في تطبيقك كمجموعة، يشار إليها باسم Azure مجموعة موارد. يمكنك توزيع أو تحديث أو مراقبة أو حذف جميع الموارد للتطبيق الخاص بك في عملية واحدة منسقة.

تفاصيل نظام المجموعة

اسم شبكة نظام المجموعة

تتمتع أسماء شبكة نظام المجموعة HDInsight بالقيود التالية:

  • الأحرف المسموح بها: a-z، 0-9، A-Z
  • الحد الأقصى للطول: 59
  • الأسماء المحجوزة: التطبيقات
  • نطاق تسمية شبكة نظام المجموعة لـ Azure من خلال كافة الاشتراكات. لذلك يجب أن يكون اسم نظام المجموعة فريداً في جميع أنحاء العالم.
  • يجب أن تكون الأحرف الستة الأولى فريدة داخل شبكة ظاهرية

المنطقة

لست بحاجة إلى تحديد موقع نظام المجموعة بشكل صريح: نظام المجموعة موجودة في نفس موقع التخزين الظاهري. للحصول على قائمة بالمناطق المدعومة، حدد القائمة المنسدلة Region في HDInsight pricing.

نوع شبكة نظام المجموعة

يوفر Azure HDInsight حالياً أنواع المجموعات التالية، ولكل منها مجموعة من المكونات لتوفير وظائف معينة.

هام

تتاح أنظمة مجموعات HDInsight في أنواع مختلفة، وكل منها لحمل عمل أو تقنية واحدة. لا يوجد أسلوب مدعوم لإنشاء نظام مجموعة يجمع بين أنواع متعددة، مثل HBase في نظام مجموعة واحد. إذا كان الحل الخاص بك يتطلب تقنيات منتشرة عبر العديد من أنواع مجموعات HDInsight، فيمكن لـ Azure Virtual Network توصيل أنواع المجموعات المطلوبة.

نوع شبكة نظام المجموعة الدالات
Hadoop الاستعلام عن دفعة وتحليل البيانات المخزنة
HBase معالجة كميات كبيرة من البيانات المخططة، وبيانات NoSQL
استعلام تفاعلي التخزين المؤقت في الذاكرة لاستعلامات Apache Hive التفاعلية والأسرع
كافكا منصة دفق موزعة يمكن استخدامها لبناء خطوط وتطبيقات بيانات متدفقة في الوقت الفعلي
شراره المعالجة في الذاكرة والاستعلامات التفاعلية ومعالجة الدُفعات الصغيرة

إصدار

اختر إصدار HDInsight لهذه المجموعة. لمزيد من المعلومات، راجع إصدارات HDInsight المدعومة.

معلومات تسجيل دخول شبكة نظام المجموعة

باستخدام مجموعات HDInsight، يمكنك تكوين حسابي مستخدمين أثناء إنشاء المجموعة:

  • اسم مستخدم تسجيل الدخول إلى نظام المجموعة: اسم المستخدم الظاهري هو admin. يستخدم التكوين الأساسي على مدخل Microsoft Azure. يطلق عليه أحياناً "مستخدم نظام المجموعة" أو "مستخدم HTTP".
  • اسم مستخدم Secure Shell (SSH): يستخدم للاتصال بالمجموعة من خلال SSH. لمزيدٍ من المعلومات، راجع استخدام SSH مع HDInsight.

اسم مستخدم HTTP له القيود التالية:

  • الأحرف الخاصة المسموح بها:_ و@
  • الأحرف غير مسموح بها: #;."',/:!*?$(){}[]<>|&=+٪~^space'
  • الحد الأقصى للطول: 20

اسم مستخدم SSH له القيود التالية:

  • الأحرف الخاصة المسموح بها:_ و@
  • الأحرف غير مسموح بها: #;."',/:!*?$(){}[]<>|&=+٪~^space'
  • الحد الأقصى للطول: 64
  • الأسماء المحجوزة: hadoop، المستخدمين، oozie، hive، mapred، ambari-qa، zookeeper، tez، hdfs، sqoop, yarn, hcat, ams, hbase, administrator, admin, user, user1, test, user2, test1, user3, admin1, 1, 123, a, a, actuseradm, admin2, aspnet, backup, console, David, guest, John, owner, root, server, sql, support, support_388945a0, sys, test2, test3, user4, user5, spark

التخزين

إعدادات تخزين نظام المجموعة: نقاط النهاية المتوافقة مع HDFS.

على الرغم من أن التثبيت المحلي لـ Hadoop يستخدم نظام الملفات الموزعة Hadoop (HDFS) للتخزين على نظام المجموعة، فإنك في السحابة تستخدم نقاط نهاية التخزين المتصلة بالمجموعة. يعني استخدام التخزين السحابي أنه يمكنك بأمان حذف مجموعات HDInsight المستخدمة للحساب مع الاحتفاظ ببياناتك.

يمكن أن تستخدم مجموعات HDInsight خيارات التخزين التالية:

  • Azure Data Lake Storage Gen2
  • Azure Data Lake Storage الجيل الأول
  • الغرض العام من تخزين Azure v2
  • الغرض العام من تخزين Azure v1
  • عنصر تخزين البيانات الثنائية الكبيرة (blob) في Azure (مدعوم كتخزين ثانوي فقط)

لمزيد من المعلومات حول خيارات التخزين مع HDInsight، راجع مقارنة خيارات التخزين للاستخدام مع مجموعات Azure HDInsight.

تحذير

لا يتم دعم استخدام حساب تخزين إضافي في موقع مختلف عن مجموعة HDInsight.

أثناء التكوين، بالنسبة لنقطة نهاية التخزين الظاهرية، يمكنك تحديد حاوية البيانات الثنائية الكبيرة لحساب Azure Storage أو تخزين بحيرة البيانات. تحتوي وحدة التخزين الظاهرية على سجلات التطبيق وسجلاات النظام. اختيارياً، يمكنك تحديد حسابات Azure Storage الإضافية وحسابات تخزين بحيرة البيانات التي يمكن للكتلة الوصول إليها. يجب أن تكون مجموعة HDInsight وحسابات التخزين التابعة في نفس موقع Azure.

إشعار

تقوم الميزة التي تتطلب نقلا آمنا بفرض جميع الطلبات على حسابك من خلال اتصال آمن. يدعم هذه الميزة فقط إصدار نظام المجموعة HDInsight 3.6 أو أحدث. لمزيد من المعلومات، راجع إنشاء نظام مجموعة Apache Hadoop مع حسابات تخزين النقل الآمن في Azure HDInsight.

هام

يمكن أن يؤدي تمكين النقل الآمن للتخزين بعد إنشاء مجموعة إلى حدوث أخطاء في استخدام حساب التخزين الخاص بك ولا يوصى به. من الأفضل إنشاء مجموعة جديدة باستخدام حساب تخزين مع تمكين النقل الآمن بالفعل.

إشعار

لا يقوم Azure HDInsight بنقل البيانات المخزنة في Azure Storage أو نقلها أو نسخها تلقائياً من منطقة إلى أخرى.

إعدادات Metastore

يمكنك إنشاء metastores لـ Hive أو Apache Oozie اختيارية. ومع ذلك، لا تدعم جميع أنواع المجموعات metastores، ولا يتوافق Azure Synapse Analytics مع metastores.

لمعرفة مزيد من المعلومات، راجع Use external metadata stores in Azure HDInsight.

هام

عند إنشاء مخزن بيانات احتياطي مخصص، لا تستخدم الشرطات أو الواصلات أو المسافات في اسم قاعدة البيانات. يمكن أن يؤدي هذا إلى فشل عملية إنشاء نظام المجموعة.

قاعدة بيانات SQL لـ Apache Hive

إذا كنت تريد الاحتفاظ بجداول Apache Hive الخاصة بك بعد حذف مجموعة HDInsight، فاستخدم metastore مخصصاً. يمكنك بعد ذلك إرفاق metastore بمجموعة HDInsight أخرى.

لا يمكن مشاركة نقيعة HDInsight التي تم إنشاؤها لإصدار واحد من مجموعة HDInsight عبر إصدارات مجموعة HDInsight المختلفة. للحصول على قائمة بإصدارات HDInsight، راجع إصدارات HDInsight المدعومة.

هام

يوفر metastore الافتراضي Azure SQL Database مع حد أساسي من المستوى 5 DTU (غير قابل للترقية)! مناسب لأغراض الاختبار الأساسية. بالنسبة لأحمال العمل الكبيرة أو أعباء الإنتاج، نوصي بالترحيل إلى مصدر خارجي.

قاعدة بيانات SQL لـ Oozie

لزيادة الأداء عند استخدام Oozie، استخدم metastore المخصص. يمكن أن يوفر metastore أيضاً الوصول إلى بيانات وظيفة Oozie بعد حذف مجموعتك.

قاعدة بيانات SQL لـ Ambari

يتم استخدام Ambari لمراقبة مجموعات HDInsight وإجراء تغييرات على التكوين وتخزين معلومات إدارة نظام المجموعة بالإضافة إلى محفوظات الوظائف. تتيح لك ميزة Ambari DB المخصصة توزيع نظام مجموعة جديد وإعداد Ambari في قاعدة بيانات خارجية تقوم بإدارتها. لمزيد من المعلومات، راجع قاعدة بيانات Ambari المخصصة.

هام

لا يمكنك إعادة استخدام Oozie metastore المخصص. لاستخدام Oozie metastore مخصص، يجب توفير Azure SQL Database فارغة عند إنشاء مجموعة HDInsight.

الأمن + الشبكات

خيارات إنشاء HDInsight اختر حزمة أمان المؤسسة.

حزمة أمان المؤسسات

بالنسبة إلى أنواع شبكة نظام المجموعة Hadoop وSpark وHBase وKafka وInteractive Query، يمكنك اختيار تمكين حزمة أمان المؤسسة. توفر هذه الحزمة خيارا للحصول على إعداد نظام مجموعة أكثر أمانا باستخدام Apache Ranger والتكامل مع معرف Microsoft Entra. لمزيد من المعلومات، راجع نظرة عامة على أمان المؤسسة في Azure HDInsight.

تسمح لك حزمة أمان المؤسسة بدمج HDInsight مع خدمات مجال Active Directory وpache Ranger. يمكن إنشاء عدة مستخدمين باستخدام حزمة أمان المؤسسة.

لمزيد من المعلومات حول إنشاء مجموعة HDInsight المرتبطة بالمجال، راجع إنشاء بيئة وضع حماية HDInsight مرتبطة بالمجال.

TLS

لمزيد من المعلومات، راجع أمان طبقة النقل

الشبكة الظاهرية

إذا كان الحل الخاص بك يتطلب تقنيات منتشرة عبر العديد من أنواع مجموعات HDInsight، فيمكن لـ Azure Virtual Network توصيل أنواع المجموعات المطلوبة. يسمح هذا التكوين لشبكة نظام المجموعة ولأي رمز لك بنشرها لهم، للاتصال مباشرة مع بعضها.

لمزيد من المعلومات حول استخدام Azure Virtual Network مع HDInsight، راجع التخطيط لشبكة ظاهرية لـ HDInsight.

للحصول على مثال لاستخدام نوعين من المجموعات داخل Azure Virtual Network، راجع استخدام Apache Spark Structured Streaming with Apache Kafka. لمزيد من المعلومات حول استخدام HDInsight مع شبكة ظاهرية، بما في ذلك متطلبات التكوين المحددة للشبكة الظاهرية، راجع التخطيط لشبكة ظاهرية لـ HDInsight.

إعداد تشفير القرص

لمزيد من المعلومات، راجع تشفير القرص الرئيسي المُدار من خلال العميل .

وكيل Kafka ريست

هذا الإعداد متاح فقط لنوع نظام المجموعة Kafka. لمزيد من المعلومات، راجع استخدام وكيل REST.

الهوية

لمزيد من المعلومات، راجع الهويات المُدارة في Azure HDInsight.

التكوين + التسعير

اختر HDInsight حجم العقدة.

تتم محاسبتك على استخدام العقدة طالما أن المجموعة موجودة. تبدأ الفوترة عند إنشاء مجموعة وتتوقف عند حذف المجموعة. لا يمكن إلغاء تخصيص المجموعات أو تعليقها.

تكوين العقدة

كل نوع كتلة له عدد العقد الخاص به، ومصطلحات العقد، والحجم الظاهري للجهاز الظاهري. في الجدول التالي، يكون عدد العقد لكل نوع عقدة بين قوسين.

نوع الُعقد مخطط
Hadoop العقدة الرئيسية (2)، العقدة العاملة (1+) عقد نظام مجموعة HDInsight Hadoop.
HBase الخادم الرئيسي (2)، خادم المنطقة (1+)، عقدة رئيسية / ZooKeeper (3) إعداد نوع نظام مجموعة HDInsight HBase.
Spark عقدة الرأس (2)، عقدة العامل (1+)، عقدة ZooKeeper (3) (مجانية لحجم A1 ZooKeeper VM) إعداد نوع مجموعة HDInsight spark.

لمزيد من المعلومات، راجع التكوين الظاهري للعقدة وأحجام الأجهزة الظاهرية للمجموعات في "ما هي مكونات وإصدارات Hadoop في HDInsight؟"

يتم تحديد تكلفة مجموعات HDInsight من خلال عدد العقد وأحجام الأجهزة الظاهرية للعقد.

أنواع المجموعات المختلفة لها أنواع مختلفة من العقد، وعدد العقد، وأحجام العقد:

  • نوع مجموعة Hadoop الافتراضي:
    • عقدتان رئيسيتان

    • أربع عقد عمل

إذا كنت تحاول فقط تجربة HDInsight، فإننا نوصيك باستخدام عقدة عامل واحدة. لمزيد من المعلومات حول تسعير HDInsight، راجع تسعير HDInsight.

إشعار

يختلف حد حجم نظام المجموعة بين اشتراكات Azure. اتصل بدعم فوترة Azure لزيادة الحد.

عند استخدام مدخل Microsoft Azure لتكوين المجموعة، يكون حجم العقدة متاحاً من خلال علامة التبويب التكوين + التسعير. في البوابة، يمكنك أيضاً الاطلاع على التكلفة المرتبطة بأحجام العقد المختلفة.

أحجام الجهاز الظاهري

عندما تقوم بتوزيع المجموعات، اختر حساب الموارد بناءً على الحل الذي تخطط لتوزيعه. تُستخدم الأجهزة الظاهرية التالية لمجموعات HDInsight:

لمعرفة القيمة التي يجب استخدامها لتحديد حجم الجهاز الظاهري أثناء إنشاء مجموعة باستخدام مجموعات SDK مختلفة أو أثناء استخدامAzure PowerShell، راجع أحجام الأجهزة الظاهرية التي يجب استخدامها لمجموعات HDInsight. من هذه المقالة المرتبطة، استخدم القيمة الموجودة في عمود Size بالجداول.

هام

إذا كنت بحاجة إلى أكثر من 32 عقدة عاملة في مجموعة، فيجب عليك تحديد حجم عقدة رئيسية مع ما لا يقل عن 8 مراكز و14 غيغابايت من ذاكرة الوصول العشوائي.

لمزيد من المعلومات، راجع أحجام للأجهزة الظاهرية. للحصول على معلومات حول تسعير الأحجام المختلفة، راجع تسعير HDInsight.

مرفق القرص

إشعار

يتم تكوين الأقراص المضافة فقط للدلائل المحلية لإدارة العقدة وليس لدلائل عقد البيانات

يأتي نظام مجموعة HDInsight مزود بمساحة قرص محددة مسبقًا استنادًا إلى SKU. إذا قمت بتشغيل بعض التطبيقات الكبيرة، يمكن أن يؤدي إلى مساحة القرص غير كافية، مع خطأ القرص الكامل - LinkId=221672#ERROR_NOT_ENOUGH_DISK_SPACE وفشل المهمة.

يمكن إضافة المزيد من الأقراص إلى نظام المجموعة باستخدام الدليل المحلي NodeManager للميزة الجديدة. في وقت إنشاء نظام مجموعة Hive وSpark، يمكن تحديد عدد الأقراص وإضافتها إلى عقد العامل. سيكون القرص المحدد، الذي سيكون بحجم 1 تيرابايت لكل منهما، جزءًا من الدلائل المحلية لـ NodeManager.

  1. من علامة التبويب تكوين + تسعير
  2. حدد خيار تمكين القرص المدار
  3. من الأقراص القياسية، أدخل عدد الأقراص
  4. اختر عقدة العامل

يمكنك التحقق من عدد الأقراص من علامة التبويب مراجعة + إنشاء، ضمن تكوين نظام المجموعة

إضافة تطبيق

تطبيق HDInsight هو تطبيق يمكن للمستخدمين تثبيته على نظام مجموعة HDInsight المستندة إلى Linux. يمكنك استخدام التطبيقات التي توفرها Microsoft أو تطبيقات الجهات الخارجية أو التطبيقات التي تطورها بنفسك. لمزيد من المعلومات، راجع تثبيت تطبيقات Apache Hadoop التابعة لجهات خارجية على Azure HDInsight.

يتم تثبيت معظم تطبيقات HDInsight على عقدة حافة فارغة. عقدة الحافة الفارغة عبارة عن جهاز ظاهري Linux مع تثبيت وتكوين نفس أدوات العميل كما هو الحال في العقدة الرئيسية. يمكنك استخدام عقدة الحافة للوصول إلى النظام مجموعة، واختبار تطبيقات العميل، واستضافة تطبيقات العميل. لمزيد من المعلومات، راجع استخدام عقد حافة فارغة في HDInsight.

إجراءات البرنامج النصي

يمكنك تثبيت مكونات إضافية أو تخصيص تكوين نظام المجموعة باستخدام البرامج النصية أثناء الإنشاء. يتم استدعاء مثل هذه البرامج النصية عبر Script Action، وهو خيار تكوين يمكن استخدامه من مدخل Microsoft Azure أو أوامرHDInsight Windows PowerShell cmdlets أو HDInsight .NET SDK. لمزيد من المعلومات، راجع تخصيص مجموعة HDInsight باستخدام Script Action.

يمكن تشغيل بعض مكونات Java الأصلية، مثل Apache Mahout وCascading، على المجموعة كملفات Java Archive (JAR). يمكن توزيع ملفات JAR هذه على Azure Storage وإرسالها إلى مجموعات HDInsight باستخدام آليات إرسال مهام Hadoop. لمزيد من المعلومات، راجع إرسال وظائف Apache Hadoop برمجياً.

إشعار

إذا كانت لديك مشكلات في توزيع ملفات JAR إلى مجموعات HDInsight، أو استدعاء ملفات JAR على مجموعات HDInsight، فاتصل بـ Microsoft Support.

لا يتم دعم التتالي بواسطة HDInsight وهو غير مؤهل للحصول على دعم Microsoft. للحصول على قوائم بالمكونات المدعومة، راجع ما الجديد في إصدارات المجموعة التي يوفرها HDInsight.

في بعض الأحيان، تريد تكوين ملفات التكوين التالية أثناء عملية الإنشاء:

  • clusterIdentity.xml
  • core-site.xml
  • gateway.xml
  • hbase-env.xml
  • hbase-site.xml
  • hdfs-site.xml
  • hive-env.xml
  • hive-site.xml
  • موقع mapred
  • oozie-site.xml
  • oozie-env.xml
  • tez-site.xml
  • webhcat-site.xml
  • yarn-site.xml

لمزيد من المعلومات، راجع تخصيص مجموعات HDInsight باستخدام Bootstrap.

الخطوات التالية