ترحيل مجموعات Apache Hadoop المحلية إلى Azure HDInsight - الدافع والفوائد

هذه المقالة هي الأولى في سلسلة حول أفضل الممارسات لترحيل عمليات توزيع النظام البيئي Apache Hadoop المحلي إلى Azure HDInsight. سلسلة المقالات هذه مخصصة للأشخاص المسؤولين عن تصميم حلول Apache Hadoop في Azure HDInsight وتوزيعها وترحيلها. الوظائف التي قد تستفيد من هذه المقالات تشمل: مهندسي السحابة ومسؤولي Hadoop ومهندسي DevOps. كما يجب أن يستفيد مطورو البرامج ومهندسو البيانات وعلماء البيانات من شرح كيفية عمل أنواع مختلفة من المجموعات في السحابة.

لماذا الترحيل إلى Azure HDInsight؟

Azure HDInsight هو توزيع سحابي لمكونات Hadoop. Azure HDInsight يجعل برنامج معالجة كميات هائلة من البيانات أمراً سهلاً وسريعاً ومنخفض التكلفة. يتضمن HDInsight الُأطُر المفتوحة المصدر الأكثر شعبية مثل:

  • Apache Hadoop
  • Apache Spark
  • Apache Hive مع LLAP
  • Apache Kafka
  • Apache HBase

مزايا Azure HDInsight مقارنة بـ Hadoop المحلي

  • تكلفة أقل - يمكنك تقليل التكاليف من خلال إنشاء مجموعات عند الطلب والدفع مقابل ما تستخدمه فقط. يوفر كلا من الحوسبة والتخزين المنفصلان مرونة عن طريق الحفاظ على حجم البيانات مستقلة عن حجم المجموعة.

  • إنشاء تلقائي للمجموعة - يتطلب إنشاء المجموعة تلقائيًا الحد الأدنى من الإعداد والتكوين. يمكن استخدام الإنشاء التلقائي للمجموعات عند الطلب.

  • التكوين الأجهزة المُدارة - لا داعي للقلق بشأن الأجهزة المادية أو البنية الأساسية مع مجموعة HDInsight. فقط حدد تكوين المجموعة وسيقوم Azure بإعداده.

  • سهولة التحجيم - تُمكنك HDInsight من تغيير حجم أحمال العمل بالزيادة أو النقصان. تهتم Azure بإعادة توزيع البيانات وإعادة توازن حمل العمل دون مقاطعة مهام معالجة البيانات.

  • قابلية وصول عالمية - تتوفر HDInsight في مناطق أكثر مقارنة بأي عرض آخر من تحليلات البيانات الضخمة. كما يتوفر Azure HDInsight في Azure Government وفي الصين وفي ألمانيا، ما يسمح لك بتلبية احتياجات مؤسستك في المجالات السيادية الرئيسية.

  • آمن ومتوافق - تمكنك HDInsight من حماية أصول بيانات المؤسسة باستخدام شبكة Azure الظاهرية والتشفير والتكامل مع معرف Microsoft Entra. كما يُلبي HDInsight معايير الامتثال الصناعة والحكومة الأكثر شعبية.

  • إدارة مبسطة للإصدار - تدير Azure HDInsight إصدار مكونات النظام البيئي Hadoop وتبقيها محدثة. تحديثات البرامج عادة ما تكون عملية معقدة للتوزيعات المحلية.

  • مجموعات أصغر أمثل لأحمال عمل معينة مع تبعيات أقل بين المكونات - يستخدم إعداد Hadoop النموذجي المحلي مجموعة واحدة تخدم أغراض متعددة. باستخدام Azure HDInsight، يمكن إنشاء مجموعات خاصة بحمل العمل. إنشاء مجموعات لأحمال عمل معينة يزيل تعقيد الحفاظ على مجموعة واحدة ذات تعقيد متزايد.

  • الإنتاجية - يمكنك استخدام أدوات متنوعة لـ Hadoop وSpark في بيئة التطوير التي تفضلها.

  • قابلية التوسع باستخدام أدوات مخصصة أو تطبيقات الجهات الخارجية - يمكن توسيع مجموعات HDInsight مع المكونات المثبتة، كما يمكن دمجها مع حلول البيانات الضخمة الأخرى باستخدام عمليات التوزيع بنقرة واحدة من سوق Azure.

  • سهولة الإدارة والإشراف والمراقبة - يدمج Azure HDInsight مع سجلات Azure Monitor لتوفير واجهة واحدة يمكنك من خلالها مراقبة جميع مجموعاتك.

  • التكامل مع خدمات Azure الأخرى - يمكن دمج HDInsight بسهولة مع خدمات Azure الشائعة الأخرى مثل ما يلي:

    • Azure Data Factory (ADF)
    • Azure Blob Storage
    • Azure Data Lake Storage Gen2
    • Azure Cosmos DB
    • قاعدة بيانات Azure SQL
    • Azure Analysis Services
  • عمليات الإصلاح الذاتي ومكوناته - يتحقق HDInsight باستمرار من مكونات البنية التحتية والمكونات مفتوحة المصدر باستخدام بنيته الأساسية للمراقبة. كما أنه يتعافى تلقائيًا من حالات الفشل الفادحة مثل عدم توفر المكونات والعقد مفتوحة المصدر. تُشغل التنبيهات في Ambari إذا فشل أي مكون من مكونات البرنامج مفتوح المصدر (OSS).

لمزيد من المعلومات، راجع المقالة ما هو Azure HDInsight وبنية تقنية Apache Hadoop.

عملية تخطيط الترحيل

يُوصى بالخطوات التالية لتخطيط ترحيل مجموعات Hadoop المحلية إلى Azure HDInsight:

  1. فهم التوزيع المحلي الحالي والطوبولوجيا.
  2. فهم نطاق المشروع الحالي، والمخططات الزمنية، وخبرة الفريق.
  3. فهم متطلبات Azure.
  4. وضع خطة مفصلة على أساس أفضل الممارسات.

جمع التفاصيل للتحضير للترحيل

يوفر هذا القسم نماذج استبيانات للمساعدة في جمع معلومات هامة حول:

  • التوزيع المحلي
  • تفاصيل المشروع
  • متطلبات Azure

استبيان التوزيع المحلي

السؤال مثال الاجابه
الموضوع: البيئة
إصدار توزيع المجموعة HDP 2.6.5، CDH 5.7
مكونات النظام البيئي للبيانات الضخمة HDFS، Yarn، Hive، LLAP، Impala، Kudu، HBase، Spark، MapReduce، Kafka، Zookeeper، Solr، Sqoop، Oozie، Ranger، Atlas، Falcon، Zeppelin، R
أنواع شبكة نظام المجموعة Hadoop, Spark, Confluent Kafka, Solr
عدد المجموعات 4
عدد العُقد الرئيسية 2
عدد عقد العامل 100
عدد عُقد الحافة 5
إجمالي مساحة القرص 100 تيرابايت
تكوين عقدة رئيسية شهر/سنة، وحدة المعالجة المركزية، القرص، الخ.
تكوين عُقد البيانات شهر/سنة، وحدة المعالجة المركزية، القرص، الخ.
تكوين عُقد الحافة شهر/سنة، وحدة المعالجة المركزية، القرص، الخ.
تشفير HDFS؟ ‏‏نعم‬
قابلية الوصول العالية قابلية وصول عالية لـ HDFS، قابلية وصول عالية لـ Metastore
التعافي من الكوارث / النسخ الاحتياطي مجموعة النسخ الاحتياطي؟
الأنظمة التي تعتمد على المجموعة SQL Server، Teradata، Power BI، MongoDB
تكامل الجهات الخارجية Tableau، GridGain، Qubole، Informatica، Splunk
الموضوع: الأمن
أمان المحيط جُدر الحماية
مصادقة المجموعة & التخويل Active Directory، Ambari، مدير Cloudera، دون مصادقة
التحكم في الوصول إلى HDFS دليل، مستخدمو ssh
مصادقة الخلية & التخويل الحراسة، LDAP، الحارس، AD مع Kerberos
التدقيق Ambari، متصفح Cloudera، الحارس
مراقبة‬ Graphite, collectd, , statsdTelegraf, InfluxDB
التنبيه Kapacitor، Prometheus، Datadog
مدة استبقاء البيانات ثلاث سنوات، خمس سنوات
مسؤولو المجموعة مسؤول واحد، عدة مسؤولين

استبيان تفاصيل المشروع

السؤال مثال الاجابه
الموضوع: التكرار وأحمال العمل
وظائف MapReduce 10 وظائف-- مرتين يوميا
وظائف الخلية 100 وظيفة -- كل ساعة
وظائف دفعية Spark 50 وظيفة -- كل 15 دقيقة
وظائف دفق Spark 5 وظائف -- كل 3 دقائق
وظائف الدفق المنظم 5 وظائف -- كل دقيقة
لغات البرمجة Python، Scala، Java
البرامج النصية Shell، Python
الموضوع: البيانات
مصادر البيانات Json، ملفات ثابتة، Kafka، نظام إدارة قواعد البيانات الارتباطية (RDBMS)
تنسيق البيانات مهام سير عمل Oozie، تدفق الهواء
عمليات البحث في الذاكرة Apache Ignite، Redis
وجهات البيانات HDFS، نظام إدارة قواعد البيانات الارتباطية (RDBMS)، كافكا، MPP
الموضوع: بيانات التعريف
نوع قاعدة بيانات الخلية Mysql، Postgres
عدد متاجر الخلية 2
عدد جداول الخلية 100
عدد سياسات النطاق 20
عدد مهام سير عمل Oozie 100
الموضوع: تغيير الحجم
حجم البيانات بما في ذلك النسخ المتماثل 100 تيرابايت
حجم الاستيعاب اليومي 50 جيجا بايت
معدل نمو البيانات 10% سنويًا
معدل نمو عُقد نظام المجموعة 5% سنويًا
الموضوع: استخدام المجموعة
نسبة متوسط المعالج المستخدم 60%
نسبة متوسط الذاكرة المستخدمة 75%
مساحة القرص المستخدمة 75%
نسبة متوسط الشبكة المستخدمة 25%
الموضوع: الموظفون
عدد المسؤولين 2
عدد المطورين 10
عدد المستخدمين النهائيين 100
المهارات Hadoop, Spark
عدد الموارد المتاحة لجهود الترحيل 2
الموضوع: القيود
القيود الحالية زمن انتقال مرتفع
التحديات الحالية مشاكل التزامن

استبيان متطلبات Azure

السؤال مثال الاجابه
الموضوع: البنية الأساسية
المنطقة المفضلة شرق الولايات المتحدة
الشبكة الظاهرية المفضلة؟ ‏‏نعم‬
قابلية وصول عالية/ DR اللازمة؟ ‏‏نعم‬
التكامل مع الخدمات السحابية الأخرى؟ ADF، Azure Cosmos DB
الموضوع: نقل البيانات
تفضيل التحميل الأولي DistCp، مربع البيانات، ملف تعريف التطبيق (ADF)، WANDISCO
نقل بيانات delta DistCp، AzCopy
نقل البيانات الإضافية المستمرة DistCp، Sqoop
الموضوع: المراقبة والتنبيه
استخدام مراقبة وتنبيه Azure مقابل تكامل مراقبة الجهات الخارجية استخدام المراقبة والتنبيه من Azure
الموضوع: تفضيلات الأمان
خط تدفق بيانات خاص ومحمي؟ ‏‏نعم‬
المجموعة المنضمة إلى المجال (ESP)؟ ‏‏نعم‬
مزامنة AAD المحلية إلى السحابة؟ ‏‏نعم‬
عدد مستخدمي AD للمزامنة؟ 100
هل من المقبول مزامنة كلمات المرور إلى السحابة؟ ‏‏نعم‬
مُستخدمو السحابة فقط؟ ‏‏نعم‬
المصادقة متعددة العوامل (MFA) المطلوبة؟ لا
متطلبات تخويل البيانات؟ ‏‏نعم‬
التحكم في الوصول استناداً إلى الدور؟ ‏‏نعم‬
التدقيق المطلوب؟ ‏‏نعم‬
تشفير البيانات في حالة عدم التشغيل؟ ‏‏نعم‬
تشفير البيانات أثناء النقل؟ ‏‏نعم‬
الموضوع: تفضيلات إعادة التصميم
مجموعة واحدة مقابل أنواع مجموعات معينة أنواع مجموعات معينة
التخزين المُجمع مقابل التخزين عن بعد؟ التخزين عن بُعد
حجم مجموعة أصغر حيث تُخزن البيانات عن بعد؟ حجم مجموعة أصغر
استخدام مجموعات أصغر متعددة بدلًا من مجموعة كبيرة واحدة؟ استخدام مجموعات أصغر متعددة
استخدام متجر عن بعد؟ ‏‏نعم‬
مشاركة المتاجر الفوقية بين مجموعات مختلفة؟ ‏‏نعم‬
تفكيك أحمال العمل؟ استبدال وظائف الخلية بوظائف Spark
هل تستخدم ملف تعريف التطبيق (ADF) لتنسيق البيانات؟ لا

الخطوات التالية

اقرأ المقال التالي في هذه السلسلة: