إرشادات وأنماط ترحيل Azure Data Lake Storage

يمكنك ترحيل البيانات، وأحمال العمل، والتطبيقات الخاصة بك من Azure Data Lake Storage Gen1 إلى Azure Data Lake Storage Gen2. تشرح هذه المقالة نهج الترحيل الموصى به وتغطي أنماط الترحيل المختلفة ومتى يتم استخدام كل منها. لتسهيل القراءة، تستخدم هذه المقالة مصطلح Gen1للإشارة إلى Azure Data Lake Storage Gen1، ومصطلح Gen2 للإشارة إلى Azure Data Lake Storage Gen2.

إشعار

تم الآن إيقاف Azure Data Lake Storage Gen1. انظر إعلان التقاعد هنا. لم يعد من الممكن الوصول إلى موارد Data Lake Storage Gen1. إذا كنت بحاجة إلى مساعدة خاصة، فيرجى الاتصال بنا.

إنشاء Azure Data Lake Storage Gen2 على تخزين Azure Blob ويوفر مجموعة من الإمكانيات المخصصة لتحليلات البيانات الضخمة. يدمج Data Lake Storage Gen2 ميزات من Azure Data Lake Storage Gen1، مثل دلالات نظام الملفات والدليل الأمان على مستوى الملف وتغيير السعة باستخدام تخزين متدرج منخفض التكلفة مع قابلية وصول عالية / إمكانيات الإصلاح بعد كارثة من تخزين Azure Blob.

إشعار

نظراً لأن Gen1 وGen2 خدمتان مختلفتان، فلا توجد تجربة ترقية موضعية. لتبسيط الترحيل إلى Gen2 باستخدام مدخل Microsoft Azure، راجع ترحيل Azure Data Lake Storage من Gen1 إلى Gen2 باستخدام مدخل Microsoft Azure.

للترحيل من Gen1 إلى Gen2، نوصي بالطريقة التالية.

الخطوة 1: تقييم الجاهزية

الخطوة 2: الاستعداد للترحيل

الخطوة 3: ترحيل البيانات وأحمال عمل التطبيق

الخطوة 4: القطع من Gen1 إلى Gen2

الخطوة 1: تقييم الجاهزية

  1. تعرف على عرض Data Lake Storage Gen2؛ وفوائدها وتكاليفها وتصميمها العام.

  2. قارن إمكانيات Gen1 مع Gen2.

  3. راجع قائمة بالمشكلات المعروفة لتقييم أي فجوات في الوظيفة.

  4. يدعم Gen2 توفر مميزات Blob Storage مثل التسجيل التشخيصي،وطبقات التخزين، ونهج إدارة دورة حياة تخزين الكائن الثنائي كبير الحجم. إذا كنت مهتماً باستخدام أي من هذه الميزات، فراجع مستوى الدعم الحالي.

  5. راجع الحالة الحالية لدعم النظام البنائي Azure للتأكد من أن Gen2 تدعم أي خدمات تعتمد عليها حلولك.

الخطوة 2: الاستعداد للترحيل

  1. حدد مجموعات البيانات التي ستُجري ترحيلها.

    اغتنم هذه الفرصة لتنظيف مجموعات البيانات التي لم تعد تستخدمها. ما لم تكن تخطط لترحيل جميع بياناتك في وقت واحد، استغل هذا الوقت لتحديد مجموعات البيانات المنطقية التي يمكنك ترحيلها على مراحل.

    أجرِ تحليل التقادم (أو ما شابه ذلك) على حساب Gen1 لتحديد الملفات أو المجلدات التي تبقى في المخزون لفترة طويلة أو ربما أصبحت قديمة.

  2. حدد التأثير الذي سيُحدثه الترحيل على عملك.

    على سبيل المثال، ضع في اعتبارك ما إذا كان بإمكانك تحمل أي وقت تعطل أثناء إجراء الترحيل. يمكن أن تساعدك هذه الاعتبارات على تحديد نمط الترحيل المناسب، واختيار الأدوات الأكثر ملاءمة.

  3. إنشاء خطة ترحيل.

    نوصي بأنماط الترحيل هذه. يمكنك اختيار أحد هذه الأنماط أو دمجها معاً أو تصميم نمط مخصص خاص.

الخطوة 3: ترحيل البيانات وأحمال العمل والتطبيقات

ترحيل البيانات وأحمال العمل والتطبيقات باستخدام النمط الذي تفضله. نوصي بالتحقق من صحة السيناريوهات بشكل تزايدي.

  1. أنشئ حساب تخزين ومكّن ميزة مساحة أسماء هرمية.

  2. ترحيل بياناتك.

  3. قم بتكوين الخدمات في أحمال العمل الخاصة بك للإشارة إلى نقطة نهاية Gen2 الخاصة بك.

    بالنسبة لنظام مجموعات HDInsight، يمكنك إضافة إعدادات تكوين حساب التخزين إلى ملف %HADOOP_HOME%/conf/core-site.xml. إذا كنت تخطط لترحيل جداول Apache Hive الخارجية من Gen1 إلى Gen2، فتأكد من إضافة إعدادات حساب التخزين إلى ملف %HIVE_CONF_DIR%/hive-site.xml أيضاً.

    يمكنك تعديل الإعدادات لكل ملف باستخدام Apache Ambari. للعثور على إعدادات حساب التخزين، راجع دعم Hadoop Azure: ABFS — Azure Data Lake Storage Gen2. يستخدم هذا المثال الإعداد fs.azure.account.key لتمكين تخويل المفتاح المشترك:

    <property>
      <name>fs.azure.account.key.abfswales1.dfs.core.windows.net</name>
      <value>your-key-goes-here</value>
    </property>
    

    للحصول على ارتباطات إلى المقالات التي تساعدك على تكوين HDInsight وAzure Databricks وخدمات Azure الأخرى لاستخدام Gen2، راجع خدمات Azure التي تدعم Azure Data Lake Storage Gen2.

  4. تحديث التطبيقات لاستخدام واجهات برمجة تطبيقات Gen2. انظر هذه الإرشادات:

البيئة مقال
Azure Storage Explorer استخدام Azure Storage Explorer لإدارة الدلائل والملفات في Azure Data Lake Storage Gen2
.NET استخدم .NET لإدارة الدلائل والملفات في Azure Data Lake Storage Gen2
Java استخدام Java لإدارة الدلائل والملفات في Azure Data Lake Storage Gen2
Python استخدام Python لإدارة الدلائل والملفات في Azure Data Lake Storage Gen2
JavaScript (Node.js) استخدم JavaScript SDK في Node.js لإدارة الدلائل والملفات في Azure Data Lake Storage Gen2
واجهة برمجة تطبيقات REST واجهة برمجة تطبيقات REST Azure Data Lake Store
  1. حدّث البرامج النصية لاستخدام أوامر Data Lake Storage Gen2 PowerShell cmdlets، وAzure CLI commands.

  2. ابحث عن مراجع URI التي تحتوي على السلسلة adl:// في ملفات التعليمات البرمجية، أو في دفاتر ملاحظات Databricks أو ملفات Apache Hive HQL أو أي ملف آخر يستخدم كجزء من أحمال العمل. استبدل هذه المراجع بعنوان URI المنسق Gen2 لحساب التخزين الجديد. على سبيل المثال: Gen1 URI: adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile قد تصبح abfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile.

  3. كوّن الأمان على حسابك لتضمين أدوار Azure، وأمان على مستوى الملفات والمجلدات، وجدران حماية Azure Storage والشبكات الظاهرية.

الخطوة 4: القطع من Gen1 إلى Gen2

بعد أن تكون واثقاً من استقرار تطبيقاتك وأحمال عملك على Gen2، يمكنك البدء في استخدام Gen2 لتلبية سيناريوهات عملك. أوقف تشغيل أي مسارات متبقية تعمل على Gen1 وأقف تشغيل حساب Gen1 الخاص بك.

إمكانيات Gen1 مقارنة بـGen2

يقارن هذا الجدول إمكانيات Gen1 بإمكانيات Gen2.

المنطقة Gen1 Gen2
تنظيم البيانات مساحة الاسم الهرمية
دعم الملفات والمجلدات
مساحة الاسم الهرمية
دعم الحاويات والملفات والمجلدات
Geo-redundancy LRS LRS، ZRS، GRS، RA-GRS
المصادقة هوية Microsoft Entra المدارة
كيانات الخدمة
هوية Microsoft Entra المدارة
كيانات الخدمة
مفتاح الاختصار المشترك
التصريح الإدارة - التحكم في الوصول استناداً إلى دور Azure
البيانات - قوائم التحكم بالوصول
الإدارة - التحكم في الوصول استناداً إلى دور Azure
البيانات - قوائم التحكم بالوصول، التحكم في الوصول استناداً إلى دور Azure
التشفير - البيانات الثابتة جانب الخادم - مع المفاتيح المُدارة بواسطة Microsoft أو المُدارة بواسطة العميل جانب الخادم - مع المفاتيح المُدارة بواسطة Microsoft أو المُدارة بواسطة العميل
دعم VNET تكامل الشبكة الظاهرية نقاط تقديم الخدمة، نقاط النهاية الخاصة
تجربة المطور REST، .NET، Java، Python، PowerShell، Azure CLI متاح بشكل عام - REST و.NET وJava وPython
معاينة عامة - JavaScript، PowerShell، Azure CLI
سجلات الموارد سجلات كلاسيكية
Azure Monitor مُدمج
السجلات الكلاسيكية - متوفرة بشكل عام
Azure Monitor مُدمج - معاينة
النظام البنائي HDInsight (3.6)، Azure Databricks (3.1 والإصدارات الأحدث)، Azure Synapse Analytics، ADF HDInsight (3.6، 4.0)، Azure Databricks (5.1 والإصدارات الأحدث )، Azure Synapse Analytics، ADF

أنماط Gen1 إلى Gen2

اختر نمط ترحيل، ثم عدّل هذا النمط حسب الحاجة.

نمط الترحيل التفاصيل
الرفع والتحويل أبسط نمط. مثالي إذا كانت مسارات البيانات الخاصة بك قادرة على تحمل وقت تعطل.
نسخة إضافية على غرار الرفع والتحويل، ولكن مع وقت تعطل أقل. مثالي لكميات كبيرة من البيانات التي تستغرق وقتا أطول لنسخها.
مسارات مزدوجة مثالي للمسارات التي لا تستطيع تحمل أي وقت تعطل.
مزامنة ثنائية الاتجاه على غرار المسار المزدوج، ولكن مع نهج أكثر مرحلية مناسب للمسارات الأكثر تعقيداً.

دعنا نلقِ نظرة عن قُرب على كل نمط.

نمط الرفع والتحويل

هذا هو أبسط نمط.

  1. إيقاف جميع الكتابات إلى Gen1.

  2. نقل البيانات من Gen1 إلى Gen2. نوصي باستخدام Azure Data Factory أو باستخدام مدخل Microsoft Azure. نسخ قوائم التحكم بالوصول مع البيانات.

  3. توجيه العمليات وأحمال العمل إلى Gen2.

  4. إيقاف تشغيل Gen1.

تحقق من عينة التعليمات البرمجية الخاص بنا لنمط الرفع والتحويل في عينة ترحيل الرفع والتحويل.

Diagram of the lift and shift pattern.

اعتبارات لاستخدام نمط الرفع والتحويل

  • الانتقال من Gen1 إلى Gen2 لجميع أحمال العمل في نفس الوقت.

  • توقع وقت تعطل أثناء الترحيل وفترة الانتقال.

  • مثالية للبنية الأساسية لبرنامج ربط العمليات التجارية التي يمكنها تحمل وقت التعطل ويمكن ترقية جميع التطبيقات في وقت واحد.

تلميح

فكر في استخدام مدخل Microsoft Azure لتقصير وقت التعطل عن العمل وتقليل عدد الخطوات المطلوبة منك لإكمال الترحيل.

نمط النسخ التزايدي

  1. يبدأ في نقل البيانات من Gen1 إلى Gen2. نوصي بـAzure Data Factory. نسخ قوائم التحكم بالوصول مع البيانات.

  2. نسخ البيانات الجديدة تزايدياً من Gen1.

  3. بعد نسخ جميع البيانات، أوقف جميع الكتابات إلى Gen1، وقم بتوجيه أحمال العمل إلى Gen2.

  4. إيقاف تشغيل Gen1.

تحقق من عينة التعليمات البرمجية الخاص بنا لنمط النسخ التزايدي في عينة ترحيل النسخ التزايدي.

Diagram of the incremental copy pattern.

اعتبارات استخدام نمط النسخ التزايدي

  • الانتقال من Gen1 إلى Gen2 لجميع أحمال العمل في نفس الوقت.

  • توقع وقت تعطل أثناء فترة الانتقال فقط.

  • مثالية للبنية الأساسية لبرنامج ربط العمليات التجارية حيث تتم ترقية جميع التطبيقات في وقت واحد، ولكن نسخة البيانات تتطلب المزيد من الوقت.

نمط المسار المزدوج

  1. نقل البيانات من Gen1 إلى Gen2. نوصي بـAzure Data Factory. نسخ قوائم التحكم بالوصول مع البيانات.

  2. استيعاب بيانات جديدة لكل من Gen1 وGen2.

  3. الإشارة لأحمال العمل إلى Gen2.

  4. إيقاف جميع الكتابات إلى Gen1 ثم إيقاف تشغيل Gen1.

تحقق من عينة التعليمات البرمجية الخاص بنا لنمط المسار المزدوج في عينة ترحيل المسار المزدوج.

Diagram of the dual pipeline pattern.

اعتبارات استخدام نمط البنية الأساسية لبرنامج ربط العمليات التجارية المزدوجة

  • تعمل البنية الأساسية لبرنامج ربط العمليات التجارية Gen1 وGen2 جنبا إلى جنب.

  • يدعم عدم التوقف عن العمل.

  • مثالي في الحالات التي لا تستطيع فيها أحمال العمل والتطبيقات الخاصة بك تحمل أي وقت تعطل، ويمكنك استيعابها في كل من حسابات التخزين.

نمط المزامنة ثنائي الاتجاه

  1. إعداد النسخ المتماثل ثنائي الاتجاه بين Gen1 وGen2. نوصي بـWanDisco. يوفر ميزة إصلاح للبيانات الموجودة.

  2. عند اكتمال جميع التحركات، أوقف جميع الكتابات إلى Gen1 وأوقف تشغيل النسخ المتماثل ثنائي الاتجاه.

  3. إيقاف تشغيل Gen1.

تحقق من عينة التعليمات البرمجية الخاص بنا لنمط المزامنة ثنائي الاتجاه في عينة ترحيل المزامنة ثنائية الاتجاه.

Diagram of the bidirectional pattern.

اعتبارات استخدام نمط المزامنة ثنائية الاتجاه

  • مثالي للسيناريوهات المعقدة التي تتضمن عددا كبيرا من المسارات والتبعيات حيث قد يكون النهج المرحلي أكثر منطقية.

  • جهد الترحيل مرتفع، ولكنه يوفر دعما جنبا إلى جنب ل Gen1 وGen2.

الخطوات التالية

(راجع أيضًا )