استخدام Azure Data Lake Storage Gen1 لمتطلبات البيانات الضخمة
ملاحظة
في 29 فبراير 2024 سيتم توقف Azure Data Lake Storage Gen1. لمزيد من المعلومات، راجع الإعلان الرسمي. إذا كنت تستخدم Azure Data Lake Storage Gen1، تأكد من الترحيل إلىAzure Data Lake Storage Gen2 قبل ذلك التاريخ. لمعرفة كيفية القيام بذلك، راجع ترحيلAzure Data Lake Storage من Gen1 إلى Gen2
إذا لم يكن لديك بالفعل حساب Azure Data Lake Storage Gen1، لا يمكنك إنشاء حسابات جديدة.
هناك أربع مراحل رئيسية في معالجة البيانات الضخمة:
- استيعاب كميات كبيرة من البيانات في مخزن بيانات، في الوقت الفعلي أو على دفعات
- معالجة البيانات
- تنزيل البيانات
- تصور البيانات
في هذه المقالة ، نلقي نظرة على هذه المراحل فيما يتعلق Azure Data Lake Storage Gen1 لفهم الخيارات والأدوات المتاحة لتلبية احتياجات البيانات الضخمة الخاصة بك.
استيعاب البيانات في Data Lake Storage Gen1
يسلط هذا القسم الضوء على المصادر المختلفة للبيانات والطرق المختلفة التي يمكن من خلالها استيعاب هذه البيانات في حساب Data Lake Storage Gen1.

البيانات المخصصة
يمثل هذا مجموعات بيانات أصغر تستخدم للنماذج الأولية لتطبيق بيانات كبيرة. هناك طرق مختلفة لاستيعاب البيانات المخصصة اعتمادا على مصدر البيانات.
| مصدر البيانات | تناوله باستخدام |
|---|---|
| الكمبيوتر المحلي | |
| كائن التخزين الثنائي للبيانات الكبيرة في Azure |
البيانات المتدفقة
يمثل هذا البيانات التي يمكن إنشاؤها بواسطة مصادر مختلفة مثل التطبيقات والأجهزة وأجهزة الاستشعار وما إلى ذلك. يمكن استيعاب هذه البيانات في Data Lake Storage Gen1 بواسطة مجموعة متنوعة من الأدوات. عادة ما تقوم هذه الأدوات بالتقاط البيانات ومعالجتها على أساس كل حدث على حدة في الوقت الفعلي ، ثم كتابة الأحداث على دفعات في Data Lake Storage Gen1 بحيث يمكن معالجتها بشكل أكبر.
فيما يلي الأدوات التي يمكنك استخدامها:
- Azure Stream Analytics - يمكن كتابة الأحداث التي يتم استيعابها في مراكز الأحداث إلى Azure Data Lake Storage Gen1 باستخدام مخرج Gen1 Azure Data Lake Storage.
- Azure HDInsight Storm - يمكنك كتابة البيانات مباشرة إلى Data Lake Storage Gen1 من مجموعة Storm.
- EventProcessorHost - يمكنك تلقي الأحداث من مراكز الأحداث ثم كتابتها إلى Data Lake Storage Gen1 باستخدام Data Lake Storage Gen1 .NET SDK.
البيانات العلائقية
يمكنك أيضا الحصول على البيانات من قواعد البيانات العلائقية. على مدى فترة من الزمن ، تجمع قواعد البيانات العلائقية كميات هائلة من البيانات التي يمكن أن توفر رؤى رئيسية إذا تمت معالجتها من خلال خط أنابيب البيانات الضخمة. يمكنك استخدام الأدوات التالية لنقل هذه البيانات إلى Data Lake Storage Gen1.
بيانات سجل خادم الويب (تحميل باستخدام تطبيقات مخصصة)
يتم استدعاء هذا النوع من مجموعات البيانات على وجه التحديد لأن تحليل بيانات سجل خادم الويب هو حالة استخدام شائعة لتطبيقات البيانات الضخمة ويتطلب تحميل كميات كبيرة من ملفات السجل إلى Data Lake Storage Gen1. يمكنك استخدام أي من الأدوات التالية لكتابة البرامج النصية أو التطبيقات الخاصة بك لتحميل هذه البيانات.
لتحميل بيانات سجل خادم الويب ، وكذلك لتحميل أنواع أخرى من البيانات (مثل بيانات المشاعر الاجتماعية) ، يعد من الجيد كتابة البرامج النصية / التطبيقات المخصصة الخاصة بك لأنها تمنحك المرونة لتضمين مكون تحميل البيانات كجزء من تطبيق البيانات الكبيرة الأكبر الخاص بك. في بعض الحالات ، قد يأخذ هذا الرمز شكل برنامج نصي أو أداة مساعدة بسيطة لسطر الأوامر. في حالات أخرى ، يمكن استخدام الرمز لدمج معالجة البيانات الضخمة في تطبيق أو حل تجاري.
البيانات المقترنة بمجموعات Azure HDInsight
تدعم معظم أنواع مجموعات HDInsight (Hadoop و HBase و Storm) Data Lake Storage Gen1 كمستودع لتخزين البيانات. تقوم مجموعات HDInsight بالوصول إلى البيانات من نقاط تخزين Azure (WASB). للحصول على أداء أفضل، يمكنك نسخ البيانات من WASB إلى حساب Data Lake Storage Gen1 مقترن بالكتلة. يمكنك استخدام الأدوات التالية لنسخ البيانات.
البيانات المخزنة في مجموعات محلية أو IaaS Hadoop
قد يتم تخزين كميات كبيرة من البيانات في مجموعات Hadoop الحالية ، محليا على الأجهزة التي تستخدم HDFS. قد تكون مجموعات Hadoop في نشر محلي أو قد تكون ضمن مجموعة IaaS على Azure. قد تكون هناك متطلبات لنسخ هذه البيانات إلى Azure Data Lake Storage Gen1 لنهج لمرة واحدة أو بطريقة متكررة. هناك العديد من الخيارات التي يمكنك استخدامها لتحقيق ذلك. فيما يلي قائمة بالبدائل والمقايضات المرتبطة بها.
| النهج | التفاصيل | المزايا | الاعتبارات |
|---|---|---|---|
| استخدام Azure Data Factory (ADF) لنسخ البيانات مباشرة من مجموعات Hadoop إلى Azure Data Lake Storage Gen1 | تدعم وحدة التغذية التلقائية للمستندات HDFS كمصدر للبيانات | توفر وحدة التغذية التلقائية للمستندات دعما جاهزا ل HDFS والإدارة والمراقبة الشاملة من الدرجة الأولى | يتطلب نشر "بوابة إدارة البيانات" محليا أو في مجموعة IaaS |
| تصدير البيانات من Hadoop كملفات. ثم انسخ الملفات إلى Azure Data Lake Storage Gen1 باستخدام الآلية المناسبة. | يمكنك نسخ الملفات إلى Gen1 Azure Data Lake Storage باستخدام:
|
سريع للبدء. يمكن القيام بتحميلات مخصصة | عملية متعددة الخطوات تتضمن تقنيات متعددة. ستنمو الإدارة والرصد لتصبح تحديا بمرور الوقت نظرا للطبيعة المخصصة للأدوات |
| استخدم Distcp لنسخ البيانات من Hadoop إلى Azure Storage. ثم انسخ البيانات من Azure Storage إلى Data Lake Storage Gen1 باستخدام الآلية المناسبة. | يمكنك نسخ البيانات من Azure Storage إلى Data Lake Storage Gen1 باستخدام: | يمكنك استخدام أدوات مفتوحة المصدر. | عملية متعددة الخطوات تتضمن تقنيات متعددة |
مجموعات بيانات كبيرة حقا
لتحميل مجموعات البيانات التي تتراوح في عدة تيرابايت، قد يكون استخدام الطرق الموضحة أعلاه بطيئا ومكلفا في بعض الأحيان. في مثل هذه الحالات ، يمكنك استخدام الخيارات أدناه.
باستخدام Azure ExpressRoute. يتيح لك Azure ExpressRoute إنشاء اتصالات خاصة بين مراكز بيانات Azure والبنية الأساسية في منشآتك. وهذا يوفر خيارا موثوقا به لنقل كميات كبيرة من البيانات. لمزيد من المعلومات، راجع وثائق Azure ExpressRoute.
تحميل البيانات "في وضع عدم الاتصال". إذا لم يكن استخدام Azure ExpressRoute ممكنا لأي سبب من الأسباب، فيمكنك استخدام خدمة استيراد/تصدير Azure لشحن محركات الأقراص الثابتة مع بياناتك إلى مركز بيانات Azure. يتم تحميل بياناتك أولا إلى Azure Storage Blobs. يمكنك بعد ذلك استخدام Azure Data Factory أو أداة AdlCopy لنسخ البيانات من Azure Storage Blobs إلى Data Lake Storage Gen1.
ملاحظة
أثناء استخدام خدمة الاستيراد/التصدير، يجب ألا تزيد أحجام الملفات الموجودة على الأقراص التي تقوم بشحنها إلى مركز بيانات Azure عن 195 غيغابايت.
معالجة البيانات المخزنة في Data Lake Storage Gen1
بمجرد توفر البيانات في Data Lake Storage Gen1 يمكنك إجراء تحليل على تلك البيانات باستخدام تطبيقات البيانات الضخمة المدعومة. حاليا، يمكنك استخدام Azure HDInsight وAzure Data Lake Analytics لتشغيل مهام تحليل البيانات على البيانات المخزنة في Data Lake Storage Gen1.

يمكنك إلقاء نظرة على الأمثلة التالية.
- إنشاء مجموعة HDInsight مع Data Lake Storage Gen1 كوحدة تخزين
- استخدم Azure Data Lake Analytics مع Data Lake Storage Gen1
تنزيل البيانات من Data Lake Storage Gen1
قد ترغب أيضا في تنزيل البيانات أو نقلها من Azure Data Lake Storage Gen1 لسيناريوهات مثل:
- انقل البيانات إلى مستودعات أخرى للتفاعل مع خطوط أنابيب معالجة البيانات الحالية. على سبيل المثال، قد ترغب في نقل البيانات من Data Lake Storage Gen1 إلى قاعدة بيانات Azure SQL أو SQL Server.
- قم بتنزيل البيانات إلى الكمبيوتر المحلي لمعالجتها في بيئات IDE أثناء إنشاء نماذج تطبيقية.

في مثل هذه الحالات، يمكنك استخدام أي من الخيارات التالية:
يمكنك أيضا استخدام الطرق التالية لكتابة البرنامج النصي / التطبيق الخاص بك لتنزيل البيانات من Data Lake Storage Gen1.
تصور البيانات في Data Lake Storage Gen1
يمكنك استخدام مزيج من الخدمات لإنشاء تمثيلات مرئية للبيانات المخزنة في Data Lake Storage Gen1.

- يمكنك البدء باستخدام Azure Data Factory لنقل البيانات من Data Lake Storage Gen1 إلى Azure Synapse Analytics
- بعد ذلك، يمكنك دمج Power BI مع Azure Synapse Analytics لإنشاء تمثيل مرئي للبيانات.