اختيار تقنية تخزين البيانات الضخمة في Azure

إشعار

في 29 فبراير 2024 سيتم توقف Azure Data Lake Storage Gen1. لمزيد من المعلومات، راجع الإعلان الرسمي. إذا كنت تستخدم Azure Data Lake Storage Gen1، تأكد من الترحيل إلىAzure Data Lake Storage Gen2 قبل ذلك التاريخ. لمعرفة كيفية إجراء ذلك، راجع ترحيل Azure Data Lake Storage من Gen1 إلى Gen2 باستخدام مدخل Microsoft Azure.

إذا لم يكن لديك بالفعل حساب Azure Data Lake Storage Gen1، لا يمكنك إنشاء حسابات جديدة.

يقارن هذا الموضوع خيارات تخزين البيانات لحلول البيانات الضخمة - على وجه التحديد، تخزين البيانات لاستيعاب البيانات المجمعة ومعالجة الدفعات، بدلا من مخازن البيانات التحليلية أو استيعاب الدفق في الوقت الفعلي.

ما هي خياراتك عند اختيار تخزين البيانات في Azure؟

هناك العديد من الخيارات لاستيعاب البيانات في Azure، اعتمادا على احتياجاتك.

تخزين الملفات:

قواعد بيانات NoSQL

قواعد البيانات التحليلية:

Azure Data Explorer

كائن ثنائي كبير الحجم لتخزين Azure

Azure Storage هي خدمة سحابية مُدارة من Azure توفر مساحة تخزين متوفرة بشكل كبير، وآمنة، ومتينة، وقابلة للتطوير، ومكررة. تهتم Microsoft بالصيانة وتعالج المشاكل الحرجة بالنسبة لك. Azure Storage هو حل التخزين الأكثر شيوعا الذي يوفره Azure، نظرا لعدد الخدمات والأدوات التي يمكن استخدامها معها.

هناك العديد من خدمات Azure Storage التي يمكنك استخدامها لتخزين البيانات. الخيار الأكثر مرونة لتخزين الكائنات الثنائية كبيرة الحجم من العديد من مصادر البيانات هو تخزين Blob. الكائنات الثنائية كبيرة الحجم هي في الأساس ملفات. يقومون بتخزين الصور والمستندات وملفات HTML والأقراص الثابتة الظاهرية (VHDs) والبيانات الضخمة مثل السجلات والنسخ الاحتياطية لقاعدة البيانات - إلى حد كبير أي شيء. يتم تخزين الكائنات الثنائية كبيرة الحجم في حاويات، والتي تشبه المجلدات. توفر الحاوية تجميع لمجموعة كائنات blob. يمكن أن يتضمن حساب التخزين عدداً غير محدود من الحاويات، ويمكن للحاوية تخزين عدد غير محدود من النقاط.

يعد Azure Storage خيارا جيدا للبيانات الضخمة وحلول التحليلات، نظرا لمرونتها وتوافرها العالي وتكلفتها المنخفضة. يوفر طبقات تخزين ساخنة وباردة وأرشفة لحالات الاستخدام المختلفة. لمزيد من المعلومات، راجع Azure Blob Storage: طبقات تخزين ساخنة وباردة وأرشفة.

يمكن الوصول إلى تخزين Azure Blob من Hadoop (متوفر من خلال HDInsight). يمكن ل HDInsight استخدام حاوية الكائن الثنائي الكبير في "تخزين Azure" كنظام ملف افتراضي للمجموعة. من خلال واجهة نظام الملفات الموزعة Hadoop (HDFS) التي يوفرها برنامج تشغيل WASB، يمكن أن تعمل المجموعة الكاملة من المكونات في HDInsight مباشرة على البيانات المنظمة أو غير المنظمة المخزنة ككائنات ثنائية كبيرة الحجم. يمكن أيضا الوصول إلى تخزين Azure Blob عبر Azure Synapse Analytics باستخدام ميزة PolyBase الخاصة به.

الميزات الأخرى التي تجعل Azure Storage خيارا جيدا هي:

Azure Data Lake Storage الجيل الأول

Azure Data Lake Storage Gen1 هو مستودع hyperscale على مستوى المؤسسة لأحمال العمل التحليلية للبيانات الضخمة. يتيح لك Data Lake التقاط البيانات بأي حجم ونوع وسرعة استيعاب في موقع واحد آمن للتحليلات التشغيلية والاستكشافية.

لا يفرض Azure Data Lake Storage Gen1 أي حدود على أحجام الحسابات أو أحجام الملفات أو كمية البيانات التي يمكن تخزينها في مستودع بيانات. يتم تخزين البيانات بشكل دائم عن طريق إجراء نسخ متعددة وليس هناك حد للمدة الزمنية التي يمكن فيها تخزين البيانات في Data Lake. بالإضافة إلى عمل نسخ متعددة من الملفات للحماية من أي فشل غير متوقع، تنشر Data lake أجزاء من ملف عبر عدد من خوادم التخزين الفردية. يؤدي هذا إلى تحسين سرعة القراءة عند قراءة الملف بالتوازي مع إجراء تحليلات البيانات.

يمكن الوصول إلى Azure Data Lake Storage Gen1 من Hadoop (متوفر من خلال HDInsight) باستخدام واجهات برمجة تطبيقات REST المتوافقة مع WebHDFS. قد تفكر في استخدام هذا كبديل لـ Azure Storage عندما تتجاوز أحجام الملفات الفردية أو المجمعة تلك التي يدعمها Azure Storage. ومع ذلك، هناك إرشادات ضبط الأداء التي يجب اتباعها عند استخدام Azure Data Lake Storage Gen1 كمساحة تخزين أساسية لمجموعة HDInsight، مع إرشادات محددة ل Spark وHive وMapReduce. تأكد أيضا من التحقق من التوفر الإقليمي ل Azure Data Lake Storage Gen1، لأنه غير متوفر في العديد من المناطق مثل Azure Storage، ويجب أن يكون موجودا في نفس المنطقة مثل مجموعة HDInsight الخاصة بك.

إلى جانب Azure Data Lake Analytics، تم تصميم Azure Data Lake Storage Gen1 لتمكين التحليلات على البيانات المخزنة ويتم ضبطه لأداء سيناريوهات تحليلات البيانات. يمكن أيضا الوصول إلى Azure Data Lake Storage Gen1 عبر Azure Synapse باستخدام ميزة PolyBase الخاصة به.

Azure Cosmos DB

Azure Cosmos DB هي قاعدة بيانات متعددة النماذج موزعة عالميًّا من Microsoft. يضمن Azure Cosmos DB زمن انتقال مكون من رقم واحد بالمللي ثانية عند النسبة المئوية 99 في أي مكان في العالم، ويوفر نماذج تناسق متعددة محددة جيدا لضبط الأداء، ويضمن توفرا عاليا مع قدرات متعددة التوجيه.

واجهة برمجة التطبيقات في Azure Cosmos DB SQL غير محددة المخطط. يقوم تلقائيا بفهرسة جميع البيانات دون مطالبتك بالتعامل مع إدارة المخطط والفهرس. كما أنها نماذج متعددة النماذج ومستندات داعمة في الأساس وقيمة المفاتيح والرسم البياني ونماذج بيانات عائلة الأعمدة.

ميزات Azure Cosmos DB:

HBase على HDInsight

Apache HBase هي قاعدة بيانات NoSQL مفتوحة المصدر تعتمد على Apache Hadoop وصُممت على غرار Google BigTable. توفر HBase وصولاً عشوائياً واتساقاً قوياً لقدر كبير من البيانات غير المهيكلة وشبه المهيكلة في قاعدة بيانات غير مخططة منظمة من خلال مجموعات الأعمدة.

تُخزن البيانات في صفوف الجدول، وتُجمع البيانات داخل الصف حسب مجموعة الأعمدة. تعد HBase غير مخططة بمعنى أنه لا يلزم تحديد الأعمدة ولا نوع البيانات المخزنة فيها قبل استخدامها. تتسع التعليمة البرمجية مفتوحة المصدر خطياً لتشمل بيتا بايت من البيانات على آلاف العقد. يمكن الاعتماد على تكرار البيانات ومعالجة الدفعات والميزات الأخرى التي يتم توفيرها بواسطة التطبيقات الموزعة في نظام Hadoop البيئي.

يستفيد تطبيق HDInsight من بنية توسيع HBase لتوفير التقسيم التلقائي للجداول، والاتساق القوي للقراءات والكتابة، وتجاوز الفشل التلقائي. يُحسَّن الأداء من خلال التخزين المؤقت في الذاكرة لعمليات القراءة والتدفق بمعدل نقل عالٍ لعمليات الكتابة. في معظم الحالات، ستحتاج إلى إنشاء نظام مجموعة HBase داخل شبكة ظاهرية بحيث يمكن لمجموعات وتطبيقات HDInsight الأخرى الوصول مباشرة إلى الجداول.

Azure Data Explorer ‏(Kusto)

Azure Data Explorer هي خدمة استكشاف بيانات سريعة وقابلة لتغيير الحجم بدرجة كبيرة لبيانات السجل والقياس عن بُعد. يساعدك على التعامل مع العديد من تدفقات البيانات المنبعثة من البرامج الحديثة، حتى تتمكن من جمع البيانات وتخزينها وتحليلها. يعتبر Azure Data Explorer مثاليًا لتحليل كميات كبيرة من البيانات المتنوعة من أي مصدر بيانات، مثل مواقع الويب والتطبيقات وأجهزة إنترنت الأشياء وغيرها. تُستخدم هذه البيانات في التشخيص والرصد والإبلاغ والتعلم الآلي وقدرات التحليلات الإضافية. يسهل Azure Data Explorer استيعاب هذه البيانات ويمكنك من إجراء استعلامات مخصصة معقدة على البيانات في ثوان.

يمكن توسيع Azure Data Explorer خطيا لزيادة معدل نقل الاستيعاب ومعالجة الاستعلام. يمكن توزيع نظام مجموعة Azure Data Explorer إلى شبكة ظاهرية لتمكين الشبكات الخاصة.

معايير تحديد المفتاح

لتضييق الخيارات، ابدأ بالإجابة على هذه الأسئلة:

  • هل تحتاج إلى تخزين مدار وعالي السرعة وقائم على السحابة لأي نوع من أنواع النصوص أو البيانات الثنائية؟ إذا كانت الإجابة بنعم، فحدد أحد خيارات تخزين الملفات أو التحليلات.

  • هل تحتاج إلى تخزين الملفات المحسن لأحمال عمل التحليلات المتوازية ومعدل النقل العالي/IOPS؟ إذا كانت الإجابة بنعم، فاختر خيارا تم ضبطه لأداء حمل عمل التحليلات.

  • هل تحتاج إلى تخزين البيانات غير المنظمة أو شبه المنظمة في قاعدة بيانات بدون مخطط؟ إذا كان الأمر كذلك، فحدد أحد الخيارات غير العلائقية أو التحليلية. مقارنة خيارات الفهرسة ونماذج قاعدة البيانات. اعتمادا على نوع البيانات التي تحتاج إلى تخزينها، قد تكون نماذج قاعدة البيانات الأساسية هي العامل الأكبر.

  • هل يمكنك استخدام الخدمة في منطقتك؟ تحقق من التوفر الإقليمي لكل خدمة من خدمات Azure. راجع المنتجات المتوفرة حسب المنطقة.

مصفوفة الإمكانات

تلخص الجداول التالية الاختلافات الرئيسية في القدرات.

قدرات تخزين الملفات

الإمكانية Azure Data Lake Storage الجيل الأول حاويات تخزين كائنات Azure الثنائية كبيرة الحجم
الغرض التخزين المحسن لأحمال عمل تحليلات البيانات الضخمة مخزن عناصر الأغراض العامة لمجموعة واسعة من سيناريوهات التخزين
حالات الاستخدام الدفعة والتحليلات المتدفقة وبيانات التعلم الآلي مثل ملفات السجل وبيانات IoT والنقر فوق التدفقات ومجموعات البيانات الكبيرة أي نوع من البيانات النصية أو الثنائية، مثل الواجهة الخلفية للتطبيق، وبيانات النسخ الاحتياطي، وتخزين الوسائط للدفق، وبيانات الأغراض العامة
هيكل نظام الملفات الهرمي مخزن عناصر بمساحة اسم ثابت
المصادقة استنادا إلى هويات Microsoft Entra استنادا إلى الأسرار المشتركة مفاتيح الوصول إلى الحساب ومفاتيح توقيع الوصول المشترك والتحكم في الوصول المستند إلى الدور في Azure (Azure RBAC)
بروتوكول المصادقة OAuth 2.0. يجب أن تحتوي المكالمات على JWT (رمز ويب JSON) صالح صادر عن معرف Microsoft Entra التعليمة البرمجية لمصادقة الرسالة المستندة إلى التجزئة (HMAC). يجب أن تحتوي الاستدعاءات على تجزئة SHA-256 مرمزة بـ Base64 عبر جزء من طلب HTTP.
التخويل قوائم التحكم في الوصول إلى POSIX (ACLs). يمكن تعيين قوائم التحكم في الوصول استنادا إلى هويات Microsoft Entra على مستوى الملفات والمجلدات. للحصول على تخويل على مستوى الحساب، استخدم مفاتيح الوصول إلى الحساب. بالنسبة إلى تخويل الحساب أو الحاوية أو الكائن الثنائي كبير الحجم، استخدم مفاتيح توقيع الوصول المشترك.
التدقيق المتوفر. متاح
التشفير في حالة السكون شفاف، جانب الخادم شفاف، جانب الخادم؛ التشفير من جانب العميل
حزم SDKs المطوّر .NET, Java, Python, Node.js .NET, Java, Python, Node.js, C++, Ruby
أداء حمل عمل التحليلات أداء محسن لأحمال عمل التحليلات المتوازية ومعدل النقل العالي وIOPS وهو ليس الأمثل لتحليلات أحمال العمل
حدود الحجم لا توجد قيود على أحجام الحسابات أو أحجام الملفات أو عدد الملفات حدود محددة موثقة هنا
Geo-redundancy مكرر محليا (LRS)، مكرر عالميا (GRS)، الوصول للقراءة المكرر عالميا (RA-GRS)، المنطقة المكررة (ZRS). مكرر محليا (LRS)، مكرر عالميا (GRS)، الوصول للقراءة المكرر عالميا (RA-GRS)، المنطقة المكررة (ZRS). راجع هنالمزيد من المعلومات

قدرات قاعدة بيانات NoSQL

الإمكانية Azure Cosmos DB HBase على HDInsight
نموذج قاعدة البيانات الأساسية مخزن المستندات، الرسم البياني، مخزن قيمة المفتاح، مخزن أعمدة عريض مخزن أعمدة عريض
الفهارس الثانوية ‏‏نعم‬ لا
دعم لغة SQL ‏‏نعم‬ نعم (باستخدام برنامج تشغيل Phoenix JDBC)
الاتساق قوية، تالفة محددة، جلسة عمل، بادئة متسقة، في نهاية المطاف قوي "Strong"
تكامل وظائف Azure الأصلي نعم لا
التوزيع العمومي التلقائي نعم لايمكن تكوين أي نسخ متماثل لمجموعة HBase عبر المناطق ذات التناسق النهائي
نموذج الأسعار وحدات الطلب القابلة للتطوير المرن (RUs) التي يتم تحصيلها في الثانية حسب الحاجة، ومساحة تخزين قابلة للتطوير بشكل مرن أسعار كل دقيقة لمجموعة HDInsight (التحجيم الأفقي للعقد)، التخزين

قدرات قاعدة البيانات التحليلية

الإمكانية Azure Data Explorer ‏(Kusto)
نموذج قاعدة البيانات الأساسية ارتباطي (مخزن الأعمدة) وبيانات تتبع الاستخدام ومخزن السلاسل الزمنية
دعم لغة SQL ‏‏نعم‬
نموذج الأسعار مثيلات نظام المجموعة القابلة للتطوير بشكل مرن
المصادقة استنادا إلى هويات Microsoft Entra
التشفير في حالة السكون المفاتيح المدعومة والمُدارة بواسطة العملاء
أداء حمل عمل التحليلات الأداء المحسن لأحمال عمل التحليلات المتوازية
حدود الحجم قابل للتطوير خطيا

المساهمون

تحتفظ Microsoft بهذه المقالة. وهي مكتوبة في الأصل من قبل المساهمين التاليين.

الكاتب الرئيسي:

الخطوات التالية