مقدمة إلى الجيل الثاني من تخزين Azure Data Lake
الجيل الثاني من تخزين Azure Data Lake هو مجموعة من القدرات المخصصة لعمليات تحليل البيانات الضخمة على Azure Blob Storage.
تتلاقى قدرات الجيل الثاني من تخزين Azure Data Lake مع قدرات الجيل الأول من تخزين Azure Data Lake من خلال Azure Blob Storage. على سبيل المثال، يوفر الجيل الثاني من تخزين Azure Data Lake دلالات نظام الملفات والأمان على مستوى الملف والحجم. وحيث إن هذه القدرات مبنية على نظام تخزين Blob، فستحصل أيضا على تخزين منخفض التكلفة ومتناسق، مع إمكانات استرداد ذات درجة إتاحة عالية حال حدوث كارثة.
مصمم لتحليل البيانات الضخمة للمؤسسات
Data Lake Storage Gen2 يجعل Azure Storage الأساس لبناء مستودعات بيانات المؤسسة على Azure. تم تصميمها منذ البداية لخدمة عدد من البيتابايت من المعلومات مع الحفاظ على مئات الجيجابت من الإنتاجية، يسمح Data Lake Storage Gen2 لك بإدارة كميات هائلة من البيانات بسهولة.
جزء أساسي من الجيل الثاني من تخزين Azure Data Lake هو إضافة مساحة اسم هرمية لنظام تخزين Blob. تنظم مساحة الاسم الهرمية العناصر /الملفات في تسلسل هرمي للدلائل من أجل الوصول إلى البيانات بكفاءة. يستخدم تقليد شائع في تسمية العناصر شرطة مائلة في الاسم لمحاكاة بنية الدليل ذي التسلسل الهرمي. يصبح هذا الهيكل حقيقياً مع الجيل الثاني من تخزين Azure Data Lake تصبح عمليات مثل إعادة تسمية أو حذف الأدلة بمثابة عمليات بيانات وصفية دقيقة في الدليل. لا حاجة إلى عدِّ ومعالجة كافة العناصر التي تشترك في بادئة اسم المجلد.
يقوم الجيل الثاني من تخزين Azure Data Lake على نظام تخزين Blob، وهو يعزز الأداء والإدارة والأمن بالطرق التالية:
الأداء يتحسن للأفضل لأنك لا تحتاج إلى نسخ أو تحويل البيانات كشرط أساسي للتحليل. مقارنة بمساحة الاسم المسطحة على نظام تخزين Blob، تحسن مساحة الاسم الهرمية بشكل كبير أداء عمليات إدارة الأدلة، وهو ما يعزز الأداء الوظيفي الكلي.
الإدارة تغدو أسهل لأنه يمكنك تنظيم الملفات ومعالجتها من خلال الأدلة والأدلة الفرعية.
الأمان قابل للتنفيذ لأنه يمكنك تعريف أذونات POSIX على الأدلة أو الملفات الفردية.
كما أن الجيل الثاني من تخزين Azure Data Lake مناسب جدا من حيث التكلفة لأنه يقوم على ٍAzure Blob Storage منخفض التكلفة. وعلاوة على ذلك، فإن المميزات الإضافية تقلل من التكلفة الإجمالية للملكية لإجراء تحليلات البيانات الضخمة على Azure.
المميزات الرئيسية للجيل الثاني من تخزين Azure Data Lake
وصول Hadoop المتوافق: يتيح لك الجيل الثاني من تخزين Azure Data Lake إدارة البيانات والوصول إليها كما تريد من خلالHadoop Distributed File System (HDFS). مشغل ABFS الجديد (المستخدم للوصول إلى البيانات) متوفر في جميع بيئات Apache Hadoop. وتشمل هذه البيئات Azure HDInsight،Azure Databricks، وتحليلات الخاصة بـ Azure Synapse.
مجموعة فائقة من أذونات POSIX: يدعم النموذج الأمني للجيل الثاني من تخزين Azure Data Lake أذونات ACL وPOSIX بالإضافة إلى دقة فائقة يتمتع بها الجيل الثاني من تخزين Azure Data Lake. يمكن تكوين الإعدادات من خلال مستكشف التخزين أو من خلال أطر عمل مثل Hive و Spark.
فعال من حيث التكلفة: يوفر الجيل الثاني من تخزين Azure Data Lake سعة تخزين ومعاملات منخفضة التكلفة. تعمل مميزات مثل دورة حياة Azure Blob Storage على تحسين التكاليف مع انتقال البيانات خلال دورة حياتها.
المحرك الأمثل: محرك تشغيل ABFS هو الأمثل خصيصا لتحليل البيانات الضخمة. تظهر واجهات برمجة التطبيقات REST المطابقة من خلال نقطة النهاية
dfs.core.windows.net.
قابلية التوسع
Azure Storage قابلة للتوسع حسب التصميم سواء كنت تلج إليها من خلال الجيل الثاني من تخزين Azure Data Lake أو واجهات تخزين Blob. وهي قادرة على تخزين وخدمة العديد من exabytes من البيانات. ويُتاح هذا القدر من التخزين من خلال معدل نقل يقاس بالجيغابت في الثانية (Gbps) عند مستويات عالية من عمليات الإدخال / الإخراج في الثانية (IOPS). تُنفذ عملية المعالجة خلال مدة الانتظار لكل طلب ثابت تقريبا والتي يتم قياسها على مستويات الخدمة والحساب والملف.
فعالية التكلفة
نظرا لأن الجيل الثاني من تخزين Azure Data Lake يقوم على Azure Blob Storage، فإن تكاليف سعة التخزين والمعاملات تكون منخفضة. على عكس خدمات التخزين السحابية الأخرى، لا يتعين عليك تحريك بياناتك أو نقلها قبل أن تتمكن من تحليلها. لمزيد من المعلومات حول الأسعار، راجع أسعار Azure Storage.
وبالإضافة إلى ذلك، تعمل سمات مثل مساحة الاسم الهرمية على تحسين الأداء الكلي للعديد من وظائف التحليلات بشكل كبير. ويعني هذا التحسن في الأداء أنك تحتاج إلى طاقة حساب أقل لمعالجة نفس الكمية من البيانات، مما يؤدي إلى انخفاض التكلفة الإجمالية للملكية (TCO) لمهمة التحليلات من طرف إلى طرف.
خدمة واحدة ومفاهيم متعددة
نظرا لأن الجيل الثاني من تخزين Azure Data Lake يقوم على أفضل أنظمة Azure Blob Storage، يمكن لمفاهيم متعددة وصف نفس الأشياء المشتركة.
وفيما يلي الكيانات المكافئة، كما هو موضح في مفاهيم مختلفة. ما لم ينص على خلاف ذلك، فإن هذه الكيانات تحمل نفس المعنى:
| المفهوم | منظمة ذات مستوى رفيع | منظمة ذات مستوى أدنى | حاوية بيانات |
|---|---|---|---|
| الكائنات الثنائية كبيرة الحجم - تخزين العناصر للأغراض العامة | الحاوية | المجلد الافتراضي (فقط من نوع SDK - لا يوفر أي معالجة دقيقة) | كائن ثنائي كبير الحجم |
| الجيل الثاني من تخزين Azure Data Lake - تخزين عمليات التحليل | الحاوية | الدليل | ملف |
المميزات المدعومة لـ Blob Storage
تتوافر مميزات Blob Storage مثل التسجيل التشخيصي،ومراحل الوصول،وسياسات إدارة دورة حياة Blob Storage لحسابك. معظم مميزات Blob Storage مدعومة بالكامل، وبعضها مدعوم فقط على مستوى المعاينة أو غير مدعوم بعد.
لمعرفة كيفية دعم جميع مميزات Storage Blob مع الجيل الثاني من تخزين Azure Data، راجع دعم ميزة Blob Storage في حسابات Azure Storage.
تكاملات خدمة Azure المدعومة
بيانات الجيل الثاني من تخزين Azure Data تدعم العديد من خدمات Azure. يمكنك استخدامها لاستيعاب البيانات، وإجراء التحليلات، وإنشاء تمثيلات مرئية. للحصول على قائمة بخدمات Azure المدعومة، راجع خدمات Azure التي تدعم الجيل الثاني من تخزين Azure Data.
أنظمة أساسية مفتوحة المصدر مدعومة
تدعم العديد من الأنظمة الأساسية مفتوحة المصدر من الجيل الثاني من تخزين Azure Data للحصول على قائمة كاملة، راجع الأنظمة الأساسية مفتوح المصدر التي تدعم الجيل الثاني من تخزين Azure Data.