شرح Apache Spark في Azure Synapse Analytics

مكتمل

Apache Spark هو نظام مُوَزَّعِ مفتوح المصدر يُستخدم لمعالجة أعباء البيانات الضخمة. وتُعرَّف أعباء العمل المتعلقة بالبيانات الضخمة بأنها أعباء عمل لمعالجة البيانات الكبيرة أو المعقدة جدًا بالنسبة إلى نظم قواعد البيانات التقليدية. Apache Spark يعالج كميات كبيرة من البيانات في الذاكرة، ما يعزز أداء تحليل البيانات الضخمة بشكل أكثر فعالية، وهذه القدرة متاحة ضمن Azure Synapse Analytics، ويشار إليها بأوعية Spark.

لتحقيق هذه القدرة، مجموعة أوعية Spark هي مجموعات من أجهزة الكمبيوتر التي يتم التعامل معها على أنها كمبيوتر واحد وتعالج تنفيذ الأوامر الصادرة من دفاتر الملاحظات. تُتيح أنظمة المجموعات معالجة البيانات بالتوازي عبر العديد من أجهزة الكمبيوتر بهدف تحسين الأداء وزيادة السعة. وهي تتكون من برنامج تشغيل Spark ‏ وعُقدة عامل. تُرسل عُقدة ⁧⁩برنامج التشغيل العمل إلى عُقدة العامل وتُرشدها إلى سحب البيانات من مصدر بيانات محدد. علاوة على ذلك، يمكنك تكوين ما تريده من العقد لتنفيذ المهمة.

Apache Spark architecture

تقدم أوعية Spark في Azure Synapse Analytics خدمة مدارة بشكل كامل من Spark. فوائد إنشاء أوعية Spark في Azure Synapse Analytics تشمل.

السرعة والكفاءة

تبدأ مثيلات Spark في دقيقتين تقريبًا لأقل من 60 عقدة و5 دقائق تقريبًا لأكثر من 60 عقدة. يتم إيقاف تشغيل المثيل، بشكل افتراضي، بعد 5 دقائق من تنفيذ آخر مهمة ما لم يتم الاحتفاظ بها قيد التشغيل بواسطة اتصال دفتر ملاحظات.

سهولة الإنشاء

يمكنك إنشاء وعاء Spark جديد في Azure Synapse في دقائق باستخدام Azure portal أو Azure PowerShell أو Synapse Analytics .NET SDK.

سهولة الاستخدام

يتضمن Synapse Analytics دفتر ملاحظات مخصص مشتق من Nteract. يمكنك استخدام دفاتر الملاحظات هذه لمعالجة البيانات التفاعلية والتصور.

قابلية التوسع

يمكن أن تحتوي Apache Spark في أوعية Synapse Azure على إمكانية تغيير الحجم التلقائي، بحيث يتغير حجم التجمّعات عن طريق إضافة العقد أو إزالتها حسب الحاجة. ويمكن أيضاً إيقاف تجمعات Spark دون فقدان البيانات نظراً لأن جميع البيانات مخزنة في Azure Storage أو Data Lake Storage.

دعم Azure Data Lake Storage Generation 2

يمكن لأوعية Spark في Azure Synapse استخدام Azure Data Lake Storage Generation 2 وBLOB storage.

حالة الاستخدام الأساسي لـ Apache Spark لـAzure Synapse Analytics هي معالجة أعباء البيانات الكبيرة التي لا يمكن معالجتها بواسطة Azure Synapse SQL، وعندما لا يكون لديك تطبيق Apache Spark موجود.

ربما يجب إجراء عملية حسابية معقدة على كميات كبيرة من البيانات. معالجة هذا المطلب في أوعية Spark سوف تكون أكثر كفاءة بكثير من معالجته في SQL Synapse. يمكنك تمرير البيانات من خلال مجموعة Spark لتنفيذ العملية الحسابية ثم تمرير البيانات المعالجة مرة أخرى إلى مستودع البيانات أو إعادتها إلى بحيرة البيانات.

إذا كان لديك بالفعل تطبيق Spark جاهز بالفعل، فإنه يمكن أيضًا أن تتكامل Azure Synapse Analytics مع تطبيقات Spark الأخرى مثل Azure Databricks، لذلك لا تحتاج إلى استخدام الميزة في Azure Synapse Analytics إذا كان لديك إعداد Spark بالفعل.

وأخيرًا، أوعية Spark في Azure Synapse Analytics تأتي مع مكتبات Anaconda المثبتة مسبقًا. توفر Anaconda ما يقرب من 200 مكتبة تمكنك من استخدام وعاء spark لتنفيذ التعلم الآلي وتحليل البيانات وتصور البيانات. وهذا يمكن علماء البيانات ومحلل البيانات من التفاعل مع البيانات باستخدام وعاء spark أيضًا.