التشغيل السريع: نشر نظام مجموعة Apache Spark المُدار من خلال Azure Databricks

مقالة
06/01/2023

يوفر المثيل المدار بـ Azure لـ Apache Cassandra النشر الآلي وعمليات القياس لمراكز البيانات المدارة من المصدر المفتوح Apache Cassandra. تعمل هذه الميزة على تسريع السيناريوهات المختلطة وتقليل الصيانة المستمرة.

تعلمت في هذا التشغيل السريع، كيفية استخدام مدخل Microsoft Azure لإنشاء نظام مجموعة Apache Spark مدارة بالكامل داخل الشبكة الافتراضية لمثيل Azure المدار في نظام مجموعة Apache Cassandra. يمكنك إنشاء نظام مجموعة Spark في Azure Databricks. في وقت لاحق، يمكنك إنشاء دفاتر ملاحظات أو إرفاقها بالمجموعة، وقراءة البيانات من مصادر بيانات مختلفة، وتحليل الرؤى.

يمكنك أيضاً معرفة المزيد من خلال إرشادات مفصلة حول نشر Azure Databricks في الشبكة الافتراضية Azure (حقن الشبكة الافتراضية).

المتطلبات الأساسية

إذا لم يكن لديك اشتراك Azure، فأنشئ حساباً مجانياً قبل أن تبدأ.

أنشئ حساب نظام مجموعة Azure Databricks

اتبع هذه الخطوات لإنشاء نظام مجموعة Azure Databricks في شبكة افتراضية تحتوي على مثيل Azure المدارة لـApache Cassandra:

تسجيل الدخول إلى ⁧⁩مدخل Azure⁧⁩.
في جزء التنقل الأيمن، حدد موقع Resource groups. انتقل إلى مجموعة الموارد التي تحتوي على الشبكة الظاهرية حيث يتم نشر المثيل المدار.
افتح مورد الشبكة الافتراضية ثم دون ملاحظة عن مساحة العنوان:
من مجموعة الموارد، حدد Add وابحث عن Azure Databricks في حقل البحث:
حدد Create لإنشاء حساب Azure Databricks:
أدخل القيم التالية:
- اسم مساحة العمل أدخل اسما لمساحة عمل Databricks.
- المنطقه تأكد من تحديد نفس المنطقة مثل الشبكة الظاهرية.
- مستوى التسعير اختر بين قياسي أو متميز أو تجريبي. لمزيد من المعلومات حول هذه المستويات، راجع صفحة تسعير Databricks.
بعد ذلك، حدد علامة التبويب Networking ، وأدخل التفاصيل التالية:
- نشر مساحة عمل Azure Databricks في الشبكة الظاهرية (VNet) حدد نعم.
- الشبكة الظاهرية من القائمة المنسدلة، اختر الشبكة الظاهرية حيث يوجد المثيل المدار.
- اسم الشبكة الفرعية العامة أدخل اسما للشبكة الفرعية العامة.
- نطاق CIDR للشبكة الفرعية العامة أدخل نطاق IP للشبكة الفرعية العامة.
- اسم الشبكة الفرعية الخاصة أدخل اسما للشبكة الفرعية الخاصة.
- نطاق CIDR للشبكة الفرعية الخاصة أدخل نطاق IP للشبكة الفرعية الخاصة.
لتجنب تضارب النطاق، تأكد من تحديد نطاقات أعلى. إذا لزم الأمر، فاستخدم حاسبة الشبكة الفرعية المرئية لتقسيم النطاقات:

تعرض لقطة الشاشة التالية مثالاً مفصلاً على جزء الشبكات:
حدد Review and create ثم Create لنشر مساحة العمل.
شغل مساحة العمل بعد إنشائها.
سوف تتم إعادة توجيهك إلى مدخل Microsoft Azure Databricks. من المدخل، يُرجى تحديدNew Cluster.
في لوحة New cluster اقبل القيم الافتراضية لجميع الحقول بخلاف الحقول التالية:
- اسم نظام المجموعة أدخل اسما لنظام المجموعة.
- إصدار وقت تشغيل Databricks نوصي بتحديد إصدار وقت تشغيل Databricks 7.5 أو أعلى، لدعم Spark 3.x.

وسع خيارات متقدمة وأضف التكوين التالي. تأكد من استبدال العقدة IPs وبيانات الاعتماد:

spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
spark.cassandra.auth.password cassandra
spark.cassandra.connection.port 9042
spark.cassandra.auth.username cassandra
spark.cassandra.connection.ssl.enabled true

أضف مكتبة Apache Spark Cassandra Connector إلى نظام مجموعتك للاتصال بنقاط النهاية الأصلية وAzure Cosmos DB Cassandra. في نظام المجموعة، حدد Libraries>Install New>Maven ثم أضف com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 إحداثيات Maven.

تنظيف الموارد

إذا لم تكن لديك نية متابعة استخدام مثيل نظام المجموعة المدار هذا، فاحذفه بالخطوات التالية:

من القائمة الموجودة على الجهة اليسرى لمدخل Microsoft Azure، حدد Resource groups.
من القائمة، حدد مجموعة الموارد التي أنشأتها لهذه البداية السريعة.
في جزء مجموعة الموارد Overview، حدد حذف مجموعة الموارد.
في النافذة التالية، أدخل اسم مجموعة الموارد لحذفها، ثم حدد Delete.

الخطوات التالية

تعلمت في هذا التشغيل السريع، كيفية إنشاء نظام مجموعة Apache Spark مدارة بالكامل داخل الشبكة الافتراضية لمثيل Azure المدار الذي تمتلكه لمجموعة Apache Cassandra. بعد ذلك، يمكنك التعرف على كيفية إدارة نظام المجموعة وموارد مركز البيانات:

إدارة مثيل Azure Managed Instance لموارد Apache Cassandra باستخدام Azure CLI

Share via

التشغيل السريع: نشر نظام مجموعة Apache Spark المُدار من خلال Azure Databricks

المتطلبات الأساسية

أنشئ حساب نظام مجموعة Azure Databricks

تنظيف الموارد

الخطوات التالية

الموارد الإضافية