إدارة مكتبات Apache Spark في Azure Synapse Analytics
توفر المكتبات تعليمات برمجية قابلة لإعادة الاستخدام قد ترغب في تضمينها في البرامج أو المشروعات.
قد تحتاج إلى تحديث بيئة تجمع Apache Spark بدون خادم لأسباب مختلفة. على سبيل المثال، قد تجد ما يلي:
- أصدرت إحدى تبعياتك الأساسية إصدارا جديدا.
- تحتاج إلى حزمة إضافية لتدريب نموذج التعلم الآلي الخاص بك أو إعداد بياناتك.
- لقد وجدت حزمة أفضل ولم تعد بحاجة إلى الحزمة القديمة.
- قام فريقك ببناء حزمة مخصصة تحتاجها متوفرة في تجمع Apache Spark.
لتوفير تعليمات برمجية خاصة بجهة خارجية أو محلية الإنشاء لتطبيقاتك، يمكنك تثبيت مكتبة على أحد تجمعات Apache Spark بدون خادم أو جلسة عمل دفتر ملاحظات.
التثبيت الافتراضي
يحتوي Apache Spark in Azure Synapse Analytics على تثبيت Anacondas كامل بالإضافة إلى مكتبات إضافية. يمكن العثور على قائمة المكتبات الكاملة في دعم إصدار Apache Spark.
عند بدء تشغيل مثيل Spark، سيتم تضمين هذه المكتبات تلقائيا. يمكن إضافة حزم إضافية على مستوى مسبح Spark أو مستوى الجلسة.
حزم مساحة العمل
عند تطوير تطبيقات أو نماذج مخصصة، قد يقوم فريقك بتطوير العديد من أدوات التعليمات البرمجية مثل ملفات العجلات أو الجرة لحزم التعليمات البرمجية الخاصة بك.
في Synapse ، يمكن أن تكون حزم مساحة العمل ملفات عجلات أو جرة مخصصة أو خاصة. يمكنك تحميل هذه الحزم إلى مساحة العمل الخاصة بك وتعيينها لاحقا إلى تجمع Spark معين. بمجرد تعيينها، يتم تثبيت حزم مساحة العمل هذه تلقائيا على جميع جلسات تجمع Spark.
لمعرفة المزيد حول كيفية إدارة مكتبات مساحة العمل، قم بزيارة الأدلة الإرشادية التالية:
- حزم مساحة عمل Python: Upload ملفات عجلة Python كحزمة مساحة عمل ثم إضافة هذه الحزم لاحقا إلى تجمعات Apache Spark محددة بدون خادم.
- حزم مساحة عمل Scala/Java: Upload ملفات Scala وJava jar كحزمة مساحة عمل ثم إضافة هذه الحزم لاحقا إلى تجمعات Apache Spark محددة بدون خادم.
باقات حمام السباحة
في بعض الحالات، قد ترغب في توحيد مجموعة الحزم المستخدمة في تجمع Apache Spark معين. يمكن أن يكون هذا التوحيد القياسي مفيدا إذا تم تثبيت الحزم نفسها بشكل شائع بواسطة عدة أشخاص في فريقك.
باستخدام إمكانات إدارة تجمع Azure Synapse Analytics، يمكنك تكوين المجموعة الافتراضية من المكتبات التي ترغب في تثبيتها على تجمع Apache Spark بدون خادم. يتم تثبيت هذه المكتبات أعلى وقت التشغيل الأساسي.
حاليا ، يتم دعم إدارة التجمع فقط ل Python. بالنسبة إلى Python، تستخدم تجمعات Synapse Spark Conda لتثبيت تبعيات حزمة Python وإدارتها. عند تحديد مكتباتك على مستوى التجمع، يمكنك الآن توفير requirements.txt أو environment.yml. يتم استخدام ملف تكوين البيئة هذا في كل مرة يتم فيها إنشاء مثيل Spark من تجمع Spark هذا.
لمعرفة المزيد حول هذه القدرات، تفضل بزيارة الوثائق الخاصة بإدارة تجمع Python.
هام
- إذا كانت الحزمة التي تقوم بتثبيتها كبيرة أو تستغرق وقتا طويلا لتثبيتها، فهذا يؤثر على وقت بدء تشغيل مثيل Spark.
- لا يتم دعم تغيير إصدار PySpark أو Python أو Scala / Java أو .NET أو Spark.
- تثبيت الحزم من PyPI غير مدعوم داخل مساحات العمل التي تدعم DEP.
الحزم ذات نطاق الجلسة
في كثير من الأحيان، عند إجراء تحليل البيانات التفاعلي أو التعلم الآلي، قد تجد أنك ترغب في تجربة حزم أحدث أو قد تحتاج إلى حزم غير متوفرة بالفعل على تجمع Apache Spark. بدلا من تحديث تكوين التجمع، يمكن للمستخدمين الآن استخدام الحزم ذات نطاق جلسة العمل لإضافة تبعيات جلسة العمل وإدارتها وتحديثها.
تسمح الحزم ذات نطاق جلسة العمل للمستخدمين بتحديد تبعيات الحزمة في بداية جلسة العمل الخاصة بهم. عند تثبيت حزمة ذات نطاق جلسة عمل، فإن جلسة العمل الحالية فقط لديها حق الوصول إلى الحزم المحددة. ونتيجة لذلك، لن تؤثر هذه الحزم ذات نطاق الجلسة على الجلسات أو الوظائف الأخرى باستخدام نفس مجموعة Apache Spark. بالإضافة إلى ذلك ، يتم تثبيت هذه المكتبات أعلى وقت التشغيل الأساسي وحزم مستوى التجمع.
لمعرفة المزيد حول كيفية إدارة الحزم ذات نطاق الجلسة، قم بزيارة الأدلة الإرشادية التالية:
- حزم جلسات بايثون: في بداية الجلسة، قم بتوفير Conda environment.yml لتثبيت حزم Python إضافية من المستودعات الشائعة.
- حزم جلسات Scala/Java: في بداية الجلسة، قم بتوفير قائمة بملفات jar لتثبيتها باستخدام
%%configure.
الخطوات التالية
- عرض المكتبات الافتراضية: دعم إصدار Apache Spark