البرنامج التعليمي: تشغيل وظيفة Batch من خلال Data Factory باستخدام Batch Explorer وStorage Explorer وPython

مقالة
03/05/2024

يرشدك هذا البرنامج التعليمي خلال إنشاء وتشغيل مسار Azure Data Factory الذي يقوم بتشغيل حمل عمل Azure Batch. يتم تشغيل برنامج Python النصي على عقد Batch للحصول على إدخال قيمة مفصولة بفاصلة (CSV) من حاوية تخزين Azure Blob، ومعالجة البيانات، وكتابة الإخراج إلى حاوية تخزين مختلفة. يمكنك استخدام Batch Explorer لإنشاء تجمع الدفعات والعقد، وAzure Storage Explorer للعمل مع حاويات التخزين والملفات.

في هذا البرنامج التعليمي، تتعلم كيفية:

استخدم Batch Explorer لإنشاء تجمع الدفعات والعقد.
استخدم Storage Explorer لإنشاء حاويات تخزين وتحميل ملفات الإدخال.
تطوير برنامج نصي Python لمعالجة بيانات الإدخال وإنتاج الإخراج.
إنشاء مسار Data Factory الذي يقوم بتشغيل حمل عمل Batch.
استخدم Batch Explorer لإلقاء نظرة على ملفات سجل الإخراج.

المتطلبات الأساسية

حساب Azure مع اشتراك نشط. في حال لم يكن لديك اشتراك Azure، أنشئ حسابًا مجّانيًّا.
حساب Batch مع حساب Azure Storage مرتبط. يمكنك إنشاء الحسابات باستخدام أي من الطرق التالية: مدخل Microsoft Azure | CLI | قالب | Bicep | ARM Terraform.
مثيل Data Factory. لإنشاء مصنع البيانات، اتبع الإرشادات الواردة في إنشاء مصنع بيانات.
تم تنزيل Batch Explorer وتثبيته.
تم تنزيل مستكشف التخزين وتثبيته.
Python 3.8 أو أعلى، مع حزمة azure-storage-blob المثبتة باستخدام pip.
مجموعة بيانات الإدخال iris.csv التي تم تنزيلها من GitHub.

استخدام Batch Explorer لإنشاء تجمع الدفعات والعقد

استخدم Batch Explorer لإنشاء مجموعة من عقد الحوسبة لتشغيل حمل العمل الخاص بك.

سجل الدخول إلى Batch Explorer باستخدام بيانات اعتماد Azure.
حدد حساب Batch الخاص بك.
حدد Pools على الشريط الجانبي الأيسر، ثم حدد الأيقونة + لإضافة تجمع.
أكمل نموذج إضافة تجمع إلى الحساب كما يلي:
- ضمن المعرف، أدخل custom-activity-pool.
- ضمن Dedicated nodes، أدخل 2.
- بالنسبة إلى Select an operating system configuration، حدد علامة التبويب Data science ، ثم حدد Dsvm Win 2019.
- لاختيار حجم جهاز ظاهري، حدد Standard_F2s_v2.
- بالنسبة إلى مهمة البدء، حدد إضافة مهمة بدء. في شاشة مهمة البدء، ضمن سطر الأوامر، أدخل cmd /c "pip install azure-storage-blob pandas"، ثم حدد تحديد. يقوم هذا الأمر بتثبيت الحزمة azure-storage-blob على كل عقدة عند بدء تشغيلها.
حدد حفظ وإغلاق.

استخدام Storage Explorer لإنشاء حاويات كائن ثنائي كبير الحجم

استخدم Storage Explorer لإنشاء حاويات كائن ثنائي كبير الحجم لتخزين ملفات الإدخال والإخراج، ثم تحميل ملفات الإدخال.

سجل الدخول إلى Storage Explorer باستخدام بيانات اعتماد Azure.
في الشريط الجانبي الأيسر، حدد موقع حساب التخزين المرتبط بحساب Batch الخاص بك وقم بتوسيعه.
انقر بزر الماوس الأيمن فوق Blob Containers، وحدد Create Blob Container، أو حدد Create Blob Container من Actions في أسفل الشريط الجانبي.
أدخل الإدخال في حقل الإدخال.
إنشاء حاوية كائن ثنائي كبير الحجم أخرى باسم الإخراج.
حدد حاوية الإدخال، ثم حدد Upload>Upload files في الجزء الأيمن.
في شاشة تحميل الملفات ، ضمن الملفات المحددة، حدد علامة الحذف ... بجوار حقل الإدخال.
استعرض للوصول إلى موقع ملف iris.csv الذي تم تنزيله، وحدد فتح، ثم حدد تحميل.

تطوير برنامج نصي Python

يقوم البرنامج النصي Python التالي بتحميل ملف مجموعة بيانات iris.csv من حاوية إدخال Storage Explorer، ويعالج البيانات، ويحفظ النتائج في حاوية الإخراج.

يحتاج البرنامج النصي إلى استخدام سلسلة الاتصال لحساب Azure Storage المرتبط بحساب Batch الخاص بك. للحصول على سلسلة الاتصال:

في مدخل Microsoft Azure، ابحث عن اسم حساب التخزين المرتبط بحساب Batch وحدده.
في صفحة حساب التخزين، حدد مفاتيح الوصول من جزء التنقل الأيمن ضمن الأمان + الشبكات.
ضمن key1، حدد Show بجوار الاتصال ion string، ثم حدد رمز Copy لنسخ سلسلة الاتصال.

الصق سلسلة الاتصال في البرنامج النصي التالي، واستبدل <storage-account-connection-string> العنصر النائب. احفظ البرنامج النصي كملف يسمى main.py.

هام

لا ينصح بكشف مفاتيح الحساب في مصدر التطبيق لاستخدام الإنتاج. يجب تقييد الوصول إلى بيانات الاعتماد والإشارة إليها في التعليمات البرمجية باستخدام المتغيرات أو ملف التكوين. من الأفضل تخزين مفاتيح حساب الدفعة والتخزين في Azure Key Vault.

# Load libraries
from azure.storage.blob import BlobClient
import pandas as pd

# Define parameters
connectionString = "<storage-account-connection-string>"
containerName = "output"
outputBlobName	= "iris_setosa.csv"

# Establish connection with the blob storage account
blob = BlobClient.from_connection_string(conn_str=connectionString, container_name=containerName, blob_name=outputBlobName)

# Load iris dataset from the task node
df = pd.read_csv("iris.csv")

# Take a subset of the records
df = df[df['Species'] == "setosa"]

# Save the subset of the iris dataframe locally in the task node
df.to_csv(outputBlobName, index = False)

with open(outputBlobName, "rb") as data:
    blob.upload_blob(data, overwrite=True)

قم بتشغيل البرنامج النصي محليا لاختبار الوظيفة والتحقق من صحتها.

python main.py

يجب أن ينتج البرنامج النصي ملف إخراج يسمى iris_setosa.csv يحتوي فقط على سجلات البيانات التي تحتوي على الأنواع = setosa. بعد التحقق من أنه يعمل بشكل صحيح، قم بتحميل ملف البرنامج النصي main.py إلى حاوية إدخال Storage Explorer.

إعداد مسار Data Factory

إنشاء مسار Data Factory الذي يستخدم برنامج Python النصي والتحقق من صحته.

الحصول على معلومات الحساب

يستخدم مسار Data Factory أسماء حسابات الدفعة والتخزين وقيم مفتاح الحساب ونقطة نهاية حساب Batch. للحصول على هذه المعلومات من مدخل Microsoft Azure:

من شريط Azure Search، ابحث عن اسم حساب Batch وحدده.
في صفحة حساب Batch، حدد Keys من جزء التنقل الأيمن.
في صفحة Keys ، انسخ القيم التالية:
- حساب الدفعة
- نقطة نهاية الحساب
- مفتاح الوصول الأساسي
- Storage account name
- Key1

إنشاء وتشغيل التدفقات.

إذا لم يكن Azure Data Factory Studio قيد التشغيل بالفعل، فحدد Launch studio في صفحة Data Factory في مدخل Microsoft Azure.
في Data Factory Studio، حدد أيقونة قلم رصاص Author في جزء التنقل الأيمن.
ضمن موارد المصنع، حدد الأيقونة + ، ثم حدد البنية الأساسية لبرنامج ربط العمليات التجارية.
في جزء Propertiesعلى اليمين، قم بتغيير اسم المسار إلى Run Python.
في جزء Activities ، قم بتوسيع Batch Service، واسحب النشاط المخصص إلى سطح مصمم البنية الأساسية لبرنامج ربط العمليات التجارية.
أسفل لوحة المصمم، في علامة التبويب عام ، أدخل testPipeline ضمن الاسم.
حدد علامة التبويب Azure Batch، ثم حدد جديد.
أكمل نموذج الخدمة المرتبطة الجديدة كما يلي:
- الاسم: أدخل اسما للخدمة المرتبطة، مثل AzureBatch1.
- مفتاح الوصول: أدخل مفتاح الوصول الأساسي الذي نسخته من حساب Batch الخاص بك.
- اسم الحساب: أدخل اسم حساب Batch الخاص بك.
- عنوان URL للدفعة: أدخل نقطة نهاية الحساب التي نسختها من حساب Batch الخاص بك، مثل https://batchdotnet.eastus.batch.azure.com.
- اسم التجمع: أدخل custom-activity-pool، التجمع الذي أنشأته في Batch Explorer.
- اسم الخدمة المرتبطة بحساب التخزين: حدد جديد. في الشاشة التالية، أدخل اسما لخدمة التخزين المرتبطة، مثل AzureBlobStorage1، وحدد اشتراك Azure وحساب التخزين المرتبط، ثم حدد إنشاء.
في أسفل شاشة خدمة Batch New المرتبطة، حدد Test connection. عند نجاح الاتصال، حدد Create.
حدد علامة التبويب الإعدادات، وأدخل الإعدادات التالية أو حددها:
- الأمر: أدخل cmd /C python main.py.
- الخدمة المرتبطة بالموارد: حدد خدمة التخزين المرتبطة التي أنشأتها، مثل AzureBlobStorage1، واختبر الاتصال للتأكد من نجاحها.
- مسار المجلد: حدد أيقونة المجلد، ثم حدد حاوية الإدخال وحدد موافق. يتم تنزيل الملفات من هذا المجلد من الحاوية إلى عقد التجمع قبل تشغيل البرنامج النصي Python.
حدد Validate على شريط أدوات البنية الأساسية لبرنامج ربط العمليات التجارية للتحقق من صحة البنية الأساسية لبرنامج ربط العمليات التجارية.
حدد Debug لاختبار المسار والتأكد من أنه يعمل بشكل صحيح.
حدد نشر الكل لنشر البنية الأساسية لبرنامج ربط العمليات التجارية.
حدد إضافة مشغل، ثم حدد المشغل الآن لتشغيل المسار، أو جديد/تحرير لجدولته.

استخدام Batch Explorer لعرض ملفات السجل

إذا كان تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية ينتج تحذيرات أو أخطاء، يمكنك استخدام Batch Explorer لإلقاء نظرة على stdout.txt وملفات الإخراج stderr.txt لمزيد من المعلومات.

في Batch Explorer، حدد Jobs من الشريط الجانبي الأيسر.
حدد وظيفة adfv2-custom-activity-pool.
حدد مهمة بها رمز إنهاء فشل.
اعرض ملفات stdout.txt وملفات stderr.txt للتحقيق في مشكلتك وتشخيصها.

تنظيف الموارد

حسابات الدفعات والوظائف والمهام مجانية، ولكن عقد الحوسبة تتحمل رسوما حتى عندما لا تشغل وظائف. من الأفضل تخصيص تجمعات العقد فقط حسب الحاجة، وحذف التجمعات عند الانتهاء منها. يؤدي حذف التجمعات إلى حذف جميع مخرجات المهام على العقد والعقد نفسها.

تظل ملفات الإدخال والإخراج في حساب التخزين ويمكن أن تتحمل رسوما. عندما لم تعد بحاجة إلى الملفات، يمكنك حذف الملفات أو الحاويات. عندما لم تعد بحاجة إلى حساب Batch أو حساب تخزين مرتبط، يمكنك حذفه.

الخطوات التالية

في هذا البرنامج التعليمي، تعلمت كيفية استخدام برنامج نصي Python مع Batch Explorer وStorage Explorer وData Factory لتشغيل حمل عمل Batch. لمزيد من المعلومات حول Data Factory، راجع ما هو Azure Data Factory؟

Share via