تعقب تجارب التعلم الآلي ونماذجه من خلال MLflow

مقالة
02/21/2024

في هذه المقالة، ستتعلم كيفية استخدام MLflow لتعقب تجاربك وتشغيلها في مساحات عمل Azure التعلم الآلي.

التعقب هو عملية حفظ المعلومات ذات الصلة حول التجارب التي تقوم بتشغيلها. تختلف المعلومات المحفوظة (بيانات التعريف) استنادا إلى مشروعك، ويمكن أن تتضمن:

رمز
تفاصيل البيئة (مثل إصدار نظام التشغيل، حزم Python)
بيانات الإدخال
تكوينات المعلمات
النماذج
مقاييس تقييم
مرئيات التقييم (مثل مصفوفات الإرباك ومخططات الأهمية)
نتائج التقييم (بما في ذلك بعض تنبؤات التقييم)

عند العمل مع الوظائف في Azure التعلم الآلي، يتعقب Azure التعلم الآلي تلقائيا بعض المعلومات حول تجاربك، مثل التعليمات البرمجية والبيئة وبيانات الإدخال والإخراج. ومع ذلك، بالنسبة للآخرين مثل النماذج والمعلمات والمقاييس، يحتاج منشئ النموذج إلى تكوين تعقبها، لأنها خاصة بالسيناريو المحدد.

إشعار

إذا كنت ترغب في تعقب التجارب التي يتم تشغيلها على Azure Databricks، فشاهد تعقب تجارب التعلم الآلي من Azure Databricks باستخدام MLflow وAzure التعلم الآلي. للتعرف على تعقب التجارب التي يتم تشغيلها على Azure Synapse Analytics، راجع تعقب تجارب التعلم الآلي من Azure Synapse Analytics باستخدام MLflow وAzure التعلم الآلي.

فوائد تتبع التجارب

نوصي بشدة بأن يتتبع ممارسو التعلم الآلي التجارب، سواء كنت تتدرب على الوظائف في Azure التعلم الآلي أو تتدرب بشكل تفاعلي في دفاتر الملاحظات. يسمح لك تعقب التجربة ب:

نظم جميع تجارب التعلم الآلي في مكان واحد. يمكنك بعد ذلك البحث عن التجارب وتصفيتها والتنقل لأسفل للاطلاع على تفاصيل حول التجارب التي قمت بتشغيلها من قبل.
مقارنة التجارب وتحليل النتائج وتصحيح تدريب النموذج مع القليل من العمل الإضافي.
إعادة إنتاج التجارب أو إعادة تشغيلها للتحقق من صحة النتائج.
قم بتحسين التعاون، حيث يمكنك معرفة ما يفعله زملاء الفريق الآخرون، ومشاركة نتائج التجربة، والوصول إلى بيانات التجربة برمجيا.

لماذا تستخدم MLflow لتتبع التجارب؟

مساحات عمل Azure التعلم الآلي متوافقة مع MLflow، ما يعني أنه يمكنك استخدام MLflow لتعقب عمليات التشغيل والمقاييس والمعلمات والبيانات الاصطناعية داخل مساحات عمل Azure التعلم الآلي. تتمثل إحدى الميزات الرئيسية لاستخدام MLflow للتعقب في أنك لا تحتاج إلى تغيير إجراءات التدريب للعمل مع Azure التعلم الآلي أو إدخال أي بناء جملة خاص بالسحابة.

لمزيد من المعلومات حول جميع وظائف MLflow وAzure التعلم الآلي المدعومة، راجع MLflow وAzure التعلم الآلي.

القيود

قد لا تتوفر بعض الأساليب المتوفرة في MLflow API عند الاتصال ب Azure التعلم الآلي. للحصول على تفاصيل حول العمليات المدعومة وغير المدعومة، راجع مصفوفة الدعم للاستعلام عن عمليات التشغيل والتجارب.

المتطلبات الأساسية

اشتراك Azure. في حال لم يكن لديك اشتراك Azure، فأنشئ حساباً مجانيّاً قبل البدء. جرّب الإصدار المجاني أو المدفوع من «التعلم الآلي» من Azure.

قم بتثبيت حزمة mlflow MLflow SDK والمكون الإضافي Azure التعلم الآلي ل MLflow azureml-mlflow.
```
pip install mlflow azureml-mlflow
```
تلميح

يمكنك استخدام الحزمة mlflow-skinny ، وهي حزمة MLflow خفيفة الوزن دون تخزين SQL أو الخادم أو واجهة المستخدم أو تبعيات علم البيانات. mlflow-skinny يوصى به للمستخدمين الذين يحتاجون في المقام الأول إلى قدرات تتبع وتسجيل MLflow دون استيراد مجموعة كاملة من الميزات بما في ذلك عمليات النشر.
مساحة عمل للتعلم الآلي من Microsoft Azure. يمكنك إنشاء واحد باتباع البرنامج التعليمي إنشاء موارد التعلم الآلي.
- تعرف على أذونات الوصول التي تحتاجها لتنفيذ عمليات MLflow في مساحة العمل الخاصة بك.
إذا كنت تقوم بإجراء تعقب عن بعد (أي تعقب التجارب التي تعمل خارج Azure التعلم الآلي)، فبادر بتكوين MLflow للإشارة إلى تعقب URI لمساحة عمل Azure التعلم الآلي. لمزيد من المعلومات حول كيفية توصيل MLflow بمساحة العمل الخاصة بك، راجع تكوين MLflow ل Azure التعلم الآلي.

تكوين التجربة

ينظم MLflow المعلومات في التجارب والأعمال (تسمى عمليات التشغيل الوظائف في Azure التعلم الآلي). بشكل افتراضي، يتم تسجيل عمليات التشغيل إلى تجربة تسمى Default يتم إنشاؤها تلقائيا لك. يمكنك تكوين التجربة حيث يحدث التعقب.

العمل بشكل تفاعلي
العمل مع الوظائف

للتدريب التفاعلي، كما هو الحال في دفتر ملاحظات Jupyter، استخدم الأمر mlflow.set_experiment()MLflow . على سبيل المثال، تقوم القصاصة البرمجية التالية بتكوين تجربة:

experiment_name = 'hello-world-example'
mlflow.set_experiment(experiment_name)

لإرسال المهام، عند استخدام Azure التعلم الآلي CLI أو SDK، قم بتعيين اسم التجربة باستخدام experiment_name خاصية الوظيفة. لا يتعين عليك تكوينه في البرنامج النصي للتدريب.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

تكوين التشغيل

يتعقب Azure التعلم الآلي أي مهمة تدريب في ما يسميه MLflow تشغيلا. استخدم عمليات التشغيل لالتقاط جميع المعالجات التي تقوم بها وظيفتك.

العمل بشكل تفاعلي
العمل مع الوظائف

عندما تعمل بشكل تفاعلي، يبدأ MLflow في تعقب روتين التدريب بمجرد محاولة تسجيل المعلومات التي تتطلب تشغيلا نشطا. على سبيل المثال، يبدأ تعقب MLflow عند تسجيل مقياس أو معلمة أو بدء دورة تدريب، ويتم تمكين وظيفة التسجيل التلقائي ل Mlflow. ومع ذلك، من المفيد عادة بدء التشغيل بشكل صريح، خاصة إذا كنت تريد تسجيل الوقت الإجمالي للتجربة في حقل المدة. لبدء التشغيل بشكل صريح، استخدم mlflow.start_run().

سواء قمت ببدء التشغيل يدويا أم لا، تحتاج في النهاية إلى إيقاف التشغيل، بحيث يعرف MLflow أن تشغيل تجربتك قد تم ويمكنه وضع علامة على حالة التشغيل على أنها مكتملة. لإيقاف تشغيل، استخدم mlflow.end_run().

نوصي بشدة ببدء التشغيل يدويا، بحيث لا تنسى إنهائها عند العمل في دفاتر الملاحظات.

لبدء تشغيل يدويا وإنهاءه عند الانتهاء من العمل في دفتر الملاحظات:
```
mlflow.start_run()

# Your code

mlflow.end_run()
```
من المفيد عادة استخدام نموذج مدير السياق لمساعدتك على تذكر إنهاء التشغيل:
```
with mlflow.start_run() as run:
    # Your code
```
عند بدء تشغيل جديد باستخدام mlflow.start_run()، قد يكون من المفيد تحديد المعلمة run_name ، والتي تترجم لاحقا إلى اسم التشغيل في واجهة مستخدم Azure التعلم الآلي وتساعدك على تحديد التشغيل بشكل أسرع:
```
with mlflow.start_run(run_name="hello-world-example") as run:
    # Your code
```

تسمح لك وظائف Azure التعلم الآلي بإرسال إجراءات التدريب أو الاستدلال طويلة الأمد كعمليات تنفيذ معزولة وقابلة للتكرار.

إنشاء روتين تدريبي

عند العمل مع المهام، عادة ما تضع كل منطق التدريب الخاص بك كملفات داخل مجلد، على سبيل المثال src. أحد هذه الملفات هو ملف Python مع نقطة إدخال التعليمات البرمجية للتدريب. يوضح المثال التالي مثالا hello_world.py :

# imports
import os
import mlflow

from random import random

# define functions
def main():
    mlflow.log_param("hello_param", "world")
    mlflow.log_metric("hello_metric", random())
    os.system(f"echo 'hello world' > helloworld.txt")
    mlflow.log_artifact("helloworld.txt")


# run functions
if __name__ == "__main__":
    # run main function
    main()

لا يستخدم mlflow.start_run() مثال التعليمات البرمجية السابق ولكن إذا تم استخدامه، فإن MLflow يعيد استخدام التشغيل النشط الحالي. لذلك، لا تحتاج إلى إزالة السطر الذي يستخدم mlflow.start_run() إذا كنت تقوم بترحيل التعليمات البرمجية إلى Azure التعلم الآلي.

إضافة تتبع إلى روتينك

استخدم MLflow SDK لتعقب أي مقياس أو معلمة أو بيانات اصطناعية أو نماذج. للحصول على أمثلة حول كيفية تسجيل هذه، راجع مقاييس السجل والمعلمات والملفات باستخدام MLflow.

تأكد من تثبيت MLflow على بيئة وظيفتك

جميع بيئات Azure التعلم الآلي مثبت عليها بالفعل MLflow لك، لذلك لا يلزم اتخاذ أي إجراء إذا كنت تستخدم بيئة منسقة. ومع ذلك، إذا كنت تريد استخدام بيئة مخصصة:

conda.yaml إنشاء ملف باستخدام التبعيات التي تحتاجها:

channels:
- conda-forge
dependencies:
- python=3.8.5
- pip
- pip:
  - mlflow
  - azureml-mlflow
  - fastparquet
  - cloudpickle==1.6.0
  - colorama==0.4.4
  - dask==2023.2.0

الرجوع إلى البيئة في الوظيفة التي تستخدمها.

تكوين اسم وظيفتك

استخدم معلمة display_name وظائف azure التعلم الآلي لتكوين اسم التشغيل.

استخدم الخاصية display_name لتكوين المهمة.

Azure CLI
Python SDK

لإرسال المهمة، قم بإنشاء ملف YAML مع تعريف الوظيفة في job.yml ملف. يجب إنشاء هذا الملف خارج الدليل src.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

from azure.ai.ml import command, Environment

command_job = command(
    code="src",
    command="echo "hello world",
    environment=Environment(image="library/python:latest"),
    compute="cpu-cluster",
    display_name="hello-world-example"
)

تأكد من أنك لا تستخدم mlflow.start_run(run_name="") داخل روتين التدريب الخاص بك.

إرسال المهمة

أولا، اتصل بمساحة عمل Azure التعلم الآلي حيث ستعمل.
- Azure CLI
- Python SDK
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>
```
مساحة العمل هي المورد ذو المستوى الأعلى للتعلم الآلي من Microsoft Azure، حيث توفر مكانًا مركزيًا للعمل مع جميع البيانات الاصطناعية التي تنشئها عند استخدام التعلم الآلي من Microsoft Azure. في هذا القسم، يمكنك الاتصال بمساحة العمل حيث ستقوم بتنفيذ مهام النشر.
1. استيراد المكتبات المطلوبة:
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential
```
2. تكوين تفاصيل مساحة العمل والحصول على مؤشر لمساحة العمل:
```
subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
```
إرسال المهمة
- Azure CLI
- Python SDK
استخدم Azure التعلم الآلي CLI لإرسال وظيفتك. الوظائف التي تستخدم MLflow وتعمل على Azure التعلم الآلي تسجيل أي معلومات تعقب تلقائيا إلى مساحة العمل. افتح المحطة الطرفية واستخدم التعليمات البرمجية التالية لإرسال المهمة.
```
az ml job create -f job.yml --web
```
استخدم Python SDK لإرسال وظيفتك. الوظائف التي تستخدم MLflow وتعمل على Azure التعلم الآلي تسجيل أي معلومات تعقب تلقائيا إلى مساحة العمل.
```
returned_job = ml_client.jobs.create_or_update(command_job)
returned_job.studio_url
```
مراقبة تقدم المهمة في Azure التعلم الآلي studio.

تمكين التسجيل التلقائي ل MLflow

يمكنك تسجيل المقاييس والمعلمات والملفات باستخدام MLflow يدويا. ومع ذلك، يمكنك أيضا الاعتماد على إمكانية التسجيل التلقائي ل MLflow. يقرر كل إطار عمل للتعلم الآلي يدعمه MLflow ما يجب تتبعه تلقائيا نيابة عنك.

لتمكين التسجيل التلقائي، قم بإدراج التعليمات البرمجية التالية قبل التعليمات البرمجية للتدريب:

mlflow.autolog()

عرض المقاييس والبيانات الاصطناعية في مساحة عملك

تعقب المقاييس والبيانات الاصطناعية من تسجيل MLflow في مساحة عملك. يمكنك عرضها والوصول إليها في الاستوديو في أي وقت أو الوصول إليها برمجيا عبر MLflow SDK.

لعرض المقاييس والبيانات الاصطناعية في الاستوديو:

انتقل إلى Azure التعلم الآلي studio.
انتقل إلى مساحة العمل الخاصة بك.
ابحث عن التجربة بالاسم في مساحة العمل الخاصة بك.
حدد المقاييس المسجلة لعرض المخططات في الجانب الأيمن. يمكنك تخصيص المخططات عن طريق تطبيق التجانس أو تغيير اللون أو رسم مقاييس متعددة على رسم بياني واحد. يمكنك أيضًا تغيير حجم التخطيط وإعادة ترتيبه كما تريد.
بمجرد إنشاء طريقة العرض التي تريدها، احفظها لاستخدامها في المستقبل وشاركها مع زملائك في الفريق، باستخدام ارتباط مباشر.

للوصول إلى المقاييس والمعلمات والبيانات الاصطناعية أو الاستعلام بها برمجيا عبر MLflow SDK، استخدم mlflow.get_run().

import mlflow

run = mlflow.get_run("<RUN_ID>")

metrics = run.data.metrics
params = run.data.params
tags = run.data.tags

print(metrics, params, tags)

تلميح

بالنسبة للمقاييس، سيرجع المثال السابق التعليمات البرمجية فقط القيمة الأخيرة لمقياس معين. إذا كنت تريد استرداد كافة قيم مقياس معين، فاستخدم mlflow.get_metric_history الأسلوب . لمزيد من المعلومات حول استرداد قيم المقياس، راجع الحصول على المعلمات والمقاييس من التشغيل.

لتنزيل البيانات الاصطناعية التي قمت بتسجيلها، مثل الملفات والنماذج، استخدم mlflow.artifacts.download_artifacts().

mlflow.artifacts.download_artifacts(run_id="<RUN_ID>", artifact_path="helloworld.txt")

لمزيد من المعلومات حول كيفية استرداد أو مقارنة المعلومات من التجارب وتشغيلها في Azure التعلم الآلي، باستخدام MLflow، راجع الاستعلام عن التجارب وتشغيلها باستخدام MLflow.

Share via

تعقب تجارب التعلم الآلي ونماذجه من خلال MLflow

فوائد تتبع التجارب

لماذا تستخدم MLflow لتتبع التجارب؟

القيود

المتطلبات الأساسية

تكوين التجربة

تكوين التشغيل

إنشاء روتين تدريبي

إضافة تتبع إلى روتينك

تأكد من تثبيت MLflow على بيئة وظيفتك

تكوين اسم وظيفتك

إرسال المهمة

تمكين التسجيل التلقائي ل MLflow

عرض المقاييس والبيانات الاصطناعية في مساحة عملك

الموارد الإضافية

Share via

تعقب تجارب التعلم الآلي ونماذجه من خلال MLflow

فوائد تتبع التجارب

لماذا تستخدم MLflow لتتبع التجارب؟

القيود

المتطلبات الأساسية

تكوين التجربة

تكوين التشغيل

تمكين التسجيل التلقائي ل MLflow

عرض المقاييس والبيانات الاصطناعية في مساحة عملك

المحتوى ذو الصلة

الموارد الإضافية