إنشاء Azure التعلم الآلي مجموعات البيانات من Azure Open Datasets

في هذه المقالة، ستتعرف على كيفية جلب بيانات الإثراء المنسقة إلى تجارب التعلم الآلي المحلية أو البعيدة باستخدام مجموعات بيانات Azure التعلم الآليومجموعات بيانات Azure المفتوحة.

من خلال إنشاء مجموعة بيانات Azure التعلم الآلي، يمكنك إنشاء مرجع إلى موقع مصدر البيانات، إلى جانب نسخة من بيانات التعريف الخاصة به. نظرا لأنه يتم تقييم مجموعات البيانات بشكل كسول ، وتظل البيانات في موقعها الحالي ، فإنك

  • لا تتحمل أي تكلفة تخزين إضافية.
  • لا تخاطر بتغيير مصادر بياناتك الأصلية عن غير قصد.
  • تحسين سرعات أداء سير عمل ML.

لفهم أين تتلاءم مجموعات البيانات مع سير العمل العام للوصول إلى البيانات في Azure التعلم الآلي، راجع مقالة بيانات الوصول الآمن.

مجموعات البيانات المفتوحة من Azure هي مجموعات بيانات عامة منسقة يمكنك استخدامها لإضافة ميزات خاصة بالسيناريو لإثراء حلولك التنبؤية وتحسين دقتها. راجع كتالوج مجموعات البيانات المفتوحة لبيانات المجال العام التي يمكن أن تساعدك في تدريب نماذج التعلم الآلي، مثل:

توجد مجموعات البيانات المفتوحة في السحابة على Microsoft Azure ويتم تضمينها في كل من Azure التعلم الآلي Python SDKواستوديو Azure التعلم الآلي.

المتطلبات الأساسية

لهذه المقالة ، تحتاج إلى:

ملاحظة

تحتوي بعض فئات مجموعة البيانات على تبعيات على حزمة azureml-dataprep ، والتي تتوافق فقط مع Python 64 بت. بالنسبة لمستخدمي Linux ، يتم دعم هذه الفئات فقط على التوزيعات التالية: Red Hat Enterprise Linux (7 ، 8) ، Ubuntu (14.04 ، 16.04 ، 18.04) ، Fedora (27 ، 28) ، Debian (8 ، 9) ، و CentOS (7).

إنشاء مجموعات بيانات باستخدام SDK

لإنشاء مجموعات بيانات Azure التعلم الآلي عبر فئات Azure Open Datasets في Python SDK، تأكد من تثبيت الحزمة باستخدام pip install azureml-opendatasets. يتم تمثيل كل مجموعة بيانات منفصلة بفئة خاصة بها في SDK، وتتوفر فئات معينة إما كAzure التعلم الآلي TabularDatasetFileDatasetأو كليهما. راجع الوثائق المرجعية للحصول على قائمة كاملة بالفئات opendatasets .

يمكنك استرداد فئات معينة opendatasets إما ك TabularDataset أو ، مما يسمح لك بمعالجة و / أو FileDatasetتنزيل الملفات مباشرة. يمكن للفئات get_tabular_dataset() الأخرى الحصول على مجموعة بيانات فقط باستخدام أو get_file_dataset() وظائف من Datasetالفئة في Python SDK.

توضح التعليمة البرمجية التالية أن فئة MNIST opendatasets يمكن إرجاع إما a TabularDataset أو FileDataset.

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

في هذا المثال ، لا تتوفر فئة مرض السكري opendatasets إلا كملف TabularDataset، وبالتالي استخدام get_tabular_dataset().


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

تسجيل مجموعات البيانات

سجل مجموعة بيانات Azure التعلم الآلي مع مساحة العمل الخاصة بك، حتى تتمكن من مشاركتها مع الآخرين وإعادة استخدامها عبر التجارب في مساحة العمل الخاصة بك. عند تسجيل مجموعة بيانات Azure التعلم الآلي تم إنشاؤها من مجموعات البيانات المفتوحة، لا يتم تنزيل أي بيانات على الفور، ولكن سيتم الوصول إلى البيانات لاحقا عند الطلب (أثناء التدريب، على سبيل المثال) من موقع تخزين مركزي.

لتسجيل مجموعات البيانات الخاصة بك مع مساحة عمل، استخدم الطريقة register() .

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

إنشاء مجموعات بيانات باستخدام الاستوديو

يمكنك أيضا إنشاء مجموعات بيانات Azure التعلم الآلي من Azure Open Datasets باستخدام استوديو Azure التعلم الآلي، وهي واجهة ويب موحدة تتضمن أدوات التعلم الآلي لتنفيذ سيناريوهات علوم البيانات لممارسي علوم البيانات من جميع مستويات المهارات.

ملاحظة

يتم تسجيل مجموعات البيانات التي تم إنشاؤها من خلال استوديو Azure التعلم الآلي تلقائيا في مساحة العمل.

  1. في مساحة العمل، حدد علامة التبويب مجموعات البيانات ضمن الأصول. في القائمة المنسدلة إنشاء مجموعة بيانات ، حدد من فتح مجموعات البيانات.

    Open Dataset with the UI

  2. حدد مجموعة بيانات عن طريق تحديد اللوحة الخاصة بها. (لديك خيار التصفية باستخدام شريط البحث.) حدد التالي.

    Choose dataset

  3. اختر اسما لتسجيل مجموعة البيانات تحته، وقم اختياريا بتصفية البيانات باستخدام عوامل التصفية المتوفرة. في هذه الحالة، بالنسبة لمجموعة بيانات العطلات الرسمية ، يمكنك تصفية الفترة الزمنية إلى سنة واحدة ورمز البلد إلى الولايات المتحدة فقط. راجع كتالوج Azure Open Datasets للحصول على تفاصيل البيانات مثل أوصاف الحقول والنطاقات الزمنية. حدد "Create".

    Set dataset params and create dataset

    تتوفر مجموعة البيانات الآن في مساحة العمل ضمن مجموعات البيانات. يمكنك استخدامه بنفس طريقة استخدام مجموعات البيانات الأخرى التي أنشأتها.

الوصول إلى مجموعات البيانات لتجاربك

استخدم مجموعات البيانات الخاصة بك في تجارب التعلم الآلي للتدريب على نماذج التعلم الآلي. تعرف على المزيد حول كيفية التدريب باستخدام مجموعات البيانات.

أمثلة على دفاتر الملاحظات

للحصول على أمثلة وعروض توضيحية لوظائف مجموعات البيانات المفتوحة، راجع نماذج دفاتر الملاحظات هذه.

الخطوات التالية