إنشاء مجموعات بيانات Azure التعلم الآلي
في هذه المقالة، ستتعرف على كيفية إنشاء مجموعات بيانات Azure التعلم الآلي للوصول إلى البيانات الخاصة بتجاربك المحلية أو البعيدة باستخدام Azure التعلم الآلي Python SDK. لفهم أين تتلاءم مجموعات البيانات مع سير العمل العام للوصول إلى البيانات في Azure التعلم الآلي، راجع مقالة بيانات الوصول الآمن.
من خلال إنشاء مجموعة بيانات، يمكنك إنشاء مرجع إلى موقع مصدر البيانات، إلى جانب نسخة من بيانات التعريف الخاصة به. نظرا لأن البيانات تظل في موقعها الحالي، فلن تتحمل أي تكلفة تخزين إضافية، ولا تخاطر بسلامة مصادر بياناتك. كما يتم تقييم مجموعات البيانات بشكل كسول ، مما يساعد في سرعات أداء سير العمل. يمكنك إنشاء مجموعات بيانات من مخازن البيانات وعناوين URL العامة ومجموعات البيانات المفتوحة في Azure.
للحصول على تجربة منخفضة التعليمات البرمجية، قم بإنشاء Azure التعلم الآلي مجموعات البيانات باستخدام استوديو Azure التعلم الآلي.
باستخدام مجموعات بيانات Azure التعلم الآلي، يمكنك:
احتفظ بنسخة واحدة من البيانات في وحدة التخزين الخاصة بك، مشار إليها بواسطة مجموعات البيانات.
يمكنك الوصول إلى البيانات بسلاسة أثناء تدريب النموذج دون القلق بشأن سلاسل الاتصال أو مسارات البيانات. تعرف على المزيد حول كيفية التدريب باستخدام مجموعات البيانات.
مشاركة البيانات والتعاون مع المستخدمين الآخرين.
المتطلبات الأساسية
لإنشاء مجموعات البيانات والعمل معها، تحتاج إلى:
اشتراك Azure. في حال لم يكن لديك اشتراك Azure، أنشئ حسابًا مجّانيًّا قبل البدء. جرب الإصدار المجاني أو المدفوع من Azure التعلم الآلي.
Azure التعلم الآلي SDK for Python مثبتة، والتي تتضمن حزمة azureml-datasets.
- قم بإنشاء مثيل حوسبة Azure التعلم الآلي، وهو عبارة عن بيئة تطوير تم تكوينها وإدارتها بالكامل تتضمن دفاتر ملاحظات مدمجة ومجموعة SDK مثبتة بالفعل.
أو
- اعمل على دفتر Jupyter المحمول الخاص بك وقم بتثبيت SDK بنفسك.
ملاحظة
تحتوي بعض فئات مجموعة البيانات على تبعيات على حزمة azureml-dataprep ، والتي تتوافق فقط مع Python 64 بت. إذا كنت تقوم بالتطوير على Linux ، فإن هذه الفئات تعتمد على .NET Core 2.1 ، ويتم دعمها فقط على توزيعات محددة. لمزيد من المعلومات حول التوزيعات المدعومة، راجع العمود .NET Core 2.1 في مقالة تثبيت .NET على Linux.
هام
على الرغم من أن الحزمة قد تعمل على الإصدارات القديمة من توزيعات Linux ، إلا أننا لا نوصي باستخدام توزيعة خارج الدعم السائد. قد تحتوي التوزيعات التي هي خارج نطاق الدعم السائد على ثغرات أمنية، لأنها لا تتلقى آخر التحديثات. نوصي باستخدام أحدث إصدار مدعوم من توزيعتك متوافق مع .
إرشادات حجم الحوسبة
عند إنشاء مجموعة بيانات، راجع قوة معالجة الحوسبة وحجم بياناتك في الذاكرة. حجم بياناتك في التخزين ليس هو نفسه حجم البيانات في إطار البيانات. على سبيل المثال، يمكن أن تتوسع البيانات الموجودة في ملفات CSV حتى 10 أضعاف في إطار بيانات، بحيث يمكن أن يصبح ملف CSV بسعة 1 غيغابايت 10 غيغابايت في إطار بيانات.
إذا تم ضغط بياناتك ، فيمكن أن تتوسع أكثر ؛ يمكن توسيع 20 غيغابايت من البيانات المتناثرة نسبيا المخزنة بتنسيق الباركيه المضغوط إلى ~ 800 غيغابايت في الذاكرة. نظرا لأن ملفات Parquet تخزن البيانات بتنسيق عمودي ، إذا كنت بحاجة فقط إلى نصف الأعمدة ، فأنت تحتاج فقط إلى تحميل ~ 400 غيغابايت في الذاكرة.
تعرف على المزيد حول تحسين معالجة البيانات في Azure التعلم الآلي.
أنواع مجموعات البيانات
هناك نوعان من مجموعات البيانات ، استنادا إلى كيفية استهلاك المستخدمين لها في التدريب. FileDatasets و TabularDatasets. يمكن استخدام كلا النوعين في Azure التعلم الآلي سير عمل التدريب الذي يتضمن المقدرين وAutoML وhyperDrive وخطوط الأنابيب.
مجموعة بيانات الملف
تشير مجموعة FileDataset إلى ملفات مفردة أو متعددة في مخازن البيانات أو عناوين URL العامة. إذا كانت بياناتك قد تم تطهيرها بالفعل، وكانت جاهزة للاستخدام في تجارب التدريب، فيمكنك تنزيل الملفات أو تحميلها على حوسبتك ككائن FileDataset.
نوصي باستخدام FileDatasets لمهام سير عمل التعلم الآلي، نظرا لأن الملفات المصدر يمكن أن تكون بأي تنسيق، مما يتيح مجموعة واسعة من سيناريوهات التعلم الآلي، بما في ذلك التعلم العميق.
إنشاء FileDataset باستخدام Python SDK أو استوديو Azure التعلم الآلي .
TabularDataset
تمثل مجموعة TabularDataset البيانات بتنسيق جدولي عن طريق تحليل الملف المقدم أو قائمة الملفات. يوفر لك ذلك القدرة على تجسيد البيانات في الباندا أو Spark DataFrame حتى تتمكن من العمل مع مكتبات إعداد البيانات والتدريب المألوفة دون الحاجة إلى مغادرة دفتر ملاحظاتك. يمكنك إنشاء TabularDataset كائن من ملفات .csv و .tsv و .parquet و .jsonl ومن نتائج استعلام SQL.
باستخدام TabularDatasets، يمكنك تحديد طابع زمني من عمود في البيانات أو من أي مكان يتم تخزين بيانات نمط المسار لتمكين سمة سلسلة زمنية. تسمح هذه المواصفات بتصفية سهلة وفعالة بمرور الوقت. على سبيل المثال، راجع العرض التوضيحي لواجهة برمجة التطبيقات المرتبط بالسلاسل الزمنية المجدولة مع بيانات الطقس للإدارة الوطنية للمحيطات والغلاف الجوي.
قم بإنشاء مجموعة بيانات TabularData باستخدام استوديو Python SDK أو Azure التعلم الآلي.
ملاحظة
تدعم مهام سير عمل ML التلقائية التي تم إنشاؤها عبر استوديو Azure التعلم الآلي حاليا مجموعات TabularData فقط.
الوصول إلى مجموعات البيانات في شبكة ظاهرية
إذا كانت مساحة العمل الخاصة بك في شبكة ظاهرية، فيجب تكوين مجموعة البيانات لتخطي التحقق من الصحة. لمزيد من المعلومات حول كيفية استخدام مخازن البيانات ومجموعات البيانات في شبكة ظاهرية، راجع تأمين مساحة عمل والموارد المرتبطة بها.
إنشاء مجموعات بيانات من مخازن البيانات
لكي يمكن الوصول إلى البيانات بواسطة Azure التعلم الآلي، يجب إنشاء مجموعات البيانات من المسارات في Azure التعلم الآلي مخازن البيانات أو عناوين URL على الويب.
تلميح
يمكنك إنشاء مجموعات بيانات مباشرة من عناوين URL للتخزين مع الوصول إلى البيانات المستندة إلى الهوية. تعرف على المزيد في الاتصال إلى التخزين باستخدام الوصول إلى البيانات المستندة إلى الهوية.
لإنشاء مجموعات بيانات من مخزن بيانات باستخدام Python SDK:
تحقق من أن لديك
contributorأوownerحق الوصول إلى خدمة التخزين الأساسية لمخزن بيانات Azure التعلم الآلي المسجل. تحقق من أذونات حساب التخزين في مدخل Azure.قم بإنشاء مجموعة البيانات عن طريق الرجوع إلى المسارات في مخزن البيانات. يمكنك إنشاء مجموعة بيانات من مسارات متعددة في مخازن بيانات متعددة. لا يوجد حد ثابت لعدد الملفات أو حجم البيانات التي يمكنك إنشاء مجموعة بيانات منها.
ملاحظة
لكل مسار بيانات، سيتم إرسال بعض الطلبات إلى خدمة التخزين للتحقق مما إذا كانت تشير إلى ملف أو مجلد. قد تؤدي هذه النفقات العامة إلى تدهور الأداء أو الفشل. تعتبر مجموعة البيانات التي تشير إلى مجلد واحد يحتوي على 1000 ملف بداخله مرجعا لمسار بيانات واحد. نوصي بإنشاء مجموعة بيانات تشير إلى أقل من 100 مسار في مخازن البيانات للحصول على الأداء الأمثل.
إنشاء مجموعة بيانات FileData
استخدم الطريقة الموجودة from_files() في FileDatasetFactory الفئة لتحميل الملفات بأي تنسيق وإنشاء FileDataset غير مسجل.
إذا كانت مساحة التخزين خلف شبكة افتراضية أو جدار حماية، فقم بتعيين المعلمة validate=False في طريقتك from_files() . هذا يتجاوز خطوة التحقق الأولية ، ويضمن أنه يمكنك إنشاء مجموعة البيانات الخاصة بك من هذه الملفات الآمنة. تعرف على المزيد حول كيفية استخدام مخازن البيانات ومجموعات البيانات في شبكة افتراضية.
from azureml.core import Workspace, Datastore, Dataset
# create a FileDataset pointing to files in 'animals' folder and its subfolders recursively
datastore_paths = [(datastore, 'animals')]
animal_ds = Dataset.File.from_files(path=datastore_paths)
# create a FileDataset from image and label files behind public web urls
web_paths = ['https://azureopendatastorage.blob.core.windows.net/mnist/train-images-idx3-ubyte.gz',
'https://azureopendatastorage.blob.core.windows.net/mnist/train-labels-idx1-ubyte.gz']
mnist_ds = Dataset.File.from_files(path=web_paths)
إذا كنت ترغب في تحميل كافة الملفات من دليل محلي، فقم بإنشاء FileDataset بطريقة واحدة باستخدام upload_directory(). تقوم هذه الطريقة بتحميل البيانات إلى وحدة التخزين الأساسية الخاصة بك ، ونتيجة لذلك تتحمل تكاليف التخزين.
from azureml.core import Workspace, Datastore, Dataset
from azureml.data.datapath import DataPath
ws = Workspace.from_config()
datastore = Datastore.get(ws, '<name of your datastore>')
ds = Dataset.File.upload_directory(src_dir='<path to you data>',
target=DataPath(datastore, '<path on the datastore>'),
show_progress=True)
لإعادة استخدام مجموعات البيانات ومشاركتها عبر التجربة في مساحة العمل، سجل مجموعة البيانات.
إنشاء مجموعة بيانات جدولية
استخدم الطريقة الموجودة from_delimited_files() في TabularDatasetFactory الفئة لقراءة الملفات بتنسيق .csv أو .tsv، ولإنشاء مجموعة بيانات جدولية غير مسجلة. للقراءة في ملفات من تنسيق .parquet، استخدم الطريقة from_parquet_files() . إذا كنت تقرأ من ملفات متعددة، تجميع النتائج في تمثيل جدولي واحد.
راجع الوثائق المرجعية TabularDatasetFactory للحصول على معلومات حول تنسيقات الملفات المدعومة، بالإضافة إلى أنماط بناء الجملة والتصميم مثل الدعم متعدد الأسطر.
إذا كانت مساحة التخزين خلف شبكة افتراضية أو جدار حماية، فقم بتعيين المعلمة validate=False في طريقتك from_delimited_files() . هذا يتجاوز خطوة التحقق الأولية ، ويضمن أنه يمكنك إنشاء مجموعة البيانات الخاصة بك من هذه الملفات الآمنة. تعرف على المزيد حول كيفية استخدام مخازن البيانات ومجموعات البيانات في شبكة افتراضية.
تحصل التعليمة البرمجية التالية على مساحة العمل الموجودة ومخزن البيانات المطلوب بالاسم. ثم يمرر مخزن البيانات ومواقع الملفات إلى المعلمة path لإنشاء مجموعة TabularData جديدة ، weather_ds.
from azureml.core import Workspace, Datastore, Dataset
datastore_name = 'your datastore name'
# get existing workspace
workspace = Workspace.from_config()
# retrieve an existing datastore in the workspace by name
datastore = Datastore.get(workspace, datastore_name)
# create a TabularDataset from 3 file paths in datastore
datastore_paths = [(datastore, 'weather/2018/11.csv'),
(datastore, 'weather/2018/12.csv'),
(datastore, 'weather/2019/*.csv')]
weather_ds = Dataset.Tabular.from_delimited_files(path=datastore_paths)
تعيين مخطط البيانات
بشكل افتراضي، عند إنشاء TabularDataset، يتم استنتاج أنواع بيانات الأعمدة تلقائيا. إذا كانت الأنواع المستنبطة لا تتطابق مع توقعاتك، فيمكنك تحديث مخطط مجموعة البيانات عن طريق تحديد أنواع الأعمدة باستخدام التعليمة البرمجية التالية. تنطبق المعلمة infer_column_type فقط على مجموعات البيانات التي تم إنشاؤها من ملفات محددة. تعرف على المزيد حول أنواع البيانات المدعومة.
from azureml.core import Dataset
from azureml.data.dataset_factory import DataType
# create a TabularDataset from a delimited file behind a public web url and convert column "Survived" to boolean
web_path ='https://dprepdata.blob.core.windows.net/demo/Titanic.csv'
titanic_ds = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types={'Survived': DataType.to_bool()})
# preview the first 3 rows of titanic_ds
titanic_ds.take(3).to_pandas_dataframe()
| (فهرس) | PassengerId | نجا | بي كلاس | الاسم | جنس | العمر | سيبس | بارش | تذكرة | اجره | المقصورة | شرعت |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 1 | خطأ | 3 | براوند، السيد أوين هاريس | ذكر | 22.0 | 1 | 0 | أ/5 21171 | 7.2500 | S | |
| 1 | 2 | صواب | 1 | كومينغز ، السيدة جون برادلي (فلورنسا بريغز ... | أنثى | 38.0 | 1 | 0 | الكمبيوتر 17599 | 71.2833 | ج٨٥ | C |
| 2 | 3 | صواب | 3 | هايكينن ، الآنسة. لينا | أنثى | 26.0 | 0 | 0 | ستون / O2. 3101282 | 7.9250 | S |
لإعادة استخدام مجموعات البيانات ومشاركتها عبر التجارب في مساحة العمل، سجل مجموعة البيانات.
بيانات المشاجرة
بعد إنشاء مجموعة البيانات وتسجيلها ، يمكنك تحميلها في دفتر الملاحظات الخاص بك لمشاحنات البيانات واستكشافها قبل التدريب على النماذج.
إذا لم تكن بحاجة إلى إجراء أي مشاحنات أو استكشافات للبيانات، فراجع كيفية استهلاك مجموعات البيانات في البرامج النصية للتدريب لإرسال تجارب التعلم الآلي في Train مع مجموعات البيانات.
تصفية مجموعات البيانات (معاينة)
تعتمد إمكانات التصفية على نوع مجموعة البيانات لديك.
هام
تصفية مجموعات البيانات باستخدام طريقة المعاينة، هي ميزة معاينة تجريبية، filter() وقد تتغير في أي وقت.
بالنسبة إلى TabularDatasets، يمكنك الاحتفاظ بالأعمدة أو إزالتها باستخدام طريقتي keep_columns () و drop_columns() .
لتصفية الصفوف حسب قيمة عمود معينة في مجموعة TabularDataset، استخدم أسلوب عامل التصفية () ( المعاينة).
ترجع الأمثلة التالية مجموعة بيانات غير مسجلة استنادا إلى التعبيرات المحددة.
# TabularDataset that only contains records where the age column value is greater than 15
tabular_dataset = tabular_dataset.filter(tabular_dataset['age'] > 15)
# TabularDataset that contains records where the name column value contains 'Bri' and the age column value is greater than 15
tabular_dataset = tabular_dataset.filter((tabular_dataset['name'].contains('Bri')) & (tabular_dataset['age'] > 15))
في FileDatasets، يتوافق كل صف مع مسار ملف، لذا فإن التصفية حسب قيمة العمود ليست مفيدة. ولكن ، يمكنك تصفية () الصفوف حسب البيانات الوصفية مثل CreationTime و Size وما إلى ذلك.
ترجع الأمثلة التالية مجموعة بيانات غير مسجلة استنادا إلى التعبيرات المحددة.
# FileDataset that only contains files where Size is less than 100000
file_dataset = file_dataset.filter(file_dataset.file_metadata['Size'] < 100000)
# FileDataset that only contains files that were either created prior to Jan 1, 2020 or where
file_dataset = file_dataset.filter((file_dataset.file_metadata['CreatedTime'] < datetime(2020,1,1)) | (file_dataset.file_metadata['CanSeek'] == False))
مجموعات البيانات المصنفة التي تم إنشاؤها من مشاريع وضع العلامات على الصور هي حالة خاصة. مجموعات البيانات هذه هي نوع من TabularDataset يتكون من ملفات الصور. بالنسبة لهذه الأنواع من مجموعات البيانات، يمكنك تصفية () الصور حسب البيانات الوصفية، وحسب قيم الأعمدة مثل label و image_details.
# Dataset that only contains records where the label column value is dog
labeled_dataset = labeled_dataset.filter(labeled_dataset['label'] == 'dog')
# Dataset that only contains records where the label and isCrowd columns are True and where the file size is larger than 100000
labeled_dataset = labeled_dataset.filter((labeled_dataset['label']['isCrowd'] == True) & (labeled_dataset.file_metadata['Size'] > 100000))
بيانات التقسيم
يمكنك تقسيم مجموعة بيانات عن طريق تضمين المعلمة partitions_format عند إنشاء TabularDataset أو FileDataset.
عند تقسيم مجموعة بيانات، يتم استخراج معلومات القسم لكل مسار ملف إلى أعمدة استنادا إلى التنسيق المحدد. يجب أن يبدأ التنسيق من موضع مفتاح القسم الأول حتى نهاية مسار الملف.
على سبيل المثال ، بالنظر إلى المسار ../Accounts/2019/01/01/data.jsonl الذي يكون فيه القسم حسب اسم القسم ووقته ؛ partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' يقوم بإنشاء عمود سلسلة "القسم" مع القيمة "الحسابات" وعمود datetime "PartitionDate" مع القيمة 2019-01-01.
إذا كانت بياناتك تحتوي بالفعل على أقسام موجودة وتريد الاحتفاظ بهذا التنسيق، فقم بتضمين المعلمة partitioned_format في طريقتك from_files() لإنشاء FileDataset.
لإنشاء مجموعة TabularDataset التي تحافظ على الأقسام الموجودة، قم بتضمين المعلمة في الأسلوبpartitioned_format from_parquet_files() أو from_delimited_files().
المثال التالي:
- إنشاء مجموعة بيانات FileDataset من الملفات المقسمة.
- يحصل على مفاتيح القسم
- إنشاء مجموعة بيانات FileDataset جديدة ومفهرسة باستخدام
file_dataset = Dataset.File.from_files(data_paths, partition_format = '{userid}/*.wav')
ds.register(name='speech_dataset')
# access partition_keys
indexes = file_dataset.partition_keys # ['userid']
# get all partition key value pairs should return [{'userid': 'user1'}, {'userid': 'user2'}]
partitions = file_dataset.get_partition_key_values()
partitions = file_dataset.get_partition_key_values(['userid'])
# return [{'userid': 'user1'}, {'userid': 'user2'}]
# filter API, this will only download data from user1/ folder
new_file_dataset = file_dataset.filter(ds['userid'] == 'user1').download()
يمكنك أيضا إنشاء بنية أقسام جديدة ل TabularDatasets باستخدام الأسلوب partitions_by() .
dataset = Dataset.get_by_name('test') # indexed by country, state, partition_date
# call partition_by locally
new_dataset = ds.partition_by(name="repartitioned_ds", partition_keys=['country'], target=DataPath(datastore, "repartition"))
partition_keys = new_dataset.partition_keys # ['country']
استكشاف البيانات
بعد الانتهاء من المشاحنات حول بياناتك، يمكنك تسجيل مجموعة البيانات، ثم تحميلها في دفتر الملاحظات لاستكشاف البيانات قبل التدريب على النماذج.
بالنسبة إلى FileDatasets، يمكنك إما تحميل مجموعة البيانات أو تنزيلها ، وتطبيق مكتبات Python التي تستخدمها عادة لاستكشاف البيانات. تعرف على المزيد حول التحميل مقابل التنزيل.
# download the dataset
dataset.download(target_path='.', overwrite=False)
# mount dataset to the temp directory at `mounted_path`
import tempfile
mounted_path = tempfile.mkdtemp()
mount_context = dataset.mount(mounted_path)
mount_context.start()
بالنسبة إلى TabularDatasets، استخدم to_pandas_dataframe() الطريقة لعرض بياناتك في إطار بيانات.
# preview the first 3 rows of titanic_ds
titanic_ds.take(3).to_pandas_dataframe()
| (فهرس) | PassengerId | نجا | بي كلاس | الاسم | جنس | العمر | سيبس | بارش | تذكرة | اجره | المقصورة | شرعت |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 1 | خطأ | 3 | براوند، السيد أوين هاريس | ذكر | 22.0 | 1 | 0 | أ/5 21171 | 7.2500 | S | |
| 1 | 2 | صواب | 1 | كومينغز ، السيدة جون برادلي (فلورنسا بريغز ... | أنثى | 38.0 | 1 | 0 | الكمبيوتر 17599 | 71.2833 | ج٨٥ | C |
| 2 | 3 | صواب | 3 | هايكينن ، الآنسة. لينا | أنثى | 26.0 | 0 | 0 | ستون / O2. 3101282 | 7.9250 | S |
إنشاء مجموعة بيانات من إطار بيانات الباندا
لإنشاء مجموعة بيانات TabularDataset من إطار بيانات الباندا في الذاكرة استخدم الطريقة register_pandas_dataframe() . تقوم هذه الطريقة بتسجيل TabularDataset إلى مساحة العمل وتحميل البيانات إلى وحدة التخزين الأساسية الخاصة بك، والتي تتحمل تكاليف التخزين.
from azureml.core import Workspace, Datastore, Dataset
import pandas as pd
pandas_df = pd.read_csv('<path to your csv file>')
ws = Workspace.from_config()
datastore = Datastore.get(ws, '<name of your datastore>')
dataset = Dataset.Tabular.register_pandas_dataframe(pandas_df, datastore, "dataset_from_pandas_df", show_progress=True)
تلميح
قم بإنشاء مجموعة بيانات TabularData وتسجيلها من إطار بيانات شرارة في الذاكرة أو إطار بيانات dask باستخدام طرق المعاينة العامة ، register_spark_dataframe() و register_dask_dataframe(). هذه الطرق هي ميزات معاينة تجريبية ، وقد تتغير في أي وقت.
تقوم هذه الطرق بتحميل البيانات إلى وحدة التخزين الأساسية الخاصة بك ، ونتيجة لذلك تتحمل تكاليف التخزين.
تسجيل مجموعات البيانات
لإكمال عملية الإنشاء، قم بتسجيل مجموعات البيانات الخاصة بك باستخدام مساحة عمل. استخدم الطريقة register() لتسجيل مجموعات البيانات في مساحة العمل الخاصة بك لمشاركتها مع الآخرين وإعادة استخدامها عبر التجارب في مساحة العمل الخاصة بك:
titanic_ds = titanic_ds.register(workspace=workspace,
name='titanic_ds',
description='titanic training data')
إنشاء مجموعات بيانات باستخدام Azure Resource Manager
هناك العديد من القوالب https://github.com/Azure/azure-quickstart-templates/tree/master//quickstarts/microsoft.machinelearningservices التي يمكن استخدامها لإنشاء مجموعات بيانات.
للحصول على معلومات حول استخدام هذه القوالب، راجع استخدام قالب Azure Resource Manager لإنشاء مساحة عمل ل Azure التعلم الآلي.
تدريب مع مجموعات البيانات
استخدم مجموعات البيانات الخاصة بك في تجارب التعلم الآلي للتدريب على نماذج التعلم الآلي. تعرف على المزيد حول كيفية التدريب باستخدام مجموعات البيانات.
مجموعات بيانات الإصدار
يمكنك تسجيل مجموعة بيانات جديدة بنفس الاسم عن طريق إنشاء إصدار جديد. إصدار مجموعة البيانات هو طريقة لوضع إشارة مرجعية على حالة بياناتك بحيث يمكنك تطبيق إصدار معين من مجموعة البيانات للتجريب أو الاستنساخ المستقبلي. تعرف على المزيد حول إصدارات مجموعة البيانات.
# create a TabularDataset from Titanic training data
web_paths = ['https://dprepdata.blob.core.windows.net/demo/Titanic.csv',
'https://dprepdata.blob.core.windows.net/demo/Titanic2.csv']
titanic_ds = Dataset.Tabular.from_delimited_files(path=web_paths)
# create a new version of titanic_ds
titanic_ds = titanic_ds.register(workspace = workspace,
name = 'titanic_ds',
description = 'new titanic training data',
create_new_version = True)
الخطوات التالية
- تعرف على كيفية التدريب باستخدام مجموعات البيانات.
- استخدم التعلم الآلي الآلي للتدريب باستخدام TabularDatasets.
- لمزيد من الأمثلة التدريبية على مجموعة البيانات، راجع نماذج دفاتر الملاحظات.