الاتصال إلى البيانات باستخدام استوديو Azure التعلم الآلي
في هذه المقالة، تعرف على كيفية الوصول إلى بياناتك باستخدام استوديو Azure التعلم الآلي. الاتصال إلى بياناتك في خدمات التخزين على Azure باستخدام مخازن بيانات Azure التعلم الآلي، ثم قم بحزم هذه البيانات للمهام في مهام سير عمل ML باستخدام مجموعات بيانات Azure التعلم الآلي.
يحدد الجدول التالي ويلخص فوائد مخازن البيانات ومجموعات البيانات.
| عنصر | الوصف | المزايا |
|---|---|---|
| مخازن البيانات | الاتصال بأمان بخدمة التخزين الخاصة بك على Azure، من خلال تخزين معلومات الاتصال الخاصة بك، مثل معرف الاشتراك وتفويض الرمز المميز في Key Vault المقترن بمساحة العمل | نظرا لأن معلوماتك مخزنة بشكل آمن، فإنك |
| مجموعات البيانات | من خلال إنشاء مجموعة بيانات، يمكنك إنشاء مرجع إلى موقع مصدر البيانات، إلى جانب نسخة من بيانات التعريف الخاصة به. باستخدام مجموعات البيانات التي يمكنك القيام بها، |
نظرا لأنه يتم تقييم مجموعات البيانات بشكل كسول ، وتظل البيانات في موقعها الحالي ، فإنك |
لفهم المكان الذي تتلاءم فيه مخازن البيانات ومجموعات البيانات مع سير العمل العام للوصول إلى البيانات في Azure التعلم الآلي، راجع مقالة الوصول الآمن إلى البيانات.
للحصول على التجربة الأولى للتعليمات البرمجية، راجع المقالات التالية لاستخدام Azure التعلم الآلي Python SDK إلى:
المتطلبات الأساسية
اشتراك Azure. إذا لم يكن لديك اشتراك Azure، فأنشئ حساباً مجانياً قبل أن تبدأ. جرب الإصدار المجاني أو المدفوع من Azure التعلم الآلي.
الوصول إلى استوديو Azure التعلم الآلي.
مساحة عمل Azure التعلم الآلي. أنشئ مساحة عمل Azure Machine Learning.
- عند إنشاء مساحة عمل، يتم تسجيل حاوية Azure blob ومشاركة ملف Azure تلقائيا كمخازن بيانات في مساحة العمل. يتم تسميتهم
workspaceblobstoreوworkspacefilestore، على التوالي. إذا كانworkspaceblobstoreتخزين blob كافيا لاحتياجاتك ، تعيينه كمخزن بيانات افتراضي ، وتم تكوينه بالفعل للاستخدام. وإلا، فأنت بحاجة إلى حساب تخزين على Azure بنوع تخزين مدعوم.
- عند إنشاء مساحة عمل، يتم تسجيل حاوية Azure blob ومشاركة ملف Azure تلقائيا كمخازن بيانات في مساحة العمل. يتم تسميتهم
إنشاء مخازن البيانات
يمكنك إنشاء مخازن بيانات من حلول تخزين Azure هذه. بالنسبة لحلول التخزين غير المدعومة، ولتوفير تكلفة خروج البيانات أثناء تجارب ML، يجب نقل بياناتك إلى حل تخزين Azure مدعوم. تعرف على المزيد حول مخازن البيانات.
يمكنك إنشاء مخازن بيانات باستخدام الوصول المستند إلى بيانات الاعتماد أو الوصول المستند إلى الهوية.
قم بإنشاء مخزن بيانات جديد في بضع خطوات باستخدام استوديو Azure التعلم الآلي.
هام
إذا كان حساب تخزين البيانات الخاص بك في شبكة ظاهرية، فستكون هناك حاجة إلى خطوات تكوين إضافية لضمان وصول الاستوديو إلى بياناتك. راجع خصوصية عزل & الشبكة لضمان تطبيق خطوات التكوين المناسبة.
- سجّل الدخول إلى استوديو التعلم الآلي من Azure.
- حدد مخازن البيانات في الجزء الأيمن ضمن إدارة.
- حدد + New datastore.
- أكمل النموذج لإنشاء مخزن بيانات جديد وتسجيله. يقوم النموذج بتحديث نفسه بذكاء استنادا إلى تحديداتك لنوع تخزين Azure ونوع المصادقة. راجع قسم الوصول إلى التخزين والأذونات لفهم مكان العثور على بيانات اعتماد المصادقة التي تحتاجها لملء هذا النموذج.
يوضح المثال التالي الشكل الذي يبدو عليه النموذج عند إنشاء مخزن بيانات Azure blob:

إنشاء datasets
بعد إنشاء مخزن بيانات، قم بإنشاء مجموعة بيانات للتفاعل مع بياناتك. تقوم مجموعات البيانات بتجميع بياناتك في كائن قابل للاستهلاك يتم تقييمه بشكل كسول لمهام التعلم الآلي، مثل التدريب. تعرف على المزيد حول مجموعات البيانات.
هناك نوعان من مجموعات البيانات ، FileDataset و TabularDataset. تنشئ FileDatasets مراجع إلى ملفات مفردة أو متعددة أو عناوين URL عامة. بينما تمثل مجموعات البيانات المجدولة بياناتك بتنسيق جدولي. يمكنك إنشاء مجموعات TabularDatasets من ملفات .csv و .tsv و .parquet و .jsonl ومن نتائج استعلام SQL.
توضح الخطوات التالية والرسوم المتحركة كيفية إنشاء مجموعة بيانات في استوديو Azure التعلم الآلي.
ملاحظة
يتم تسجيل مجموعات البيانات التي تم إنشاؤها من خلال استوديو Azure التعلم الآلي تلقائيا في مساحة العمل.

لإنشاء مجموعة بيانات في الاستوديو:
سجل الدخول إلى استوديو Azure التعلم الآلي.
حدد مجموعات البيانات في قسم الأصول في الجزء الأيمن.
حدد إنشاء مجموعة بيانات لاختيار مصدر مجموعة البيانات. يمكن أن يكون هذا المصدر ملفات محلية أو مخزن بيانات أو عناوين URL عامة أو مجموعات بيانات Azure المفتوحة.
حدد جدول أو ملف لنوع مجموعة البيانات.
حدد التالي لفتح مخزن البيانات ونموذج تحديد الملف . في هذا النموذج، يمكنك تحديد مكان الاحتفاظ بمجموعة البيانات بعد الإنشاء، وكذلك تحديد ملفات البيانات التي تريد استخدامها لمجموعة البيانات الخاصة بك.
- قم بتمكين تخطي التحقق من الصحة إذا كانت بياناتك في شبكة افتراضية. تعرف على المزيد حول عزل الشبكة الافتراضية وخصوصيتها.
حدد التالي لملء نماذج الإعدادات والمعاينةوالمخطط؛ يتم تعبئتها بذكاء استنادا إلى نوع الملف ويمكنك تكوين مجموعة البيانات الخاصة بك بشكل أكبر قبل الإنشاء على هذه النماذج.
- في نموذج الإعدادات والمعاينة، يمكنك الإشارة إلى ما إذا كانت بياناتك تحتوي على بيانات متعددة الأسطر أم لا.
- في نموذج المخطط، يمكنك تحديد أن مجموعة TabularDataset تحتوي على مكون زمني عن طريق تحديد النوع: الطابع الزمني لعمود التاريخ أو الوقت.
- إذا تمت تهيئة بياناتك في مجموعات فرعية، على سبيل المثال النوافذ الزمنية، وتريد استخدام هذه المجموعات الفرعية للتدريب، فحدد اكتب الطابع الزمني للقسم. يؤدي القيام بذلك إلى تمكين عمليات السلاسل الزمنية على مجموعة البيانات الخاصة بك. تعرف على المزيد حول كيفية الاستفادة من الأقسام في مجموعة البيانات الخاصة بك للتدريب.
حدد التالي لمراجعة نموذج تأكيد التفاصيل . تحقق من تحديداتك وقم بإنشاء ملف تعريف بيانات اختياري لمجموعة البيانات الخاصة بك. تعرف على المزيد حول "data profiling".
حدد إنشاء لإكمال إنشاء مجموعة البيانات.
ملف تعريف البيانات ومعاينتها
بعد إنشاء مجموعة البيانات، تحقق من أنه يمكنك عرض ملف التعريف والمعاينة في الاستوديو من خلال الخطوات التالية.
- تسجيل الدخول إلى استوديو Azure التعلم الآلي
- حدد مجموعات البيانات في قسم الأصول في الجزء الأيمن.
- حدد اسم مجموعة البيانات التي تريد عرضها.
- حدد علامة التبويب استكشاف .
- حدد علامة التبويب معاينة أو ملف التعريف .

يمكنك الحصول على مجموعة كبيرة ومتنوعة من الإحصاءات الموجزة عبر مجموعة البيانات الخاصة بك للتحقق مما إذا كانت مجموعة البيانات الخاصة بك جاهزة للتعلم الآلي. بالنسبة للأعمدة غير الرقمية ، فإنها تتضمن فقط الإحصاءات الأساسية مثل الحد الأدنى والحد الأقصى وعدد الأخطاء. بالنسبة إلى الأعمدة الرقمية، يمكنك أيضا مراجعة لحظاتها الإحصائية وكمياتها المقدرة.
وعلى وجه التحديد، يتضمن ملف تعريف بيانات Azure التعلم الآلي dataset ما يلي:
ملاحظة
تظهر الإدخالات الفارغة للميزات ذات الأنواع غير ذات الصلة.
| الاحصائيه | الوصف |
|---|---|
| الميزة | اسم العمود الذي يتم تلخيصه. |
| ملف التعريف | التصور المضمن استنادا إلى النوع المستنبط. على سبيل المثال، سيكون للسلاسل والمنطقيات والتواريخ عدد قيم، في حين أن الكسور العشرية (الأرقام) لها رسوم بيانية تقريبية. هذا يسمح لك باكتساب فهم سريع لتوزيع البيانات. |
| توزيع النوع | عدد القيم المضمنة للأنواع داخل عمود. الفراغات هي نوعها الخاص ، لذلك هذا التصور مفيد للكشف عن القيم الفردية أو المفقودة. |
| النوع | النوع المستنبط من العمود. تتضمن القيم المحتملة: السلاسل والمنطقيات والتواريخ والكسور العشرية. |
| Min | الحد الأدنى لقيمة العمود. تظهر الإدخالات الفارغة للمعالم التي لا يحتوي نوعها على ترتيب متأصل (مثل المنطقية). |
| حد أقصى | الحد الأقصى لقيمة العمود. |
| العدد | إجمالي عدد الإدخالات المفقودة وغير المفقودة في العمود. |
| لا يفتقد العدد | عدد الإدخالات في العمود غير المفقودة. يتم التعامل مع السلاسل الفارغة والأخطاء كقيم، لذلك لن تساهم في "عدم فقدان العد". |
| كوانتيليس | القيم التقريبية في كل كمية لتوفير إحساس بتوزيع البيانات. |
| المتوسط | المتوسط الحسابي أو المتوسط الحسابي للعمود. |
| الانحراف المعياري | قياس مقدار التشتت أو التباين في بيانات هذا العمود. |
| الفرق | قياس مدى انتشار بيانات هذا العمود عن متوسط قيمته. |
| الانحراف | قياس مدى اختلاف بيانات هذا العمود عن التوزيع الطبيعي. |
| كورتوسيس | قياس مدى كثافة ذيل بيانات هذا العمود مقارنة بالتوزيع الطبيعي. |
الوصول إلى التخزين والأذونات
لضمان اتصالك الآمن بخدمة تخزين Azure، يتطلب Azure التعلم الآلي أن يكون لديك إذن للوصول إلى وحدة تخزين البيانات المقابلة. يعتمد هذا الوصول على بيانات اعتماد المصادقة المستخدمة لتسجيل مخزن البيانات.
شبكة ظاهرية
إذا كان حساب تخزين البيانات الخاص بك في شبكة ظاهرية، فستكون هناك حاجة إلى خطوات تكوين إضافية لضمان وصول Azure التعلم الآلي إلى بياناتك. راجع استخدام استوديو Azure التعلم الآلي في شبكة ظاهرية لضمان تطبيق خطوات التكوين المناسبة عند إنشاء مخزن البيانات وتسجيله.
التحقق من صحة الوصول
تحذير
الوصول عبر المستأجرين إلى حسابات التخزين غير مدعوم. إذا كانت هناك حاجة إلى الوصول عبر المستأجر للسيناريو الخاص بك، فيرجى التواصل مع الاسم المستعار لفريق دعم بيانات AzureML للحصول على المساعدة في amldatasupport@microsoft.com حل التعليمات البرمجية المخصصة.
كجزء من عملية إنشاء مخزن البيانات الأولي وتسجيله، يقوم Azure التعلم الآلي تلقائيا بالتحقق من وجود خدمة التخزين الأساسية وأن المستخدم المقدم (اسم المستخدم أو أصل الخدمة أو رمز SAS) لديه حق الوصول إلى وحدة التخزين المحددة.
بعد إنشاء مخزن البيانات، يتم إجراء هذا التحقق فقط للطرق التي تتطلب الوصول إلى حاوية التخزين الأساسية، وليس في كل مرة يتم فيها استرداد كائنات مخزن البيانات. على سبيل المثال ، يحدث التحقق من الصحة إذا كنت ترغب في تنزيل الملفات من مخزن البيانات الخاص بك ؛ ولكن إذا كنت ترغب فقط في تغيير مخزن البيانات الافتراضي الخاص بك ، فلن يحدث التحقق من الصحة.
لمصادقة وصولك إلى خدمة التخزين الأساسية، يمكنك توفير إما مفتاح حسابك أو الرموز المميزة لتوقيعات الوصول المشترك (SAS) أو مفتاح الخدمة وفقا لنوع مخزن البيانات الذي تريد إنشاؤه. تسرد مصفوفة نوع التخزين أنواع المصادقة المعتمدة التي تتوافق مع كل نوع من أنواع مخزن البيانات.
يمكنك العثور على مفتاح الحساب ورمز SAS المميز والمعلومات الأساسية للخدمة على مدخل Azure الخاص بك.
إذا كنت تخطط لاستخدام مفتاح حساب أو رمز SAS المميز للمصادقة، فحدد حسابات التخزين في الجزء الأيمن، واختر حساب التخزين الذي تريد تسجيله.
- توفر صفحة نظرة عامة معلومات مثل اسم الحساب والحاوية واسم مشاركة الملف.
- بالنسبة إلى مفاتيح الحساب، انتقل إلى مفاتيح Access في جزء الإعدادات.
- بالنسبة إلى الرموز المميزة ل SAS، انتقل إلى توقيعات الوصول المشترك في جزء الإعدادات.
- توفر صفحة نظرة عامة معلومات مثل اسم الحساب والحاوية واسم مشاركة الملف.
إذا كنت تخطط لاستخدام مبدأ خدمة للمصادقة، فانتقل إلى تسجيلات التطبيق وحدد التطبيق الذي تريد استخدامه.
- ستحتوي صفحة النظرة العامة المقابلة لها على المعلومات المطلوبة مثل معرف المستأجر ومعرف العميل.
هام
- إذا كنت بحاجة إلى تغيير مفاتيح الوصول الخاصة بك لحساب Azure Storage (مفتاح الحساب أو رمز SAS المميز)، فتأكد من مزامنة بيانات الاعتماد الجديدة مع مساحة العمل ومخازن البيانات المتصلة بها. تعرف على كيفية مزامنة بيانات الاعتماد المحدثة.
- إذا قمت بإلغاء تسجيل مخزن بيانات يحمل الاسم نفسه وإعادة تسجيله، وفشلت، فقد لا يتم تمكين الحذف الناعم Key Vault Azure لمساحة العمل الخاصة بك. بشكل افتراضي، يتم تمكين الحذف الناعم لمثيل المخزن الرئيسي الذي تم إنشاؤه بواسطة مساحة العمل الخاصة بك، ولكن قد لا يتم تمكينه إذا كنت تستخدم مخزن مفاتيح موجود أو لديك مساحة عمل تم إنشاؤها قبل أكتوبر 2020. للحصول على معلومات حول كيفية تمكين الحذف الناعم، راجع تشغيل الحذف الناعم لمخزن مفاتيح موجود.
الأذونات
بالنسبة إلى حاوية Azure blob ووحدة تخزين Azure Data Lake Gen 2، تأكد من أن بيانات اعتماد المصادقة لديك لديها حق الوصول إلى قارئ بيانات Storage Blob . تعرف على المزيد حول قارئ بيانات Storage Blob. يتم تعيين رمز SAS المميز للحساب افتراضيا بدون أذونات.
للوصول إلى قراءة البيانات، يجب أن تحتوي بيانات اعتماد المصادقة على الحد الأدنى من أذونات القائمة والقراءة للحاويات والكائنات.
للوصول إلى كتابة البيانات ، يلزم أيضا كتابة وإضافة أذونات.
تدريب مع مجموعات البيانات
استخدم مجموعات البيانات الخاصة بك في تجارب التعلم الآلي للتدريب على نماذج التعلم الآلي. تعرف على المزيد حول كيفية التدريب باستخدام مجموعات البيانات
الخطوات التالية
مثال خطوة بخطوة على التدريب باستخدام TabularDatasets والتعلم الآلي الآلي.
لمزيد من الأمثلة التدريبية على مجموعة البيانات، راجع نماذج دفاتر الملاحظات.
