الوصول الآمن إلى البيانات في Azure التعلم الآلي

يجعل Azure التعلم الآلي من السهل الاتصال ببياناتك في السحابة. يوفر طبقة تجريد فوق خدمة التخزين الأساسية ، بحيث يمكنك الوصول إلى بياناتك والعمل معها بأمان دون الحاجة إلى كتابة تعليمات برمجية خاصة بنوع التخزين الخاص بك. يوفر Azure التعلم الآلي أيضا إمكانات البيانات التالية:

  • قابلية التشغيل البيني مع الباندا وإطارات البيانات Spark
  • تعيين الإصدار وتتبع نسب البيانات
  • تسمية البيانات
  • مراقبة انحراف البيانات

سير عمل البيانات

عندما تكون مستعدا لاستخدام البيانات في حل التخزين المستند إلى مجموعة النظراء، نوصي بسير عمل تسليم البيانات التالي. يفترض سير العمل هذا أن لديك حساب تخزين Azure وبيانات في خدمة تخزين مستندة إلى مجموعة النظراء في Azure .

  1. قم بإنشاء مخزن بيانات Azure التعلم الآلي لتخزين معلومات الاتصال بوحدة تخزين Azure الخاصة بك.

  2. من مخزن البيانات هذا، قم بإنشاء مجموعة بيانات Azure التعلم الآلي للإشارة إلى ملف (ملفات) معين في وحدة التخزين الأساسية.

  3. لاستخدام مجموعة البيانات هذه في تجربة التعلم الآلي، يمكنك إما

    1. قم بتثبيته على هدف الحوسبة الخاص بتجربتك للتدريب على النماذج.

      أو

    2. استهلكه مباشرة في حلول Azure التعلم الآلي مثل تشغيل تجارب التعلم الآلي الآلي (ML التلقائي) أو خطوط أنابيب التعلم الآلي أو مصمم Azure التعلم الآلي.

  4. قم بإنشاء شاشات مجموعة بيانات لمجموعة بيانات إخراج النموذج للكشف عن انحراف البيانات.

  5. إذا تم اكتشاف انحراف البيانات، فقم بتحديث مجموعة بيانات الإدخال وإعادة تدريب النموذج وفقا لذلك.

يوفر الرسم التخطيطي التالي عرضا مرئيا لسير العمل الموصى به هذا.

Diagram shows the Azure Storage Service which flows into a datastore, which flows into a dataset. The dataset flows into model training, which flows into data drift, which flows back to dataset.

الاتصال إلى التخزين باستخدام مخازن البيانات

تحتفظ مخازن بيانات Azure التعلم الآلي بأمان بمعلومات الاتصال بوحدة تخزين البيانات الخاصة بك على Azure، حتى لا تضطر إلى ترميزها في البرامج النصية الخاصة بك. قم بالتسجيل وإنشاء مخزن بيانات للاتصال بسهولة بحساب التخزين الخاص بك، والوصول إلى البيانات الموجودة في خدمة التخزين الأساسية.

خدمات التخزين المستندة إلى مجموعة النظراء المدعومة في Azure والتي يمكن تسجيلها كمخازن بيانات:

  • Azure Blob Container
  • مشاركة ملف Azure
  • Azure Data Lake
  • Azure Data Lake Gen2
  • قاعدة بيانات Azure SQL
  • قاعدة بيانات Azure لـ PostgreSQL
  • نظام ملفات Databricks
  • قاعدة بيانات Azure لـ MySQL

تلميح

يمكنك إنشاء مخازن بيانات باستخدام مصادقة تستند إلى بيانات الاعتماد للوصول إلى خدمات التخزين، مثل الرمز المميز لتوقيع الوصول المشترك (SAS). يمكن الوصول إلى بيانات الاعتماد هذه بواسطة المستخدمين الذين لديهم حق وصول Reader إلى مساحة العمل.

إذا كان هذا مصدر قلق، فقم بإنشاء مخزن بيانات يستخدم الوصول إلى البيانات المستند إلى الهوية للاتصال بخدمات التخزين.

البيانات المرجعية المخزنة مع مجموعات البيانات

مجموعات بيانات Azure التعلم الآلي ليست نسخا من بياناتك. من خلال إنشاء مجموعة بيانات، يمكنك إنشاء مرجع إلى البيانات في خدمة التخزين الخاصة بها، إلى جانب نسخة من بيانات التعريف الخاصة بها.

نظرا لأنه يتم تقييم مجموعات البيانات بشكل كسول ، وتظل البيانات في موقعها الحالي ، فإنك

  • لا تتحمل أي تكلفة تخزين إضافية.
  • لا تخاطر بتغيير مصادر بياناتك الأصلية عن غير قصد.
  • تحسين سرعات أداء سير عمل ML.

للتفاعل مع بياناتك المخزنة، أنشئ مجموعة بيانات لحزم بياناتك في كائن قابل للاستهلاك لمهام التعلم الآلي. سجل مجموعة البيانات في مساحة العمل الخاصة بك لمشاركتها وإعادة استخدامها عبر تجارب مختلفة دون تعقيدات استيعاب البيانات.

يمكن إنشاء مجموعات البيانات من الملفات المحلية أو عناوين URL العامة أو مجموعات البيانات المفتوحة في Azure أو خدمات تخزين Azure عبر مخازن البيانات.

هناك أنواع 2 من مجموعات البيانات:

  • تشير مجموعة FileDataset إلى ملفات مفردة أو متعددة في مخازن البيانات أو عناوين URL العامة. إذا كانت بياناتك نظيفة بالفعل وجاهزة للاستخدام في تجارب التدريب، فيمكنك تنزيل الملفات المشار إليها بواسطة FileDatasets أو تحميلها إلى هدف الحوسبة الخاص بك.

  • تمثل مجموعة TabularDataset البيانات بتنسيق جدولي عن طريق تحليل الملف المقدم أو قائمة الملفات. يمكنك تحميل TabularDataset إلى باندا أو Spark DataFrame لمزيد من المعالجة والتطهير. للحصول على قائمة كاملة بتنسيقات البيانات التي يمكنك إنشاء مجموعات بيانات TabularDatasets منها، راجع فئة TabularDatasetFactory.

يمكن العثور على إمكانات إضافية لمجموعات البيانات في الوثائق التالية:

العمل مع بياناتك

باستخدام مجموعات البيانات، يمكنك إنجاز عدد من مهام التعلم الآلي من خلال التكامل السلس مع ميزات Azure التعلم الآلي.

بيانات التسمية باستخدام مشاريع تصنيف البيانات

غالبا ما كان وضع العلامات على كميات كبيرة من البيانات صداعا في مشاريع التعلم الآلي. تتطلب تلك التي تحتوي على مكون رؤية الكمبيوتر ، مثل تصنيف الصور أو اكتشاف الكائنات ، عموما آلاف الصور والتسميات المقابلة.

يمنحك Azure التعلم الآلي موقعا مركزيا لإنشاء مشاريع وضع العلامات وإدارتها ومراقبتها. تساعد مشاريع وضع العلامات على تنسيق البيانات والتسميات وأعضاء الفريق، مما يسمح لك بإدارة مهام وضع العلامات بشكل أكثر كفاءة. المهام المدعومة حاليا هي تصنيف الصور، إما متعددة التسميات أو متعددة الفئات، وتحديد الكائن باستخدام مربعات محدودة.

إنشاء مشروع وضع علامات على الصور أو مشروع وضع علاماتنصية، وإخراج مجموعة بيانات لاستخدامها في تجارب التعلم الآلي.

مراقبة أداء الطراز من خلال انحراف البيانات

في سياق التعلم الآلي ، فإن انحراف البيانات هو التغيير في بيانات إدخال النموذج الذي يؤدي إلى تدهور أداء النموذج. وهو أحد أهم الأسباب التي تجعل دقة النموذج تتدهور بمرور الوقت، وبالتالي فإن مراقبة انحراف البيانات تساعد على اكتشاف مشكلات أداء النموذج.

راجع المقالة إنشاء جهاز عرض مجموعة بيانات، لمعرفة المزيد حول كيفية اكتشاف انحراف البيانات على البيانات الجديدة في مجموعة بيانات والتنبيه إليها.

الخطوات التالية