استيراد مكون البيانات
توضح هذه المقالة مكونا في Azure التعلم الآلي مصمم.
استخدم هذا المكون لتحميل البيانات في خط أنابيب التعلم الآلي من خدمات البيانات السحابية الحالية.
ملاحظة
يمكن إجراء جميع الوظائف التي يوفرها هذا المكون بواسطة datastoreومجموعات البيانات في الصفحة المقصودة worksapce. نوصيك باستخدام مخزن البيانات ومجموعة البيانات التي تتضمن ميزات إضافية مثل مراقبة البيانات . لمعرفة المزيد، راجع مقالة كيفية الوصول إلى البيانات وكيفية تسجيل مجموعات البيانات . بعد تسجيل مجموعة بيانات، يمكنك العثور عليها في فئة مجموعات البيانات ->مجموعات البيانات الخاصة بي في واجهة المصمم. هذا المكون محجوز لمستخدمي الاستوديو (الكلاسيكي) للحصول على تجربة مألوفة.
يدعم مكون استيراد البيانات قراءة البيانات من المصادر التالية:
- عنوان URL عبر HTTP
- التخزين السحابي ل Azure من خلال Datastores)
- Azure Blob Container
- مشاركة ملف Azure
- Azure Data Lake
- Azure Data Lake Gen2
- قاعدة بيانات Azure SQL
- Azure PostgreSQL
قبل استخدام التخزين السحابي، يجب عليك تسجيل مخزن بيانات في مساحة عمل Azure التعلم الآلي أولا. لمزيد من المعلومات، راجع كيفية الوصول إلى البيانات.
بعد تعريف البيانات التي تريدها والاتصال بالمصدر، يستنتج استيراد البيانات نوع البيانات لكل عمود استنادا إلى القيم التي يحتوي عليها، ويقوم بتحميل البيانات في خط أنابيب المصمم. مخرجات استيراد البيانات هي مجموعة بيانات يمكن استخدامها مع أي خط أنابيب مصمم.
إذا تغيرت بيانات المصدر، يمكنك تحديث مجموعة البيانات وإضافة بيانات جديدة عن طريق إعادة تشغيل استيراد البيانات.
تحذير
إذا كانت مساحة العمل الخاصة بك في شبكة ظاهرية، فيجب عليك تكوين مخازن البيانات لاستخدام ميزات تصور البيانات الخاصة بالمصمم. لمزيد من المعلومات حول كيفية استخدام مخازن البيانات ومجموعات البيانات في شبكة ظاهرية، راجع استخدام استوديو Azure التعلم الآلي في شبكة Azure الظاهرية.
كيفية تكوين استيراد البيانات
أضف مكون استيراد البيانات إلى خط الأنابيب. يمكنك العثور على هذا المكون في فئة إدخال البيانات وإخراجها في المصمم.
حدد المكون لفتح الجزء الأيسر.
حدد مصدر البيانات، واختر نوع مصدر البيانات. يمكن أن يكون HTTP أو مخزن البيانات.
إذا اخترت مخزن البيانات، فيمكنك تحديد مخازن البيانات الموجودة المسجلة بالفعل في مساحة عمل Azure التعلم الآلي أو إنشاء مخزن بيانات جديد. ثم حدد مسار البيانات المراد استيرادها في مخزن البيانات. يمكنك بسهولة استعراض المسار عن طريق تحديد استعراض المسار.
ملاحظة
مكون استيراد البيانات مخصص للبيانات الجدولية فقط. إذا كنت ترغب في استيراد ملفات بيانات جدولية متعددة مرة واحدة ، فسيتطلب الأمر الشروط التالية ، وإلا ستحدث أخطاء:
- لتضمين كافة ملفات البيانات في المجلد، تحتاج إلى إدخال
folder_name/**المسار. - يجب ترميز جميع ملفات البيانات في unicode-8.
- يجب أن تحتوي جميع ملفات البيانات على نفس أرقام الأعمدة وأسماء الأعمدة.
- نتيجة استيراد ملفات بيانات متعددة هي تسلسل جميع الصفوف من ملفات متعددة بالترتيب.
- لتضمين كافة ملفات البيانات في المجلد، تحتاج إلى إدخال
حدد مخطط المعاينة لتصفية الأعمدة التي تريد تضمينها. يمكنك أيضا تحديد الإعدادات المتقدمة مثل المحدد في خيارات التحليل.
تحدد خانة الاختيار "إعادة إنشاء الإخراج" ما إذا كنت تريد تنفيذ المكون لإعادة إنشاء الإخراج في وقت التشغيل.
إنه غير محدد افتراضيا ، مما يعني أنه إذا تم تنفيذ المكون بنفس المعلمات سابقا ، فإن النظام يعيد استخدام الإخراج من آخر تشغيل لتقليل وقت التشغيل.
إذا تم تحديده، يقوم النظام بتنفيذ المكون مرة أخرى لإعادة إنشاء المخرجات. لذا حدد هذا الخيار عند تحديث البيانات الأساسية في التخزين ، يمكن أن يساعد في الحصول على أحدث البيانات.
إرسال المسار.
عندما يقوم استيراد البيانات بتحميل البيانات إلى المصمم، فإنه يستنتج نوع البيانات لكل عمود استنادا إلى القيم التي يحتوي عليها، سواء كانت رقمية أو فئوية.
في حالة وجود رأس، يتم استخدام الرأس لتسمية أعمدة مجموعة بيانات الإخراج.
إذا لم تكن هناك رؤوس أعمدة موجودة في البيانات، إنشاء أسماء أعمدة جديدة باستخدام التنسيق col1 وcol2,... ، كولن*.
النتائج
عند اكتمال الاستيراد، انقر بزر الماوس الأيمن فوق مجموعة بيانات الإخراج وحدد تصور لمعرفة ما إذا كان قد تم استيراد البيانات بنجاح.
إذا كنت تريد حفظ البيانات لإعادة استخدامها، بدلا من استيراد مجموعة جديدة من البيانات في كل مرة يتم فيها تشغيل خط الأنابيب، فحدد أيقونة تسجيل مجموعة البيانات ضمن علامة التبويب المخرجات+السجلات في اللوحة اليمنى من المكون. اختر اسما لمجموعة البيانات. تحافظ مجموعة البيانات المحفوظة على البيانات في وقت الحفظ. لا يتم تحديث مجموعة البيانات عند إعادة تشغيل خط الأنابيب، حتى إذا تغيرت مجموعة البيانات في خط الأنابيب. يمكن أن يكون هذا مفيدا لالتقاط لقطات من البيانات.
بعد استيراد البيانات، قد تحتاج إلى بعض الاستعدادات الإضافية للنمذجة والتحليل:
استخدم تحرير بيانات التعريف لتغيير أسماء الأعمدة، أو التعامل مع عمود كنوع بيانات مختلف، أو الإشارة إلى أن بعض الأعمدة عبارة عن تسميات أو ميزات.
استخدم تحديد أعمدة في مجموعة البيانات لتحديد مجموعة فرعية من الأعمدة لتحويلها أو استخدامها في النمذجة. يمكن بسهولة إعادة ضم الأعمدة المحولة أو التي تمت إزالتها إلى مجموعة البيانات الأصلية باستخدام مكون إضافة أعمدة .
استخدم القسم والعينة لتقسيم مجموعة البيانات أو إجراء أخذ العينات أو الحصول على أعلى الصفوف n.
التقييدات
نظرا لقيود الوصول إلى مخزن البيانات، إذا كان خط أنابيب الاستدلال يحتوي على مكون استيراد البيانات ، إزالته تلقائيا عند نشره إلى نقطة النهاية في الوقت الفعلي.
الخطوات التالية
راجع مجموعة المكونات المتوفرة ل Azure التعلم الآلي.
