في هذه المقالة، ستتعلم كيفية استيراد البيانات إلى النظام الأساسي Azure التعلم الآلي من مصادر خارجية. يقوم استيراد البيانات الناجح تلقائيا بإنشاء وتسجيل أصل بيانات Azure التعلم الآلي بالاسم المقدم أثناء هذا الاستيراد. يشبه أصل بيانات Azure التعلم الآلي إشارة مرجعية لمستعرض الويب (المفضلة). لا تحتاج إلى تذكر مسارات التخزين الطويلة (URIs) التي تشير إلى بياناتك الأكثر استخداما. بدلا من ذلك، يمكنك إنشاء أصل بيانات، ثم الوصول إلى هذا الأصل باسم مألوف.
ينشئ استيراد البيانات ذاكرة تخزين مؤقت للبيانات المصدر، جنبا إلى جنب مع بيانات التعريف، للوصول إلى البيانات بشكل أسرع وموثوق به في مهام التدريب على Azure التعلم الآلي. تتجنب ذاكرة التخزين المؤقت للبيانات قيود الشبكة والاتصال. يتم إصدار البيانات المخزنة مؤقتا لدعم إمكانية إعادة الإنتاج. يوفر هذا إمكانات تعيين الإصدار للبيانات المستوردة من مصادر SQL Server. بالإضافة إلى ذلك، توفر البيانات المخزنة مؤقتا دورة حياة البيانات لمهام التدقيق. يستخدم استيراد البيانات ADF (مسارات Azure Data Factory) خلف الكواليس، ما يعني أنه يمكن للمستخدمين تجنب التفاعلات المعقدة مع ADF. في الخلفية، يعالج Azure التعلم الآلي أيضا إدارة حجم تجمع موارد حساب ADF، وتوفير موارد الحوسبة، والتدليس، لتحسين نقل البيانات عن طريق تحديد التوازي المناسب.
يتم تقسيم البيانات المنقولة وتخزينها بأمان كملفات parquet في تخزين Azure. وهذا يتيح معالجة أسرع أثناء التدريب. تتضمن تكاليف حساب ADF فقط الوقت المستخدم لنقل البيانات. تتضمن تكاليف التخزين فقط الوقت اللازم لتخزين البيانات مؤقتا، لأن البيانات المخزنة مؤقتا هي نسخة من البيانات المستوردة من مصدر خارجي. يستضيف تخزين Azure هذا المصدر الخارجي.
تتضمن ميزة التخزين المؤقت تكاليف الحوسبة والتخزين مقدما. ومع ذلك، فإنه يدفع لنفسه، ويمكن توفير المال، لأنه يقلل من تكاليف حساب التدريب المتكررة، مقارنة بالاتصالات المباشرة ببيانات المصدر الخارجي أثناء التدريب. يقوم بالتخزين المؤقت للبيانات كملفات parquet، ما يجعل التدريب على الوظائف أسرع وأكثر موثوقية مقابل مهلات الاتصال لمجموعات البيانات الأكبر. يؤدي هذا إلى إعادة تشغيل أقل، وفشل تدريب أقل.
يمكنك استيراد البيانات من Amazon S3 وAzure SQL و Snowflake.
هام
تُعد هذه الميزة قيد الإصدار الأولي العام في الوقت الحالي. يجري توفير إصدار المعاينة هذا دون اتفاقية على مستوى الخدمة، ولا نوصي باستخدامه لأحمال عمل الإنتاج. بعض الميزات ربما لا تكون مدعمة أو بها بعض القدرات المقيدة.
لاستيراد البيانات بنجاح، يرجى التحقق من تثبيت أحدث حزمة azure-ai-ml (الإصدار 1.15.0 أو أحدث) ل SDK، وملحق ml (الإصدار 2.15.1 أو أحدث).
إذا كان لديك حزمة SDK قديمة أو ملحق CLI، فيرجى إزالة القديم وتثبيت الجديد مع التعليمات البرمجية الموضحة في قسم علامة التبويب. اتبع الإرشادات الخاصة ب SDK وCLI كما هو موضح هنا:
az extension remove -n ml
az extension add -n ml --yes
az extension show -n ml #(the version value needs to be 2.15.1 or later)
pip uninstall azure-ai-ml
pip show azure-ai-ml #(the version value needs to be 1.15.0 or later)
غير متوفر.
الاستيراد من قاعدة بيانات خارجية كأصل بيانات قابل للفصل
إشعار
يمكن أن تحتوي قواعد البيانات الخارجية على تنسيقات Snowflake وAzure SQL وما إلى ذلك.
يمكن لعينات التعليمات البرمجية التالية استيراد البيانات من قواعد البيانات الخارجية. connection يحدد الذي يعالج إجراء الاستيراد بيانات تعريف مصدر بيانات قاعدة البيانات الخارجية. في هذا النموذج، تستورد التعليمات البرمجية البيانات من مورد Snowflake. يشير الاتصال إلى مصدر Snowflake. مع القليل من التعديل، يمكن أن يشير الاتصال إلى مصدر قاعدة بيانات Azure SQL ومصدر قاعدة بيانات Azure SQL. الأصل type المستورد من مصدر قاعدة بيانات خارجي هو mltable.
ضمن الأصول في جزء التنقل الأيمن، حدد البيانات. بعد ذلك، حدد علامة التبويب استيراد البيانات. ثم حدد إنشاء، كما هو موضح في لقطة الشاشة هذه:
في شاشة مصدر البيانات، حدد Snowflake، ثم حدد التالي، كما هو موضح في لقطة الشاشة هذه:
في شاشة نوع البيانات، املأ القيم. يتم تعيين قيمة Type افتراضيا إلى Table (mltable). ثم حدد التالي، كما هو موضح في لقطة الشاشة هذه:
في شاشة إنشاء استيراد البيانات، املأ القيم، وحدد التالي، كما هو موضح في لقطة الشاشة هذه:
املأ القيم في شاشة اختيار مخزن بيانات للإخراج، وحدد التالي، كما هو موضح في لقطة الشاشة هذه. يتم تحديد مخزن البيانات المدارة لمساحة العمل بشكل افتراضي؛ يتم تعيين المسار تلقائيا بواسطة النظام عند اختيار مخزن البيانات المدار. إذا حددت مخزن البيانات المدارة لمساحة العمل، فستظهر القائمة المنسدلة إعداد الحذف التلقائي. يوفر إطارا زمنيا لحذف البيانات لمدة 30 يوما بشكل افتراضي، وتشرح كيفية إدارة أصول البيانات المستوردة كيفية تغيير هذه القيمة.
إشعار
لاختيار مخزن البيانات الخاص بك، حدد مخازن البيانات الأخرى. في هذه الحالة، يجب تحديد مسار موقع ذاكرة التخزين المؤقت للبيانات.
يمكنك إضافة جدول زمني. حدد إضافة جدول كما هو موضح في لقطة الشاشة هذه:
يتم فتح لوحة جديدة، حيث يمكنك تحديد جدول التكرار أو جدول Cron . تظهر لقطة الشاشة هذه لوحة جدول التكرار :
الاسم: المعرف الفريد للجدول الزمني داخل مساحة العمل.
الوصف: وصف الجدول الزمني.
المشغل: نمط تكرار الجدول الزمني، والذي يتضمن الخصائص التالية.
المنطقة الزمنية: يستند حساب وقت المشغل إلى هذه المنطقة الزمنية؛ (UTC) التوقيت العالمي المنسق بشكل افتراضي.
تكرار أو تعبير كرون: حدد التكرار لتحديد النمط المتكرر. ضمن التكرار، يمكنك تحديد تكرار التكرار - بالدقائق أو الساعات أو الأيام أو الأسابيع أو الأشهر.
البدء: يصبح الجدول الأول نشطا في هذا التاريخ. بشكل افتراضي، تاريخ إنشاء هذا الجدول.
النهاية: سيصبح الجدول غير نشط بعد هذا التاريخ. بشكل افتراضي، يكون NONE، مما يعني أن الجدول الزمني سيكون نشطا دائما حتى تقوم بتعطيله يدويا.
العلامات: علامات الجدولة المحددة.
إشعار
تحدد شاشة البدء تاريخ البدء ووقته مع المنطقة الزمنية للجدول الزمني. إذا تم حذف تاريخ البدء، فإن وقت البدء يساوي وقت إنشاء الجدول الزمني. بالنسبة لوقت البدء في الماضي، يتم تشغيل المهمة الأولى في وقت التشغيل المحسوب التالي.
تظهر لقطة الشاشة التالية الشاشة الأخيرة لهذه العملية. راجع اختياراتك، وحدد Create. في هذه الشاشة، والشاشات الأخرى في هذه العملية، حدد رجوع للانتقال إلى الشاشات السابقة لتغيير اختياراتك للقيم.
تظهر لقطة الشاشة هذه لوحة جدول Cron :
الاسم: المعرف الفريد للجدول الزمني داخل مساحة العمل.
الوصف: وصف الجدول الزمني.
المشغل: نمط تكرار الجدول الزمني، والذي يتضمن الخصائص التالية.
المنطقة الزمنية: يستند حساب وقت المشغل إلى هذه المنطقة الزمنية؛ (UTC) التوقيت العالمي المنسق بشكل افتراضي.
التكرار أو تعبير Cron: حدد تعبير cron لتحديد تفاصيل cron.
(مطلوب)expression يستخدم تعبير crontab قياسيا للتعبير عن جدول زمني متكرر. يتكون التعبير المفرد من خمسة حقول محددة بمسافات:
MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK
حرف بدل واحد (*)، والذي يغطي جميع قيم الحقل. يعني *، بالأيام، كل أيام الشهر (الذي يختلف حسب الشهر والسنة).
في expression: "15 16 * * 1" النموذج أعلاه يعني الساعة 16:15 مساء كل يوم اثنين.
يسرد الجدول التالي القيم الصالحة لكل حقل:
الحقل
النطاق
تعليق
MINUTES
0-59
-
HOURS
0-23
-
DAYS
-
غير مدعومة. يتم تجاهل القيمة والتعامل معها على أنها *.
MONTHS
-
غير مدعومة. يتم تجاهل القيمة والتعامل معها على أنها *.
DAYS-OF-WEEK
0-6
صفر (0) يعني يوم الأحد. يتم قبول أسماء الأيام أيضًا.
DAYS وMONTH غير مدعومة. إذا قمت بتمرير إحدى هذه القيم، فسيتم تجاهلها ومعاملتها على أنها *.
البدء: يصبح الجدول الأول نشطا في هذا التاريخ. بشكل افتراضي، تاريخ إنشاء هذا الجدول.
النهاية: سيصبح الجدول غير نشط بعد هذا التاريخ. بشكل افتراضي، يكون NONE، مما يعني أن الجدول الزمني سيكون نشطا دائما حتى تقوم بتعطيله يدويا.
العلامات: علامات الجدولة المحددة.
إشعار
تحدد شاشة البدء تاريخ البدء ووقته مع المنطقة الزمنية للجدول الزمني. إذا تم حذف تاريخ البدء، فإن وقت البدء يساوي وقت إنشاء الجدول الزمني. بالنسبة لوقت البدء في الماضي، يتم تشغيل المهمة الأولى في وقت التشغيل المحسوب التالي.
تظهر لقطة الشاشة التالية الشاشة الأخيرة لهذه العملية. راجع اختياراتك، وحدد Create. في هذه الشاشة، والشاشات الأخرى في هذه العملية، حدد رجوع للانتقال إلى الشاشات السابقة لتغيير اختياراتك للقيم.
استيراد البيانات من نظام ملفات خارجي كأصل بيانات مجلد
إشعار
يمكن أن يعمل مورد بيانات Amazon S3 كمورد نظام ملفات خارجي.
connection يحدد الذي يعالج إجراء استيراد البيانات جوانب مصدر البيانات الخارجي. يعرف الاتصال مستودع Amazon S3 كهدف. يتوقع الاتصال قيمة صالحة path . تحتوي قيمة الأصل المستوردة من مصدر نظام ملفات خارجي على type من uri_folder.
يقوم نموذج التعليمات البرمجية التالي باستيراد البيانات من مورد Amazon S3.
ضمن الأصول في جزء التنقل الأيمن، حدد البيانات. بعد ذلك، حدد علامة التبويب استيراد البيانات. ثم حدد إنشاء كما هو موضح في لقطة الشاشة هذه:
في شاشة مصدر البيانات، حدد S3، ثم حدد التالي، كما هو موضح في لقطة الشاشة هذه:
في شاشة نوع البيانات، املأ القيم. يتم تعيين قيمة النوع افتراضيا إلى مجلد (uri_folder). ثم حدد التالي، كما هو موضح في لقطة الشاشة هذه:
في شاشة إنشاء استيراد البيانات، املأ القيم، وحدد التالي، كما هو موضح في لقطة الشاشة هذه:
املأ القيم في شاشة اختيار مخزن بيانات للإخراج، وحدد التالي، كما هو موضح في لقطة الشاشة هذه. يتم تحديد مخزن البيانات المدارة لمساحة العمل بشكل افتراضي؛ يتم تعيين المسار تلقائيا بواسطة النظام عند اختيار مخزن البيانات المدار. إذا حددت مخزن البيانات المدارة لمساحة العمل، فستظهر القائمة المنسدلة إعداد الحذف التلقائي. يوفر إطارا زمنيا لحذف البيانات لمدة 30 يوما بشكل افتراضي، وتشرح كيفية إدارة أصول البيانات المستوردة كيفية تغيير هذه القيمة.
يمكنك إضافة جدول زمني. حدد إضافة جدول كما هو موضح في لقطة الشاشة هذه:
يتم فتح لوحة جديدة، حيث يمكنك تحديد جدول التكرار ، أو جدول Cron . تظهر لقطة الشاشة هذه لوحة جدول التكرار :
الاسم: المعرف الفريد للجدول الزمني داخل مساحة العمل.
الوصف: وصف الجدول الزمني.
المشغل: نمط تكرار الجدول الزمني، والذي يتضمن الخصائص التالية.
المنطقة الزمنية: يستند حساب وقت المشغل إلى هذه المنطقة الزمنية؛ (UTC) التوقيت العالمي المنسق بشكل افتراضي.
تكرار أو تعبير كرون: حدد التكرار لتحديد النمط المتكرر. ضمن التكرار، يمكنك تحديد تكرار التكرار - بالدقائق أو الساعات أو الأيام أو الأسابيع أو الأشهر.
البدء: يصبح الجدول الأول نشطا في هذا التاريخ. بشكل افتراضي، تاريخ إنشاء هذا الجدول.
النهاية: سيصبح الجدول غير نشط بعد هذا التاريخ. بشكل افتراضي، يكون NONE، مما يعني أن الجدول الزمني سيكون نشطا دائما حتى تقوم بتعطيله يدويا.
العلامات: علامات الجدولة المحددة.
إشعار
تحدد شاشة البدء تاريخ البدء ووقته مع المنطقة الزمنية للجدول الزمني. إذا تم حذف تاريخ البدء، فإن وقت البدء يساوي وقت إنشاء الجدول الزمني. بالنسبة لوقت البدء في الماضي، يتم تشغيل المهمة الأولى في وقت التشغيل المحسوب التالي.
كما هو موضح في لقطة الشاشة التالية، راجع اختياراتك في الشاشة الأخيرة من هذه العملية، وحدد إنشاء. في هذه الشاشة، والشاشات الأخرى في هذه العملية، حدد رجوع للانتقال إلى الشاشات السابقة إذا كنت ترغب في تغيير اختياراتك للقيم.
تظهر لقطة الشاشة التالية الشاشة الأخيرة لهذه العملية. راجع اختياراتك، وحدد Create. في هذه الشاشة، والشاشات الأخرى في هذه العملية، حدد رجوع للانتقال إلى الشاشات السابقة لتغيير اختياراتك للقيم.
تظهر لقطة الشاشة هذه لوحة جدول Cron :
الاسم: المعرف الفريد للجدول الزمني داخل مساحة العمل.
الوصف: وصف الجدول الزمني.
المشغل: نمط تكرار الجدول الزمني، والذي يتضمن الخصائص التالية.
المنطقة الزمنية: يستند حساب وقت المشغل إلى هذه المنطقة الزمنية؛ (UTC) التوقيت العالمي المنسق بشكل افتراضي.
التكرار أو تعبير Cron: حدد تعبير cron لتحديد تفاصيل cron.
(مطلوب)expression يستخدم تعبير crontab قياسيا للتعبير عن جدول زمني متكرر. يتكون التعبير المفرد من خمسة حقول محددة بمسافات:
MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK
حرف بدل واحد (*)، والذي يغطي جميع قيم الحقل. يعني *، بالأيام، كل أيام الشهر (الذي يختلف حسب الشهر والسنة).
في expression: "15 16 * * 1" النموذج أعلاه يعني الساعة 16:15 مساء كل يوم اثنين.
يسرد الجدول التالي القيم الصالحة لكل حقل:
الحقل
النطاق
تعليق
MINUTES
0-59
-
HOURS
0-23
-
DAYS
-
غير مدعومة. يتم تجاهل القيمة والتعامل معها على أنها *.
MONTHS
-
غير مدعومة. يتم تجاهل القيمة والتعامل معها على أنها *.
DAYS-OF-WEEK
0-6
صفر (0) يعني يوم الأحد. يتم قبول أسماء الأيام أيضًا.
DAYS وMONTH غير مدعومة. إذا قمت بتمرير إحدى هذه القيم، فسيتم تجاهلها ومعاملتها على أنها *.
البدء: يصبح الجدول الأول نشطا في هذا التاريخ. بشكل افتراضي، تاريخ إنشاء هذا الجدول.
النهاية: سيصبح الجدول غير نشط بعد هذا التاريخ. بشكل افتراضي، يكون NONE، مما يعني أن الجدول الزمني سيكون نشطا دائما حتى تقوم بتعطيله يدويا.
العلامات: علامات الجدولة المحددة.
إشعار
تحدد شاشة البدء تاريخ البدء ووقته مع المنطقة الزمنية للجدول الزمني. إذا تم حذف تاريخ البدء، فإن وقت البدء يساوي وقت إنشاء الجدول الزمني. بالنسبة لوقت البدء في الماضي، يتم تشغيل المهمة الأولى في وقت التشغيل المحسوب التالي.
تظهر لقطة الشاشة التالية الشاشة الأخيرة لهذه العملية. راجع اختياراتك، وحدد Create. في هذه الشاشة، والشاشات الأخرى في هذه العملية، حدد رجوع للانتقال إلى الشاشات السابقة لتغيير اختياراتك للقيم.
التحقق من حالة استيراد مصادر البيانات الخارجية
إجراء استيراد البيانات هو إجراء غير متزامن. قد يستغرق الأمر وقتا طويلا. بعد إرسال إجراء استيراد البيانات عبر CLI أو SDK، قد تحتاج خدمة Azure التعلم الآلي إلى عدة دقائق للاتصال بمصدر البيانات الخارجي. بعد ذلك، ستبدأ الخدمة في استيراد البيانات، وتتعامل مع التخزين المؤقت للبيانات والتسجيل. يعتمد الوقت اللازم لاستيراد البيانات أيضا على حجم مجموعة البيانات المصدر.
يرجع المثال التالي حالة نشاط استيراد البيانات المرسلة. يستخدم الأمر أو الأسلوب اسم "أصل البيانات" كمدخل لتحديد حالة تجسيد البيانات.