ما هي مجموعات بيانات Azure المفتوحة وكيف يمكنك استخدامها؟

مجموعات بيانات Azure المفتوحة هي مجموعات بيانات عامة منسقة يمكنك استخدامها لإضافة ميزات خاصة بالسيناريوهات إلى حلول التعلم الآلي للحصول على نماذج أكثر دقة. توجد مجموعات البيانات المفتوحة في السحابة على Microsoft Azure وهي مدمجة في التعلم الآلي من Microsoft Azure ومتاحة للوصول إليها بسهولة بواسطة Azure Databricks واستوديو التعلم الآلي (الكلاسيكي). يمكنك أيضا الوصول إلى مجموعات البيانات من خلال واجهات برمجة التطبيقات واستخدامها في منتجات أخرى، مثل Power BI وAzure Data Factory.

تتضمن مجموعات البيانات بيانات المجال العام الخاصة بالطقس والتعداد والعطلات والسلامة العامة والموقع والتي تساعدك على تدريب نماذج التعلم الآلي وإثراء الحلول التنبؤية. يمكنك أيضًا مشاركة مجموعات بياناتك العامة على مجموعات بيانات Azure المفتوحة.

مكونات مجموعات بيانات Azure المفتوحة

مجموعات بيانات منظمة ومجهزة

تم تحسين مجموعات البيانات العامة المفتوحة المنسقة في مجموعات بيانات Azure المفتوحة للاستهلاك في مهام سير عمل التعلم الآلي.

للاطلاع على كافة مجموعات البيانات المتوفرة، انتقل إلى كتالوج مجموعات بيانات Azure المفتوحة.

وغالبًا ما يقضي علماء البيانات معظم وقتهم في تنقية البيانات وإعدادها للتحليلات المتقدمة. يتم نسخ مجموعات البيانات المفتوحة إلى سحابة Azure ومعالجتها مسبقًا لتوفير الوقت. ويتم سحب البيانات من المصادر على فترات منتظمة، مثل وصلة بروتوكول نقل الملفات (أف تي بي) بالإدارة الوطنية للمحيطات والغلاف الجوي. بعد ذلك، يتم تحليل البيانات في تنسيق مهيكل، ثم يتم إثراءها حسب الاقتضاء مع ميزات مثل الرمز البريدي أو موقع أقرب محطة للطقس.

يتم استضافة مجموعات البيانات باستخدام الحوسبة السحابية في Azure مما يجعل الوصول والتناول أكثر سهولة.

فيما يلي أمثلة لمجموعات البيانات المتوفرة.

بيانات الطقس

مجموعة البيانات دفاتر الملاحظات الوصف
بيانات السطح المتكاملة للإدارة الوطنية للمحيطات والغلاف الجوي (ISD) Azure Notebooks
Azure Databricks
بيانات الطقس في جميع أنحاء العالم كل ساعة من الإدارة الوطنية للمحيطات والغلاف الجوي مع أفضل تغطية مكانية في أمريكا الشمالية وأوروبا وأستراليا وأجزاء من آسيا. تُحدث يومياً.
نظام التنبؤ العالمي للإدارة الوطنية للمحيطات والغلاف الجوي (GFS) Azure Notebooks
Azure Databricks
بيانات توقعات الطقس في الولايات المتحدة لمدة 15 يومًا على مدار الساعة من الإدارة الوطنية للمحيطات والغلاف الجوي. تُحدث يومياً.

بيانات التقويم

مجموعة البيانات دفاتر الملاحظات الوصف
العطلات الرسمية Azure Notebooks
Azure Databricks
بيانات العطلات الرسمية في جميع أنحاء العالم، والتي تغطي 41 دولة أو منطقة من عام 1970 إلى عام 2099. يتضمن البلد/المنطقة وما إذا كان معظم الأشخاص قد دفعوا عطلة أم لا.

الوصول إلى مجموعات البيانات

باستخدام حساب Azure، يمكنك الوصول إلى مجموعات البيانات المفتوحة باستخدام التعليمات البرمجية أو من خلال واجهة خدمة Azure. يتم تجميع البيانات مع موارد حوسبة Azure السحابية لاستخدامها في حل التعلم الآلي.

تتوفر مجموعات البيانات المفتوحة من خلال واجهة المستخدم وSDK للتعلم الآلي من Azure. توفر مجموعات البيانات المفتوحة أيضا دفاتر ملاحظات Azure ودفاتر ملاحظاتAzure Databricks التي يمكنك استخدامها لتوصيل البيانات بالتعلم الآلي من Azure وAzure Databricks. ويمكن أيضا الوصول إلى مجموعات البيانات من خلال Python SDK.

ومع ذلك، لا تحتاج إلى حساب Azure للوصول إلى "مجموعات البيانات المفتوحة"؛ ويمكنك الوصول إليها من أي بيئة Python باستخدام Spark أو بدونه.

طلب مجموعات البيانات أو المساهمة فيها

إذا لم تتمكن من العثور على البيانات التي تريدها، أرسل إلينا رسالة إلكترونية لـطلب مجموعة بيانات أو المساهمة في مجموعة بيانات.

الخطوات التالية