يبين مثال دفاتر Jupyter كيفية إثراء البيانات مع Open Datasets
يبين لك مثال دفاتر Jupyter لـ Azure OpenDatasets كيفية تحميل مجموعات البيانات المفتوحة واستخدامها لإثراء البيانات التجريبية. تشمل التقنيات استخدام Apache Spark وPandas لمعالجة البيانات.
هام
عند العمل في بيئة غير بيئة Spark، تسمح Open Datasets بتنزيل شهر واحد فقط من البيانات في كل مرة مع فئات معينة لتجنب MemoryError مع مجموعات البيانات الكبيرة.
تحميل بيانات NOAA Integrated Surface Database (ISD)
دفتر الملاحظات | الوصف |
---|---|
تحميل شهر واحد في الآونة الأخيرة من بيانات الطقس في إطار بيانات Pandas | تعرف على كيفية تحميل بيانات الطقس التاريخية في إطار بيانات Pandas المفضل لديك. |
تحميل شهر واحد من بيانات الطقس في إطار بيانات Spark | تعرف على كيفية تحميل بيانات الطقس التاريخية في إطار بيانات Spark المفضل لديك. |
الانضمام إلى البيانات التجريبية مع بيانات قاعدة بيانات السطح المتكاملة لـ NOAA
دفتر الملاحظات | الوصف |
---|---|
انضم للبيانات التجريبية مع بيانات الطقس - Pandas | انضم إلى مجموعة بيانات تجريبية لمدة شهر واحد لمواقع أجهزة الاستشعار مع قراءات الطقس في إطار بيانات Pandas. |
انضم للبيانات التجريبية مع بيانات الطقس – Spark | انضم إلى مجموعة بيانات تجريبية لمواقع أجهزة الاستشعار مع قراءات الطقس في إطار بيانات Spark. |
انضم إلى بيانات سيارات الأجرة في مدينة نيويورك بيانات قاعدة بيانات السطح المتكاملة لـ NOAA
دفتر الملاحظات | الوصف |
---|---|
بيانات رحلة سيارة أجرة تم إثراؤها ببيانات الطقس - Pandas | تحميل بيانات سيارة أجرة خضراء في مدينة نيويورك (أكثر من 1 شهر) وإثراء ذلك مع بيانات الطقس في إطار بيانات Pandas. يتجاوز هذا المثال الأسلوب get_pandas_limit ويوازن أداء تحميل البيانات مع مقدار البيانات. |
بيانات رحلة سيارة أجرة تم إثراؤها ببيانات الطقس – Spark | تحميل بيانات سيارة أجرة خضراء في مدينة نيويورك وإثراء ذلك مع بيانات الطقس، في إطار البيانات Spark. |