يبين مثال دفاتر Jupyter كيفية إثراء البيانات مع Open Datasets

مقالة
06/15/2023

يبين لك مثال دفاتر Jupyter لـ Azure OpenDatasets كيفية تحميل مجموعات البيانات المفتوحة واستخدامها لإثراء البيانات التجريبية. تشمل التقنيات استخدام Apache Spark وPandas لمعالجة البيانات.

هام

عند العمل في بيئة غير بيئة Spark، تسمح Open Datasets بتنزيل شهر واحد فقط من البيانات في كل مرة مع فئات معينة لتجنب MemoryError مع مجموعات البيانات الكبيرة.

تحميل بيانات NOAA Integrated Surface Database (ISD)

دفتر الملاحظات	الوصف
تحميل شهر واحد في الآونة الأخيرة من بيانات الطقس في إطار بيانات Pandas	تعرف على كيفية تحميل بيانات الطقس التاريخية في إطار بيانات Pandas المفضل لديك.
تحميل شهر واحد من بيانات الطقس في إطار بيانات Spark	تعرف على كيفية تحميل بيانات الطقس التاريخية في إطار بيانات Spark المفضل لديك.

الانضمام إلى البيانات التجريبية مع بيانات قاعدة بيانات السطح المتكاملة لـ NOAA

دفتر الملاحظات	الوصف
انضم للبيانات التجريبية مع بيانات الطقس - Pandas	انضم إلى مجموعة بيانات تجريبية لمدة شهر واحد لمواقع أجهزة الاستشعار مع قراءات الطقس في إطار بيانات Pandas.
انضم للبيانات التجريبية مع بيانات الطقس – Spark	انضم إلى مجموعة بيانات تجريبية لمواقع أجهزة الاستشعار مع قراءات الطقس في إطار بيانات Spark.

انضم إلى بيانات سيارات الأجرة في مدينة نيويورك بيانات قاعدة بيانات السطح المتكاملة لـ NOAA

دفتر الملاحظات	الوصف
بيانات رحلة سيارة أجرة تم إثراؤها ببيانات الطقس - Pandas	تحميل بيانات سيارة أجرة خضراء في مدينة نيويورك (أكثر من 1 شهر) وإثراء ذلك مع بيانات الطقس في إطار بيانات Pandas. يتجاوز هذا المثال الأسلوب `get_pandas_limit` ويوازن أداء تحميل البيانات مع مقدار البيانات.
بيانات رحلة سيارة أجرة تم إثراؤها ببيانات الطقس – Spark	تحميل بيانات سيارة أجرة خضراء في مدينة نيويورك وإثراء ذلك مع بيانات الطقس، في إطار البيانات Spark.

Share via

يبين مثال دفاتر Jupyter كيفية إثراء البيانات مع Open Datasets

تحميل بيانات NOAA Integrated Surface Database (ISD)

الانضمام إلى البيانات التجريبية مع بيانات قاعدة بيانات السطح المتكاملة لـ NOAA

انضم إلى بيانات سيارات الأجرة في مدينة نيويورك بيانات قاعدة بيانات السطح المتكاملة لـ NOAA

الخطوات التالية

الموارد الإضافية