يبين مثال دفاتر Jupyter كيفية إثراء البيانات مع Open Datasets

يبين لك مثال دفاتر Jupyter لـ Azure OpenDatasets كيفية تحميل مجموعات البيانات المفتوحة واستخدامها لإثراء البيانات التجريبية. تشمل التقنيات استخدام Apache Spark وPandas لمعالجة البيانات.

هام

عند العمل في بيئة غير بيئة Spark، تسمح Open Datasets بتنزيل شهر واحد فقط من البيانات في كل مرة مع فئات معينة لتجنب MemoryError مع مجموعات البيانات الكبيرة.

تحميل بيانات NOAA Integrated Surface Database (ISD)

دفتر الملاحظات الوصف
تحميل شهر واحد في الآونة الأخيرة من بيانات الطقس في إطار بيانات Pandas تعرف على كيفية تحميل بيانات الطقس التاريخية في إطار بيانات Pandas المفضل لديك.
تحميل شهر واحد من بيانات الطقس في إطار بيانات Spark تعرف على كيفية تحميل بيانات الطقس التاريخية في إطار بيانات Spark المفضل لديك.

الانضمام إلى البيانات التجريبية مع بيانات قاعدة بيانات السطح المتكاملة لـ NOAA

دفتر الملاحظات الوصف
انضم للبيانات التجريبية مع بيانات الطقس - Pandas انضم إلى مجموعة بيانات تجريبية لمدة شهر واحد لمواقع أجهزة الاستشعار مع قراءات الطقس في إطار بيانات Pandas.
انضم للبيانات التجريبية مع بيانات الطقس – Spark انضم إلى مجموعة بيانات تجريبية لمواقع أجهزة الاستشعار مع قراءات الطقس في إطار بيانات Spark.

انضم إلى بيانات سيارات الأجرة في مدينة نيويورك بيانات قاعدة بيانات السطح المتكاملة لـ NOAA

دفتر الملاحظات الوصف
بيانات رحلة سيارة أجرة تم إثراؤها ببيانات الطقس - Pandas تحميل بيانات سيارة أجرة خضراء في مدينة نيويورك (أكثر من 1 شهر) وإثراء ذلك مع بيانات الطقس في إطار بيانات Pandas. يتجاوز هذا المثال الأسلوب get_pandas_limit ويوازن أداء تحميل البيانات مع مقدار البيانات.
بيانات رحلة سيارة أجرة تم إثراؤها ببيانات الطقس – Spark تحميل بيانات سيارة أجرة خضراء في مدينة نيويورك وإثراء ذلك مع بيانات الطقس، في إطار البيانات Spark.

الخطوات التالية