Örnek jupi Not defterleri açık veri kümeleriyle verilerin nasıl zenginleştiralınacağını gösterir

Azure açık veri kümelerine yönelik örnek jupi Not defterleri, açık veri kümelerinin nasıl yükleneceğini ve bunları zenginleştirmek için bunları nasıl kullanacağınızı gösterir. Teknikler, verileri işlemek için Apache Spark ve Pandas kullanımını içerir.

Önemli

Spark olmayan bir ortamda çalışırken, açık veri kümeleri, büyük veri kümeleriyle MemoryError önlemek için belirli sınıflarla tek seferde yalnızca bir ay indirmeyi sağlar.

NOAA tümleşik yüzey veritabanı (ICD) verilerini yükle

Not Defteri Açıklama
Hava durumu verilerinin son ayını bir Pandas dataframe 'e yükleme Geçmiş hava durumu verilerini en sevdiğiniz Pandas dataframe 'e yüklemeyi öğrenin.
Bir Spark veri çerçevesine en son bir hava durumu verileri yükleme Geçmiş hava durumu verilerini en sevdiğiniz Spark dataframe 'e yüklemeyi öğrenin.

NOAA ISD verileri ile tanıtım verilerini birleştirin

Not Defteri Açıklama
Tanıtım verileri ile hava durumu verilerini birleştirin-Pandas Bir Pandas dataframe 'teki Hava durumu okumalarıyla algılayıcı konumlarının 1 aylık tanıtım veri kümesine katın.
Hava durumu verileriyle tanıtım verileri ekleme – Spark Bir Spark veri çerçevesindeki Hava durumu okumalarıyla algılayıcı konumlarının tanıtım veri kümesini birleştirin.

NOAA ıMD verileri ile NYC TAXI verilerini birleştirin

Not Defteri Açıklama
Vergilenme verileri hava durumu verileri ile zenginleştirdim-Pandas NYC yeşil TAXI verilerini yükleyin (1 aydan fazla) ve bir Pandas dataframe içindeki hava durumu verileriyle zenginleştirin. Bu örnek, yöntemini geçersiz kılar get_pandas_limit ve Data Load performansını veri miktarıyla dengeler.
Vergilenme verileri hava durumu verileriyle zenginleştirir – Spark Spark dataframe 'de NYC yeşil TAXI verilerini yükleyin ve hava durumu verileriyle zenginleştirin.

Sonraki adımlar