Примеры записных книжек Jupyter демонстрируют, как обогащать данные с помощью открытых наборов данных

Примеры записных книжек Jupyter для открытых наборов данных Azure демонстрируют, как загружать отрытые наборы данных и обогащать с их помощью демонстрационные данные. Для обработки данных используются такие техники, как Apache Spark и Pandas.

Важно!

При работе в среде, отличной от Spark, открытые наборы данных позволяют скачать за раз данные определенных классов только за один месяц. Это ограничение помогает избежать ошибок памяти при использовании больших наборов данных.

Загрузка данных из базы данных Integrated Surface Database (ISD) Национального управления океанических и атмосферных исследований США (NOAA)

Записная книжка Описание
Загрузка метеоданных за один последний месяц в кадр данных Pandas Узнайте, как загрузить хронологические метеоданные в предпочитаемый кадр данных Pandas.
Загрузка одного последнего месяца метеоданных в кадр данных Spark Узнайте, как загрузить исторические метеоданные в предпочитаемый кадр данных Spark.

Объединение демонстрационных данных с данными ISD NOAA

Записная книжка Описание
Объединение демонстрационных данных с метеоданными — Pandas Объедините демонстрационный набор данных о положениях датчиков за 1 месяц с метеоданными в кадре данных Pandas.
Объединение демонстрационных данных с метеоданными — Spark Объедините демонстрационный набор данных о положениях датчиков с метеоданными в кадре данных Spark.

Объединение данных о такси Нью-Йорка с данными ISD NOAA

Записная книжка Описание
Данные о поездках в такси, обогащенные метеоданными — Pandas Загрузите данные о зеленых такси в Нью-Йорке (более чем за 1 месяц) и обогатите их метеоданными в кадре данных Pandas. Этот пример переопределяет метод get_pandas_limit и выполняет балансировку производительности нагрузки с учетом объема данных.
Данные о поездках в такси, обогащенные метеоданными — Spark Загрузите данные о зеленых такси в Нью-Йорке и обогатите их метеоданными в кадре данных Spark.

Дальнейшие действия