Примеры записных книжек Jupyter демонстрируют, как обогащать данные с помощью открытых наборов данных

Статья
06/01/2023

Примеры записных книжек Jupyter для открытых наборов данных Azure демонстрируют, как загружать отрытые наборы данных и обогащать с их помощью демонстрационные данные. Для обработки данных используются такие техники, как Apache Spark и Pandas.

Важно!

При работе в среде, отличной от Spark, открытые наборы данных позволяют скачать за раз данные определенных классов только за один месяц. Это ограничение помогает избежать ошибок памяти при использовании больших наборов данных.

Загрузка данных из базы данных Integrated Surface Database (ISD) Национального управления океанических и атмосферных исследований США (NOAA)

Записная книжка	Описание
Загрузка метеоданных за один последний месяц в кадр данных Pandas	Узнайте, как загрузить хронологические метеоданные в предпочитаемый кадр данных Pandas.
Загрузка одного последнего месяца метеоданных в кадр данных Spark	Узнайте, как загрузить исторические метеоданные в предпочитаемый кадр данных Spark.

Объединение демонстрационных данных с данными ISD NOAA

Записная книжка	Описание
Объединение демонстрационных данных с метеоданными — Pandas	Объедините демонстрационный набор данных о положениях датчиков за 1 месяц с метеоданными в кадре данных Pandas.
Объединение демонстрационных данных с метеоданными — Spark	Объедините демонстрационный набор данных о положениях датчиков с метеоданными в кадре данных Spark.

Объединение данных о такси Нью-Йорка с данными ISD NOAA

Записная книжка Описание

Данные о поездках в такси, обогащенные метеоданными — Pandas Загрузите данные о зеленых такси в Нью-Йорке (более чем за 1 месяц) и обогатите их метеоданными в кадре данных Pandas. Этот пример переопределяет метод get_pandas_limit и выполняет балансировку производительности нагрузки с учетом объема данных.

Данные о поездках в такси, обогащенные метеоданными — Spark Загрузите данные о зеленых такси в Нью-Йорке и обогатите их метеоданными в кадре данных Spark.

Записная книжка	Описание
Данные о поездках в такси, обогащенные метеоданными — Pandas	Загрузите данные о зеленых такси в Нью-Йорке (более чем за 1 месяц) и обогатите их метеоданными в кадре данных Pandas. Этот пример переопределяет метод `get_pandas_limit` и выполняет балансировку производительности нагрузки с учетом объема данных.
Данные о поездках в такси, обогащенные метеоданными — Spark	Загрузите данные о зеленых такси в Нью-Йорке и обогатите их метеоданными в кадре данных Spark.

Share via

Примеры записных книжек Jupyter демонстрируют, как обогащать данные с помощью открытых наборов данных

Загрузка данных из базы данных Integrated Surface Database (ISD) Национального управления океанических и атмосферных исследований США (NOAA)

Объединение демонстрационных данных с данными ISD NOAA

Объединение данных о такси Нью-Йорка с данными ISD NOAA

Дальнейшие действия

Дополнительные ресурсы