Exempel på Jupyter Notebooks visar hur du kan utöka data med öppna data uppsättningar

Exemplet Jupyter Notebooks för Azure Open data uppsättningar visar hur du läser in öppna data uppsättningar och använder dem för att utöka demonstrations data. Tekniker inkluderar användning av Apache Spark-och Pandas för att bearbeta data.

Viktigt

När du arbetar i en miljö som inte är Spark-miljö kan öppna data uppsättningar bara hämta en månads data i taget med vissa klasser för att undvika MemoryError med stora data mängder.

Läsa in NOAA ISD-data (Integrated Surface Database)

Notebook-fil Description
Läs in en senaste månad med väder data till en Pandas-dataframe Lär dig hur du läser in historiska väder data i dina favorit Pandas-dataframe.
Läs in en senaste månad med väder data till en spark-dataframe Lär dig hur du läser in historiska väder data i din favorit Spark-dataframe.

Koppla demonstrations data med NOAA ISD-data

Notebook-fil Description
Delta i demonstrations data med väder data – Pandas Delta i en demonstrations data uppsättning på en månad med sensor platser med väder läsningar i en Pandas dataframe.
Delta i demonstrations data med väder data – Spark Delta i en demo uppsättning med sensor platser med väder läsningar i en spark-dataframe.

Delta i NYC taxi-data med NOAA ISD-data

Notebook-fil Description
Taxi rese data som berikas med väder data – Pandas Läs in NYCs gröna taxi data (över 1 månad) och utöka den med väder data i en Pandas-dataframe. Det här exemplet åsidosätter metoden get_pandas_limit och balanserar data inläsnings prestanda med data mängden.
Taxi rese data som är omfattande med väder data – Spark Läs in NYCs gröna taxi data och utöka dem med väder data i Spark dataframe.

Nästa steg