Exempel på Jupyter Notebooks visar hur du kan utöka data med öppna data uppsättningar
Exemplet Jupyter Notebooks för Azure Open data uppsättningar visar hur du läser in öppna data uppsättningar och använder dem för att utöka demonstrations data. Tekniker inkluderar användning av Apache Spark-och Pandas för att bearbeta data.
Viktigt
När du arbetar i en miljö som inte är Spark-miljö kan öppna data uppsättningar bara hämta en månads data i taget med vissa klasser för att undvika MemoryError med stora data mängder.
Läsa in NOAA ISD-data (Integrated Surface Database)
| Notebook-fil | Description |
|---|---|
| Läs in en senaste månad med väder data till en Pandas-dataframe | Lär dig hur du läser in historiska väder data i dina favorit Pandas-dataframe. |
| Läs in en senaste månad med väder data till en spark-dataframe | Lär dig hur du läser in historiska väder data i din favorit Spark-dataframe. |
Koppla demonstrations data med NOAA ISD-data
| Notebook-fil | Description |
|---|---|
| Delta i demonstrations data med väder data – Pandas | Delta i en demonstrations data uppsättning på en månad med sensor platser med väder läsningar i en Pandas dataframe. |
| Delta i demonstrations data med väder data – Spark | Delta i en demo uppsättning med sensor platser med väder läsningar i en spark-dataframe. |
Delta i NYC taxi-data med NOAA ISD-data
| Notebook-fil | Description |
|---|---|
| Taxi rese data som berikas med väder data – Pandas | Läs in NYCs gröna taxi data (över 1 månad) och utöka den med väder data i en Pandas-dataframe. Det här exemplet åsidosätter metoden get_pandas_limit och balanserar data inläsnings prestanda med data mängden. |
| Taxi rese data som är omfattande med väder data – Spark | Läs in NYCs gröna taxi data och utöka dem med väder data i Spark dataframe. |