Příklady Jupyter poznámkových bloků ukazují, jak rozšířit data pomocí otevřených datových sad
Příklady Jupyter poznámkových bloků pro Azure Open DataSet ukazují, jak načíst otevřené datové sady a používat je k obohacení ukázkových dat. Mezi techniky patří použití Apache Spark a PANDAS ke zpracování dat.
Důležité
Když pracujete v prostředí, které není Spark, umožňuje otevřené datové sady stahovat jenom jeden měsíc dat s určitými třídami, aby se předešlo MemoryErrorí s velkými datovými sadami.
Načtení dat NOAA Integrated Surface Database (ISD)
| Poznámkový blok | Popis |
|---|---|
| Načtení jednoho nedávných měsíců dat počasí do PANDAS dataframe | Naučte se, jak načíst historická data o počasí do oblíbeného PANDAS dataframe. |
| Načtení jednoho posledního měsíce dat o počasí do datového rámce Sparku | Naučte se, jak načíst historická data o počasí do oblíbeného datového rámce Sparku. |
Spojit ukázková data s daty NOAA ISD
| Poznámkový blok | Popis |
|---|---|
| Spojit ukázková data s daty o počasí – PANDAS | Propojte si ukázkovou datovou sadu senzorů na 1 měsíc s čtenými počasí v PANDAS dataframe. |
| Spojování ukázkových dat s daty o počasí – Spark | Připojte se k demonstrační datové sadě umístění senzorů s čtenými počasí v dataframe Spark. |
Spojování dat NYC taxislužby s daty NOAA ISD
| Poznámkový blok | Popis |
|---|---|
| Taxislužby data o cestách obohacená daty o počasí – PANDAS | Načtěte data NYC zelenou taxislužby (více než 1 měsíc) a rozšiřte je daty o počasí v dataframe PANDAS. Tento příklad přepisuje metodu get_pandas_limit a vyvažuje výkon načítání dat s množstvím dat. |
| Taxislužby data o cestách obohacená daty o počasí – Spark | Načtěte NYC zelená data taxislužby a rozšiřujte je pomocí dat o počasí v dataframe Spark. |