Příklady Jupyter poznámkových bloků ukazují, jak rozšířit data pomocí otevřených datových sad

Příklady Jupyter poznámkových bloků pro Azure Open DataSet ukazují, jak načíst otevřené datové sady a používat je k obohacení ukázkových dat. Mezi techniky patří použití Apache Spark a PANDAS ke zpracování dat.

Důležité

Když pracujete v prostředí, které není Spark, umožňuje otevřené datové sady stahovat jenom jeden měsíc dat s určitými třídami, aby se předešlo MemoryErrorí s velkými datovými sadami.

Načtení dat NOAA Integrated Surface Database (ISD)

Poznámkový blok Popis
Načtení jednoho nedávných měsíců dat počasí do PANDAS dataframe Naučte se, jak načíst historická data o počasí do oblíbeného PANDAS dataframe.
Načtení jednoho posledního měsíce dat o počasí do datového rámce Sparku Naučte se, jak načíst historická data o počasí do oblíbeného datového rámce Sparku.

Spojit ukázková data s daty NOAA ISD

Poznámkový blok Popis
Spojit ukázková data s daty o počasí – PANDAS Propojte si ukázkovou datovou sadu senzorů na 1 měsíc s čtenými počasí v PANDAS dataframe.
Spojování ukázkových dat s daty o počasí – Spark Připojte se k demonstrační datové sadě umístění senzorů s čtenými počasí v dataframe Spark.

Spojování dat NYC taxislužby s daty NOAA ISD

Poznámkový blok Popis
Taxislužby data o cestách obohacená daty o počasí – PANDAS Načtěte data NYC zelenou taxislužby (více než 1 měsíc) a rozšiřte je daty o počasí v dataframe PANDAS. Tento příklad přepisuje metodu get_pandas_limit a vyvažuje výkon načítání dat s množstvím dat.
Taxislužby data o cestách obohacená daty o počasí – Spark Načtěte NYC zelená data taxislužby a rozšiřujte je pomocí dat o počasí v dataframe Spark.

Další kroky