A Jupyter-jegyzetfüzetek példái bemutatják, hogyan bővítheti az adatokat az Open Datasets használatával

Cikk
06/15/2023

Az Azure Open Dataset-hez készült Jupyter-jegyzetfüzetek példa bemutatja, hogyan tölthet be nyitott adathalmazokat, és hogyan bővítheti a bemutatóadatokat. A technikák közé tartozik az Apache Spark és a Pandas használata az adatok feldolgozásához.

Fontos

Ha nem Spark-környezetben dolgozik, az Open Datasets lehetővé teszi, hogy egyszerre csak egy hónapnyi adatot töltsön le bizonyos osztályokkal, hogy elkerülje a nagy adathalmazokkal rendelkező MemoryErrort.

NOAA integrált Surface-adatbázis (ISD) adatainak betöltése

Jegyzetfüzet	Description
Időjárási adatok betöltése egy pandas-adatkeretbe az elmúlt egy hónapban	Megtudhatja, hogyan töltheti be az előzmény időjárási adatokat kedvenc Pandas-adatkeretébe.
Az időjárási adatok egy legutóbbi hónapjának betöltése Spark-adatkeretbe	Megtudhatja, hogyan töltheti be az előzmény időjárási adatokat kedvenc Spark-adatkeretébe.

Bemutatóadatok csatlakoztatása NOAA ISD-adatokkal

Jegyzetfüzet	Description
Bemutatóadatok csatlakoztatása időjárási adatokkal – Pandas	Csatlakozzon egy 1 hónapos bemutató adatkészlethez az érzékelőhelyekről az időjárási adatokkal egy Pandas-adatkeretben.
Bemutatóadatok csatlakoztatása időjárási adatokkal – Spark	Csatlakozzon egy bemutató adathalmazhoz az érzékelőhelyekről a Spark-adatkeret időjárási adataival.

NYC taxiadatok csatlakoztatása NOAA ISD-adatokkal

Jegyzetfüzet	Description
Időjárási adatokkal gazdagított taxiútadatok – Pandas	Töltse be a NYC zöld taxis adatait (több mint 1 hónap), és gazdagítsa azokat időjárási adatokkal egy Pandas-adatkeretben. Ez a példa felülbírálja a metódust `get_pandas_limit` , és kiegyensúlyálja az adatbetöltési teljesítményt az adatok mennyiségével.
Időjárási adatokkal gazdagított taxiútadatok – Spark	Töltse be az NYC zöld taxis adatait, és gazdagítsa azokat időjárási adatokkal a Spark-adatkeretben.

Megosztás a következőn keresztül:

A Jupyter-jegyzetfüzetek példái bemutatják, hogyan bővítheti az adatokat az Open Datasets használatával

NOAA integrált Surface-adatbázis (ISD) adatainak betöltése

Bemutatóadatok csatlakoztatása NOAA ISD-adatokkal

NYC taxiadatok csatlakoztatása NOAA ISD-adatokkal

Következő lépések

További források